Adaboost(AdaBoost, Adaptive Boosting)는 약한 학습기(weak learners)를 결합하여 강한 학습기(strong learner)를 만드는 앙상블 학습 방법 중 하나입니다. 여기서 약한 학습기란 개별적으로는 성능이 좋지 않지만, 여러 개를 결합하면 성능이 크게 향상되는 모델을 말합니다. AdaBoost는 주로 의사결정 스텀프(decision stump, 깊이가 1인 의사결정 나무)를 약한 학습기로 사용합니다.AdaBoost의 원리AdaBoost의 핵심 아이디어는 각 학습기의 예측 오류에 따라 데이터 포인트의 가중치를 조정하여 다음 학습기에서 더 나은 예측을 할 수 있도록 하는 것입니다. AdaBoost는 반복적으로 학습기를 학습시키고 결합하는 과정에서 오류가 큰 데이터 포인..
모델 설명(Model Explanation)은 머신러닝 모델의 예측 결과를 이해하고 신뢰할 수 있도록 하는 중요한 과정입니다. 모델 설명은 특히 블랙박스 모델(예: 딥러닝, 랜덤 포레스트)에서 중요합니다. 모델 설명을 위해 다양한 방법과 도구가 존재하며, 대표적인 방법은 다음과 같습니다:1. 단순 모델 사용단순하고 해석 가능한 모델(예: 선형 회귀, 의사결정 나무)을 사용하면 모델의 동작을 더 쉽게 설명할 수 있습니다.2. Feature Importance특징 중요도는 모델이 예측을 위해 사용하는 각 특징의 상대적 중요도를 나타냅니다. 랜덤 포레스트와 같은 앙상블 모델에서는 각 특징의 중요도를 추출할 수 있습니다.예시from sklearn.ensemble import RandomForestClassifi..
Validation set(검증 세트)는 모델의 성능을 평가하고 최적화하기 위해 데이터를 나누는 중요한 단계 중 하나입니다. 검증 세트를 만드는 이유는 다음과 같습니다:1. 모델 튜닝검증 세트는 하이퍼파라미터 튜닝에 사용됩니다. 모델의 성능을 최적화하기 위해 다양한 하이퍼파라미터 값을 시도할 때, 검증 세트를 사용하여 각 설정의 성능을 평가하고 가장 좋은 하이퍼파라미터를 선택할 수 있습니다.2. 과적합 방지훈련 세트만을 사용하여 모델을 학습하면 모델이 훈련 데이터에 과적합(overfitting)될 수 있습니다. 검증 세트를 사용하여 모델의 성능을 평가하면, 과적합을 방지하고 일반화 성능을 향상시킬 수 있습니다. 과적합된 모델은 훈련 데이터에서는 높은 성능을 보이지만, 새로운 데이터에서는 성능이 저하됩니다..
Optimal Binning은 연속형 변수를 이산형 변수로 변환하기 위해 데이터를 최적의 범주(bins)로 나누는 방법을 의미합니다. 이 과정은 주로 신용 점수 모델링, 로지스틱 회귀 분석, 그리고 기타 예측 모델링에서 사용됩니다. Optimal Binning의 목적은 변수와 목표 변수 간의 관계를 최대한 잘 나타낼 수 있도록 데이터를 나누는 것입니다. 이는 데이터의 정보 손실을 최소화하고 모델의 예측력을 높이는 데 도움을 줍니다.Optimal Binning에는 여러 가지 방법이 있지만, 가장 흔히 사용되는 방법은 다음과 같습니다:1. Chi-square BinningChi-square 통계량을 사용하여 연속형 변수를 이산형 변수로 변환하는 방법입니다. 각 bin이 목표 변수와 독립적인지 확인하여 bin..
IV: Information ValueClassification에서 "IV"는 일반적으로 Information Value를 의미합니다. Information Value는 변수와 목표 변수(종속 변수) 간의 관계를 평가하는 데 사용되는 통계적 측정치입니다. 이는 주로 신용 점수 모델링이나 이진 분류 문제에서 변수 선택 및 모델의 예측력을 평가하는 데 사용됩니다.Information Value는 주어진 변수의 각 범주에 대해 좋은 사건(good)과 나쁜 사건(bad)의 비율 차이를 계산하여 그 변수의 예측력을 나타냅니다. IV 값이 높을수록 그 변수는 목표 변수를 잘 설명할 수 있음을 의미합니다.IV 값의 해석은 다음과 같습니다:IV 0.02 ≤ IV 0.1 ≤ IV 0.3 ≤ IV IV ≥ 0.5: 매우 ..
클러스터링에서 유사성 또는 거리는 데이터 포인트들 간의 유사성을 측정하는 중요한 개념입니다. 유사성을 정의하는 방법에 따라 클러스터링의 결과가 달라질 수 있으며, 다양한 거리 계산 방법이 존재합니다. 여기에서는 주로 사용되는 거리 계산 방법들을 자세히 설명하겠습니다.1. 유클리드 거리 (Euclidean Distance)유클리드 거리는 두 점 사이의 직선 거리를 측정하는 방법으로, 가장 많이 사용되는 거리 계산 방법 중 하나입니다. 2차원 공간에서 두 점 ((x_1, y_1))와 ((x_2, y_2)) 사이의 유클리드 거리는 다음과 같이 계산됩니다.[ \text{Euclidean Distance} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} ]일반적으로 (n)차원 공간에서는 다음..
클러스터링은 데이터 분석 및 머신 러닝에서 널리 사용되는 기법으로, 유사한 특성을 가진 데이터 포인트들을 그룹으로 묶는 방법을 의미합니다. 클러스터링은 주로 탐색적 데이터 분석, 패턴 인식, 이미지 분석, 시장 세분화 등 다양한 분야에서 활용됩니다. 클러스터링의 주요 목적은 데이터의 구조를 이해하고, 데이터 내의 자연스러운 그룹이나 패턴을 발견하는 것입니다.클러스터링 알고리즘의 종류와 주요 개념에 대해 자세히 설명하겠습니다.1. 클러스터링의 주요 개념클러스터(Cluster): 유사한 특성을 가진 데이터 포인트들의 모음입니다. 각 클러스터 내의 데이터 포인트들은 서로 유사성이 높고, 다른 클러스터의 데이터 포인트들과는 유사성이 낮습니다.유사성(Similarity) 또는 거리(Distance): 데이터 포인..
하이퍼파라미터 튜닝은 머신러닝 모델의 성능을 최적화하기 위해 하이퍼파라미터 값을 조정하는 과정입니다. 하이퍼파라미터는 학습 알고리즘의 동작을 제어하는 설정 값으로, 모델 학습 과정에서 직접적으로 학습되는 파라미터가 아닙니다. 하이퍼파라미터 튜닝은 모델의 성능에 큰 영향을 미칠 수 있으며, 이를 효과적으로 수행하기 위한 여러 가지 방법이 있습니다.주요 하이퍼파라미터 튜닝 방법그리드 탐색 (Grid Search)모든 가능한 하이퍼파라미터 조합을 시도하여 최적의 하이퍼파라미터를 찾는 방법입니다.탐색 공간이 커질수록 계산 비용이 증가하지만, 모든 조합을 시도하므로 최적의 조합을 찾을 확률이 높습니다.랜덤 탐색 (Random Search)그리드 탐색과 달리, 하이퍼파라미터 공간에서 무작위로 조합을 선택하여 탐색하..
- Total
- Today
- Yesterday
- 파이썬
- 티스토리챌린지
- t5
- English
- Numpy
- Transformer
- speaking
- Lora
- 손실함수
- cnn
- clustering
- Array
- PEFT
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Hugging Face
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- git
- 코딩테스트
- classification
- 오블완
- 해시
- Python
- 리스트
- RAG
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- Github
- LLM
- recursion #재귀 #자료구조 # 알고리즘
- LIST
- nlp
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |