Validation set(검증 세트)는 머신러닝 모델의 성능을 평가하고, 하이퍼파라미터 튜닝과 모델 선택을 위해 사용되는 데이터 세트입니다. 일반적으로 데이터 세트는 훈련 세트(training set), 검증 세트(validation set), 그리고 테스트 세트(test set)로 나뉩니다.데이터 세트 분할훈련 세트 (Training Set):모델을 학습시키는 데 사용됩니다. 이 세트에서 모델은 입력 데이터와 해당 레이블을 학습하여 예측하는 방법을 배웁니다.검증 세트 (Validation Set):모델의 성능을 평가하고, 하이퍼파라미터를 조정하는 데 사용됩니다. 훈련 과정 동안 모델이 이 데이터를 통해 최적화되지 않도록 합니다.모델이 훈련 세트에 과적합(overfitting)되지 않도록 돕습니다.테스..
랜덤 포레스트(Random Forest)에서 "Out-of-Bag (OOB)" 샘플은 모델의 성능을 평가하는 중요한 개념 중 하나입니다. OOB 샘플은 부트스트랩 샘플링 과정에서 선택되지 않은 데이터 포인트들을 의미합니다. 랜덤 포레스트는 이 OOB 샘플을 사용하여 추가적인 검증 데이터 없이도 모델의 성능을 평가할 수 있습니다.Out-of-Bag (OOB) 샘플의 정의와 역할부트스트랩 샘플링:랜덤 포레스트는 배깅(Bagging) 방법을 사용하여 여러 결정 트리를 학습합니다. 각 트리는 원본 데이터셋에서 부트스트랩 샘플링(복원 추출)을 통해 생성된 샘플을 사용하여 학습됩니다.복원 추출이기 때문에 원본 데이터셋에서 일부 데이터 포인트는 여러 번 선택될 수 있으며, 일부 데이터 포인트는 선택되지 않을 수 있습..
배깅(Bagging)Bootstrap Aggregating, 일반적으로 배깅(Bagging)이라고 불리는 이 기법은 Ensemble Learning의 한 방법으로, 모델의 예측 성능을 향상시키고 과적합(overfitting)을 줄이기 위해 사용됩니다. 배깅은 여러 개의 모델을 독립적으로 학습시킨 후, 그 예측 결과를 평균 내거나 다수결 투표를 통해 최종 예측을 도출하는 방법입니다.배깅의 과정데이터셋 샘플링: 원본 데이터셋에서 크기가 같은 여러 개의 부트스트랩(bootstrap) 샘플을 생성합니다. 부트스트랩 샘플은 원본 데이터셋에서 복원 추출(즉, 중복을 허용하여)로 생성됩니다. 각 샘플은 원본 데이터셋과 같은 크기이지만, 중복된 데이터 포인트를 포함할 수 있습니다.모델 학습: 각 부트스트랩 샘플에 대해..
앙상블(Ensemble)은 여러 개의 학습 모델을 결합하여 더 나은 예측 성능을 도출하는 머신러닝 기법입니다. 개별 모델의 약점을 보완하고, 모델의 예측을 종합함으로써 성능을 향상시키는 것을 목표로 합니다. 앙상블 기법은 다양한 모델을 조합하여 더욱 강력하고 견고한 예측을 가능하게 합니다.주요 앙상블 기법배깅(Bagging)배깅은 Bootstrap Aggregating의 줄임말로, 여러 개의 모델을 독립적으로 학습시킨 후 그 결과를 평균 내거나 다수결 투표를 통해 결합하는 방법입니다.각 모델은 원래 데이터셋에서 부트스트랩 샘플링(복원 추출)을 통해 생성된 여러 데이터셋에서 학습됩니다.대표적인 예: 랜덤 포레스트(Random Forest)부스팅(Boosting)부스팅은 여러 약한 학습기(weak learn..
결정 트리 모델에서 가지치기(pruning)는 모델이 훈련 데이터에 과적합되는 것을 방지하기 위해 트리의 크기를 줄이는 과정입니다. 가지치기는 전정 가지치기(pre-pruning)와 후정 가지치기(post-pruning)로 나눌 수 있습니다.전정 가지치기 (Pre-pruning): 트리를 성장시키는 동안 불필요한 분할을 방지하는 방법입니다. 이는 트리의 깊이, 최소 샘플 수 등을 제한하여 구현할 수 있습니다.후정 가지치기 (Post-pruning): 트리를 다 성장시킨 후에 가지를 치는 방법입니다. 이는 노드에서 분할을 제거하고, 트리의 일부를 잘라내어 구현할 수 있습니다.여기서는 사이킷런(Scikit-learn) 라이브러리를 사용하여 전정 가지치기와 후정 가지치기를 구현하는 방법을 보여드리겠습니다.전정..
결정 트리(Decision Tree)는 데이터 분류와 회귀 문제를 해결하기 위해 사용되는 비선형 모델입니다. 트리 구조를 사용하여 데이터를 분할하고, 각 노드에서 결정을 내려 최종 예측값을 도출합니다. 결정 트리는 이해하기 쉽고 해석이 용이하여 다양한 분야에서 널리 사용됩니다.기본 개념노드 (Node): 트리의 각 점을 의미합니다.루트 노드 (Root Node): 트리의 최상단에 있는 노드로, 데이터 분할이 시작되는 지점입니다.내부 노드 (Internal Node): 분기를 수행하는 노드로, 특정 조건에 따라 데이터를 자식 노드로 분할합니다.단말 노드 (Leaf Node): 최종 분류 결과를 나타내는 노드로, 더 이상 분할이 이루어지지 않는 노드입니다.분할 (Split): 각 노드에서 데이터를 특정 조건..
다중 클래스 문제는 이진 분류가 아닌 다중 분류 문제를 의미합니다. 이를 조금 더 자세히 설명하면 다음과 같습니다:이진 분류 (Binary Classification)이진 분류는 두 개의 클래스(또는 범주) 중 하나로 데이터를 분류하는 문제를 말합니다. 예를 들어:이메일이 스팸인지 아닌지를 분류 (스팸 vs. 정상 메일)환자가 특정 질병이 있는지 없는지를 분류 (질병 있음 vs. 없음)이진 분류 문제에서는 일반적으로 두 개의 레이블을 사용하며, Gini Index나 이진 크로스 엔트로피 손실 함수를 사용하여 모델을 학습시킵니다.다중 클래스 분류 (Multiclass Classification)다중 클래스 분류는 두 개 이상의 클래스 중 하나로 데이터를 분류하는 문제를 말합니다. 예를 들어:손글씨 숫자 인..
- Total
- Today
- Yesterday
- nlp
- clustering
- Transformer
- PEFT
- 손실함수
- 오블완
- cnn
- Array
- t5
- 코딩테스트
- LLM
- recursion #재귀 #자료구조 # 알고리즘
- Github
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 티스토리챌린지
- LIST
- 해시
- speaking
- 리스트
- Python
- English
- Lora
- 파이썬
- classification
- Numpy
- RAG
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Hugging Face
- git
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |