Table of Contents
728x90
만약 sales를 X 변수에 포함하여 sales y를 예측하려고 한다면 ml돌릴 때 어떤 결과가 나올까?
만약 sales 컬럼을 독립 변수(X)에 포함하여 sales를 종속 변수(y)로 예측하려고 한다면, 모델이 미래의 매출을 예측하기 위해 현재의 매출을 사용하게 되므로 데이터 누수(data leakage) 문제가 발생합니다. 이는 모델이 훈련 데이터에서 너무 많은 정보를 얻어 과적합(overfitting)하게 되어 테스트 데이터에서의 성능이 크게 떨어지는 원인이 됩니다.
데이터 누수란?
데이터 누수는 모델이 훈련 중에 예측하고자 하는 대상 변수와 관련된 정보를 부적절하게 사용하게 되는 상황을 말합니다. 이는 모델의 성능을 과대평가하게 만들며, 실제 예측 성능이 저하됩니다.
그러면 2주 간격의 요일별 평균 매출 변수도 과적합을 유발할까?
2주 간격의 요일별 평균 매출 변수도 과적합을 유발할 가능성이 있습니다. 하지만 이는 데이터 누수와는 다른 문제입니다. 2주 간격의 요일별 평균 매출 변수를 사용할 때, 이를 적절히 처리하면 과적합을 방지하고 모델 성능을 향상시킬 수 있습니다.
과적합 방지 방법
- 교차 검증 (Cross-Validation): 교차 검증을 사용하여 모델의 일반화 성능을 평가합니다. K-폴드 교차 검증을 통해 모델이 데이터에 과적합되지 않도록 합니다.
- 정규화 및 스케일링 (Normalization and Scaling): 입력 데이터를 정규화하거나 스케일링하여 모델 학습이 안정적으로 이루어지도록 합니다.
- 특징 선택 (Feature Selection): 중요한 특징만 선택하여 모델을 학습시킵니다. 불필요한 특징은 제거합니다.
- 복잡도 조정 (Regularization): 모델의 복잡도를 조정하는 정규화 기법을 사용하여 과적합을 방지합니다.
'ML' 카테고리의 다른 글
시계열 데이터 예측 - Facebook의 Prophet (1) | 2024.07.03 |
---|---|
머신러닝 함수 정의의 수학적 표현 (0) | 2024.07.02 |
Why does GluonTS perform well? (1) | 2024.06.09 |
tsfresh, sktime, darts, gluonts, prophet: which is the best performance? (0) | 2024.06.09 |
Feature Selection (1) | 2024.06.08 |
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Numpy
- 해시
- nlp
- Array
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Hugging Face
- English
- Github
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- Lora
- 코딩테스트
- Python
- clustering
- recursion #재귀 #자료구조 # 알고리즘
- 파이썬
- Transformer
- t5
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 티스토리챌린지
- 리스트
- git
- speaking
- PEFT
- 오블완
- LIST
- 손실함수
- LLM
- RAG
- classification
- cnn
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함