Table of Contents

ML

data leakage 데이터 누수, overfitting 과적합

꼬꼬마코더 2024. 6. 11. 14:45
728x90

만약 sales를 X 변수에 포함하여 sales y를 예측하려고 한다면 ml돌릴 때 어떤 결과가 나올까?

만약 sales 컬럼을 독립 변수(X)에 포함하여 sales를 종속 변수(y)로 예측하려고 한다면, 모델이 미래의 매출을 예측하기 위해 현재의 매출을 사용하게 되므로 데이터 누수(data leakage) 문제가 발생합니다. 이는 모델이 훈련 데이터에서 너무 많은 정보를 얻어 과적합(overfitting)하게 되어 테스트 데이터에서의 성능이 크게 떨어지는 원인이 됩니다.

데이터 누수란?

데이터 누수는 모델이 훈련 중에 예측하고자 하는 대상 변수와 관련된 정보를 부적절하게 사용하게 되는 상황을 말합니다. 이는 모델의 성능을 과대평가하게 만들며, 실제 예측 성능이 저하됩니다.

 

그러면 2주 간격의 요일별 평균 매출 변수도 과적합을 유발할까?

2주 간격의 요일별 평균 매출 변수도 과적합을 유발할 가능성이 있습니다. 하지만 이는 데이터 누수와는 다른 문제입니다. 2주 간격의 요일별 평균 매출 변수를 사용할 때, 이를 적절히 처리하면 과적합을 방지하고 모델 성능을 향상시킬 수 있습니다.

과적합 방지 방법

  1. 교차 검증 (Cross-Validation): 교차 검증을 사용하여 모델의 일반화 성능을 평가합니다. K-폴드 교차 검증을 통해 모델이 데이터에 과적합되지 않도록 합니다.
  2. 정규화 및 스케일링 (Normalization and Scaling): 입력 데이터를 정규화하거나 스케일링하여 모델 학습이 안정적으로 이루어지도록 합니다.
  3. 특징 선택 (Feature Selection): 중요한 특징만 선택하여 모델을 학습시킵니다. 불필요한 특징은 제거합니다.
  4. 복잡도 조정 (Regularization): 모델의 복잡도를 조정하는 정규화 기법을 사용하여 과적합을 방지합니다.