Table of Contents

ML

모델 평가 방법

꼬꼬마코더 2024. 5. 28. 18:07
728x90

모델 평가 방법은 머신 러닝 모델이 얼마나 잘 작동하는지를 판단하는 데 사용됩니다. 여기서는 다양한 모델 평가 방법을 간단히 설명하겠습니다.

1. 회귀 모델 평가 방법

(1) 평균 제곱 오차 (Mean Squared Error, MSE)

  • 정의: 예측값과 실제값의 차이의 제곱 평균.
  • 공식: MSE=1𝑛∑𝑖=1𝑛(𝑦𝑖−𝑦^𝑖)2
  • 특징: 값이 클수록 모델의 예측 성능이 낮음을 의미합니다.

(2) 평균 절대 오차 (Mean Absolute Error, MAE)

  • 정의: 예측값과 실제값의 절대 차이의 평균.
  • 공식: MAE=1𝑛∑𝑖=1𝑛∣𝑦𝑖−𝑦^𝑖∣
  • 특징: 이상치(outlier)에 덜 민감합니다.

(3) 결정 계수 (R-squared, 𝑅2)

  • 정의: 모델이 실제값을 얼마나 잘 설명하는지를 나타내는 지표.
  • 공식: 𝑅2=1−∑𝑖=1𝑛(𝑦𝑖−𝑦^𝑖)2∑𝑖=1𝑛(𝑦𝑖−𝑦ˉ)2
  • 특징: 1에 가까울수록 모델의 설명력이 높음을 의미합니다.

2. 분류 모델 평가 방법

(1) 정확도 (Accuracy)

  • 정의: 전체 샘플 중 올바르게 예측한 샘플의 비율.
  • 공식: Accuracy=True Positives+True NegativesTotal Samples
  • 특징: 클래스 불균형이 심한 경우 적절하지 않을 수 있습니다.

(2) 정밀도 (Precision)

  • 정의: 양성으로 예측한 샘플 중 실제로 양성인 샘플의 비율.
  • 공식: Precision=True PositivesTrue Positives+False Positives
  • 특징: 양성 예측의 정확도를 나타냅니다.

(3) 재현율 (Recall)

  • 정의: 실제 양성 샘플 중 올바르게 예측한 샘플의 비율.
  • 공식: Recall=True PositivesTrue Positives+False Negatives
  • 특징: 실제 양성을 얼마나 잘 찾아냈는지를 나타냅니다.

(4) F1 점수 (F1 Score)

  • 정의: 정밀도와 재현율의 조화 평균.
  • 공식: F1 Score=2×Precision×RecallPrecision+Recall
  • 특징: 정밀도와 재현율의 균형을 평가합니다.

(5) ROC 곡선 (Receiver Operating Characteristic Curve)

  • 정의: 모델의 다양한 분류 임계값에서의 성능을 나타내는 그래프.
  • 특징: X축은 거짓 양성 비율(False Positive Rate), Y축은 참 양성 비율(True Positive Rate)을 나타냅니다.

(6) AUC (Area Under the ROC Curve)

  • 정의: ROC 곡선 아래의 면적.
  • 특징: 1에 가까울수록 모델의 성능이 좋음을 의미합니다.

3. 모델 검증 방법

(1) 홀드아웃 검증 (Holdout Validation)

  • 정의: 데이터를 학습 세트와 검증 세트로 나누어 평가하는 방법.
  • 특징: 단순하지만, 데이터가 충분히 크지 않은 경우 편향된 결과가 나올 수 있습니다.

(2) 교차 검증 (Cross-Validation)

  • 정의: 데이터를 여러 개의 폴드(fold)로 나누어 교차로 검증하는 방법.
  • 종류: K-폴드 교차 검증, LOOCV(Leave-One-Out Cross-Validation) 등이 있습니다.
  • 특징: 데이터의 크기가 작아도 보다 안정적인 평가를 할 수 있습니다.

요약

  • 회귀 모델: MSE, MAE, 𝑅2 등이 사용됩니다.
  • 분류 모델: Accuracy, Precision, Recall, F1 Score, ROC, AUC 등이 사용됩니다.
  • 모델 검증: Holdout Validation, Cross-Validation 등이 사용됩니다.

이러한 평가 방법들을 통해 모델의 성능을 정확하게 평가하고, 필요한 경우 모델을 개선할 수 있습니다.