Table of Contents

728x90

데이터 분석 및 예측 모델 평가에서 사용되는 지표인 RMSE, RMSLE, R-squared, MAE, MedAE, MAPE는 각각 다른 측면을 평가합니다. 이들의 차이점을 설명하겠습니다:

  1. RMSE (Root Mean Squared Error)

    • RMSE는 예측 값과 실제 값의 차이를 제곱하여 평균한 값의 제곱근입니다. 이 지표는 예측 오차의 크기를 나타내며, 값이 클수록 오차가 크다는 것을 의미합니다. RMSE는 이상치에 민감하게 반응하는 경향이 있습니다.
  2. RMSLE (Root Mean Squared Logarithmic Error)

    • RMSLE는 예측 값과 실제 값의 로그 차이를 제곱하여 평균한 값의 제곱근입니다. 값의 상대적 크기를 중시하며, 예측과 실제 값 사이의 비율적 차이를 강조합니다. 비율적 오류를 중요시하는 상황에서 유용하며, 큰 이상치에 의한 영향이 적습니다.
  3. R-squared (결정 계수)

    • R-squared는 모델이 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표입니다. 값은 0에서 1 사이이며, 1에 가까울수록 모델이 데이터를 잘 설명한다고 볼 수 있습니다. 하지만 변수의 수가 많아질수록 과적합의 위험도 있습니다.
  4. MAE (Mean Absolute Error)

    • MAE는 예측 값과 실제 값의 절대값 차이를 평균한 값입니다. 오차의 "평균 크기"를 직관적으로 이해할 수 있으며, RMSE에 비해 이상치에 덜 민감합니다.
  5. MedAE (Median Absolute Error)

    • MedAE는 모든 절대 오차 값들의 중앙값입니다. 데이터 중 이상치가 많을 때 특히 유용한 지표로, 이상치의 영향을 거의 받지 않습니다.
  6. MAPE (Mean Absolute Percentage Error)

    • MAPE는 오차를 퍼센테이지로 표현합니다. 오차의 상대적 크기를 나타내며, 결과의 비율적 해석이 중요할 때 유용합니다. 그러나 실제 값이 0에 가까울 경우, MAPE는 매우 높은 값을 가질 수 있으며, 이로 인해 왜곡될 수 있습니다.

각 지표는 모델의 성능을 다른 각도에서 평가하며, 모델을 평가할 때 특정 상황과 요구에 따라 적절한 지표를 선택하는 것이 중요합니다.