Table of Contents

728x90

기본 개념

오차(Error): 실제 값에서 예측 값(y_true - y_pred)을 뺀 값입니다. 모델이 예측한 값(모집단의 회귀식에서 얻은 값)과 실제 데이터 사이의 차이를 의미합니다. 일반적으로 모델의 성능을 평가할 때 사용되며, 모델이 데이터를 얼마나 잘 예측하는지를 나타냅니다. 이상적인 경우 오차는 0에 가깝습니다. 실제 데이터 생성 과정에서 발생하는 불확실성을 의미하며, 모델이 잡아낼 수 없는 데이터의 실제 변동성을 포함합니다. 오차는 주로 이론적이며 관측 불가능하다는 점에서 잔차와 다릅니다.

잔차(Residual): 통계 모델이나 머신러닝에서 관측된 값과 모델에 의해 예측된 값 사이의 차이 (표의 회귀식에서 얻은 값) 입니다. 모든 데이터 포인트에 대한 잔차의 분포를 분석함으로써 모델의 적합성을 검토할 수 있습니다. 선형 회귀 모델의 경우 잔차의 합은 일반적으로 0입니다. 데이터 포인트와 모델 예측 사이의 차이로 계산되며, 모델의 적합도를 평가하는 데 사용됩니다.

 

선형회귀 다섯 가지 기본 가정

선형회귀 모델은 유효하고 신뢰할 수 있는 결과를 도출하기 위해 다음과 같은 다섯 가지 기본 가정에 의존합니다:

선형성(Linearity): 종속 변수 𝑌와 독립 변수 𝑋 사이에 선형 관계가 있어야 합니다. 이는 𝑌𝑋의 선형 조합으로 표현될 수 있어야 함을 의미합니다.(직선이라는 의미 맞음)

잔차 정규성( Normality of Residuals ): 잔차가 정규 분포를 따라야 합니다. 이는 통계적 추정과 추론이 효과적으로 이루어지기 위해 필요합니다. 이 가정이 만족되지 않으면, 회귀 모델의 신뢰구간이나 예측구간을 정확하게 계산할 수 없습니다.

독립성(Independence): 관측치들이 서로 독립적이어야 합니다. 즉, 어떤 관측치의 잔차가 다른 관측치의 잔차에 영향을 주지 않아야 합니다. 시계열 데이터와 같이 관측치들 사이에 상관관계가 있는 경우 이 가정이 위반될 수 있습니다.

다중공선성(Multicollinerity): 독립 변수들이 서로 강한 상관관계를 가지지 않아야 합니다. 독립 변수들 사이에 높은 상관관계가 있으면, 그 변수들의 영향력을 구분하기 어렵고, 모델의 안정성이 떨어질 수 있습니다. 이는 계수의 추정치가 불안정해지고, 오버피팅을 초래할 수 있습니다.

등분산성(Homoskedasticity): 모든 독립 변수 값에 대해 종속 변수의 잔차(오차)가 일정한 분산을 가져야 합니다. 이는 잔차가 일정한 범위 내에서 무작위로 분포하고, 독립 변수의 값에 따라 잔차의 분산이 증가하거나 감소하지 않아야 함을 의미합니다.

 

다중선형회귀 

두 개 이상의 독립 변수(예측 변수)와 한 개의 종속 변수 사이의 관계를 분석하는 통계 기법입니다. 간단히 말해서, 다중 선형회귀는 여러 개의 입력 변수를 사용하여 출력 변수를 예측하는 방법입니다.

예를 들어, 집 가격을 예측할 때 다중 선형회귀 모델은 집의 크기, 방의 수, 위치, 건축 연도 등 여러 가지 요인을 동시에 고려할 수 있습니다. 이런 다양한 요인들이 집 가격에 어떤 영향을 미치는지 파악하는 데 도움이 됩니다.

결정계수(R-squared, 𝑅2)는 회귀 분석에서 종속 변수의 변동성 중 모델로 설명할 수 있는 부분의 비율을 나타내는 통계량입니다. 즉, 모델이 데이터에 얼마나 잘 적합하는지를 수치로 표현해 줍니다.

결정계수의 특징

  • 결정계수의 값은 0과 1 사이에 있습니다.
  • 값이 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미하며, 0에 가까울수록 설명력이 낮다는 것을 의미합니다.
  • 일반적으로 결정계수가 높을수록 예측의 정확도가 높은 것으로 해석할 수 있지만, 변수가 많을수록 자동으로 결정계수 값이 높아지는 경향이 있습니다.

수학적 정의

결정계수는 다음과 같이 계산할 수 있습니다: 𝑅2=1−𝑆𝑆𝑟𝑒𝑠/𝑆𝑆𝑡𝑜𝑡 여기서:

  • 𝑆𝑆𝑟𝑒𝑠 (잔차 제곱 합)는 실제 관측값과 회귀 모델에 의한 예측값의 차이의 제곱합입니다.
  • 𝑆𝑆𝑡𝑜𝑡(총 변동)은 관측값과 관측값의 평균의 차이의 제곱합입니다.

예시

예를 들어, 어떤 학생의 시험 점수를 여러 학습 변수(공부 시간, 예습 여부 등)를 이용해 예측하는 모델을 만들었다고 합시다. 이때, 𝑅2값이 0.8이면, 이 모델이 학생의 시험 점수 변동의 80%를 설명한다고 할 수 있습니다. 나머지 20%는 모델에서 고려하지 않은 다른 요인들 때문에 발생하는 변동입니다.

결정계수는 모델의 성능을 평가하는 데 중요한 도구로 사용되며, 특히 예측 변수가 여러 개인 다중 회귀 분석에서 매우 유용합니다. 그러나 결정계수만으로 모델의 유용성을 완전히 판단할 수는 없으며, 다른 통계적 평가와 함께 고려되어야 합니다.