선형회귀Linear Regression /다중선형회귀Multiple Linear Regression

통계

선형회귀Linear Regression /다중선형회귀Multiple Linear Regression

꼬꼬마코더 2024. 4. 26. 14:28

728x90

기본 개념

오차(Error): 실제 값에서 예측 값(y_true - y_pred)을 뺀 값입니다. 모델이 예측한 값(모집단의 회귀식에서 얻은 값)과 실제 데이터 사이의 차이를 의미합니다. 일반적으로 모델의 성능을 평가할 때 사용되며, 모델이 데이터를 얼마나 잘 예측하는지를 나타냅니다. 이상적인 경우 오차는 0에 가깝습니다. 실제 데이터 생성 과정에서 발생하는 불확실성을 의미하며, 모델이 잡아낼 수 없는 데이터의 실제 변동성을 포함합니다. 오차는 주로 이론적이며 관측 불가능하다는 점에서 잔차와 다릅니다.

잔차(Residual): 통계 모델이나 머신러닝에서 관측된 값과 모델에 의해 예측된 값 사이의 차이 (표의 회귀식에서 얻은 값) 입니다. 모든 데이터 포인트에 대한 잔차의 분포를 분석함으로써 모델의 적합성을 검토할 수 있습니다. 선형 회귀 모델의 경우 잔차의 합은 일반적으로 0입니다. 데이터 포인트와 모델 예측 사이의 차이로 계산되며, 모델의 적합도를 평가하는 데 사용됩니다.

선형회귀 다섯 가지 기본 가정

선형회귀 모델은 유효하고 신뢰할 수 있는 결과를 도출하기 위해 다음과 같은 다섯 가지 기본 가정에 의존합니다:

선형성(Linearity): 종속 변수 𝑌와 독립 변수 𝑋 사이에 선형 관계가 있어야 합니다. 이는 𝑌가 𝑋의 선형 조합으로 표현될 수 있어야 함을 의미합니다.(직선이라는 의미 맞음)

잔차 정규성( Normality of Residuals ): 잔차가 정규 분포를 따라야 합니다. 이는 통계적 추정과 추론이 효과적으로 이루어지기 위해 필요합니다. 이 가정이 만족되지 않으면, 회귀 모델의 신뢰구간이나 예측구간을 정확하게 계산할 수 없습니다.

독립성(Independence): 관측치들이 서로 독립적이어야 합니다. 즉, 어떤 관측치의 잔차가 다른 관측치의 잔차에 영향을 주지 않아야 합니다. 시계열 데이터와 같이 관측치들 사이에 상관관계가 있는 경우 이 가정이 위반될 수 있습니다.

다중공선성(Multicollinerity): 독립 변수들이 서로 강한 상관관계를 가지지 않아야 합니다. 독립 변수들 사이에 높은 상관관계가 있으면, 그 변수들의 영향력을 구분하기 어렵고, 모델의 안정성이 떨어질 수 있습니다. 이는 계수의 추정치가 불안정해지고, 오버피팅을 초래할 수 있습니다.

등분산성(Homoskedasticity): 모든 독립 변수 값에 대해 종속 변수의 잔차(오차)가 일정한 분산을 가져야 합니다. 이는 잔차가 일정한 범위 내에서 무작위로 분포하고, 독립 변수의 값에 따라 잔차의 분산이 증가하거나 감소하지 않아야 함을 의미합니다.

다중선형회귀

두 개 이상의 독립 변수(예측 변수)와 한 개의 종속 변수 사이의 관계를 분석하는 통계 기법입니다. 간단히 말해서, 다중 선형회귀는 여러 개의 입력 변수를 사용하여 출력 변수를 예측하는 방법입니다.

예를 들어, 집 가격을 예측할 때 다중 선형회귀 모델은 집의 크기, 방의 수, 위치, 건축 연도 등 여러 가지 요인을 동시에 고려할 수 있습니다. 이런 다양한 요인들이 집 가격에 어떤 영향을 미치는지 파악하는 데 도움이 됩니다.

결정계수(R-squared, 𝑅2)는 회귀 분석에서 종속 변수의 변동성 중 모델로 설명할 수 있는 부분의 비율을 나타내는 통계량입니다. 즉, 모델이 데이터에 얼마나 잘 적합하는지를 수치로 표현해 줍니다.

결정계수의 특징

결정계수의 값은 0과 1 사이에 있습니다.
값이 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미하며, 0에 가까울수록 설명력이 낮다는 것을 의미합니다.
일반적으로 결정계수가 높을수록 예측의 정확도가 높은 것으로 해석할 수 있지만, 변수가 많을수록 자동으로 결정계수 값이 높아지는 경향이 있습니다.

수학적 정의

결정계수는 다음과 같이 계산할 수 있습니다: 𝑅2=1−𝑆𝑆𝑟𝑒𝑠/𝑆𝑆𝑡𝑜𝑡 여기서:

𝑆𝑆𝑟𝑒𝑠 (잔차 제곱 합)는 실제 관측값과 회귀 모델에 의한 예측값의 차이의 제곱합입니다.
𝑆𝑆𝑡𝑜𝑡(총 변동)은 관측값과 관측값의 평균의 차이의 제곱합입니다.

예시

예를 들어, 어떤 학생의 시험 점수를 여러 학습 변수(공부 시간, 예습 여부 등)를 이용해 예측하는 모델을 만들었다고 합시다. 이때, 𝑅2값이 0.8이면, 이 모델이 학생의 시험 점수 변동의 80%를 설명한다고 할 수 있습니다. 나머지 20%는 모델에서 고려하지 않은 다른 요인들 때문에 발생하는 변동입니다.

결정계수는 모델의 성능을 평가하는 데 중요한 도구로 사용되며, 특히 예측 변수가 여러 개인 다중 회귀 분석에서 매우 유용합니다. 그러나 결정계수만으로 모델의 유용성을 완전히 판단할 수는 없으며, 다른 통계적 평가와 함께 고려되어야 합니다.

'통계' 카테고리의 다른 글

왜도Skewness/ 첨도Kurtosis (1)	2024.04.26
변동계수 (0)	2024.04.26
이진분류Binary Classification/ 로지스틱 회귀Logistic Regression/ 이진 크로스엔트로피 손실 함수Binary Cross-Entropy Loss Function (0)	2024.04.25
선형회귀 Linear Regression / 손실함수 Loss function (1)	2024.04.25
상관분석 Correlation Analysis (0)	2024.04.25

250x250

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

문과생CS정복기

Table of Contents