Table of Contents
기본 개념
오차(Error): 실제 값에서 예측 값(y_true - y_pred)을 뺀 값입니다. 모델이 예측한 값(모집단의 회귀식에서 얻은 값)과 실제 데이터 사이의 차이를 의미합니다. 일반적으로 모델의 성능을 평가할 때 사용되며, 모델이 데이터를 얼마나 잘 예측하는지를 나타냅니다. 이상적인 경우 오차는 0에 가깝습니다. 실제 데이터 생성 과정에서 발생하는 불확실성을 의미하며, 모델이 잡아낼 수 없는 데이터의 실제 변동성을 포함합니다. 오차는 주로 이론적이며 관측 불가능하다는 점에서 잔차와 다릅니다.
잔차(Residual): 통계 모델이나 머신러닝에서 관측된 값과 모델에 의해 예측된 값 사이의 차이 (표의 회귀식에서 얻은 값) 입니다. 모든 데이터 포인트에 대한 잔차의 분포를 분석함으로써 모델의 적합성을 검토할 수 있습니다. 선형 회귀 모델의 경우 잔차의 합은 일반적으로 0입니다. 데이터 포인트와 모델 예측 사이의 차이로 계산되며, 모델의 적합도를 평가하는 데 사용됩니다.
선형회귀 다섯 가지 기본 가정
선형회귀 모델은 유효하고 신뢰할 수 있는 결과를 도출하기 위해 다음과 같은 다섯 가지 기본 가정에 의존합니다:
선형성(Linearity): 종속 변수 𝑌와 독립 변수 𝑋 사이에 선형 관계가 있어야 합니다. 이는 𝑌가 𝑋의 선형 조합으로 표현될 수 있어야 함을 의미합니다.(직선이라는 의미 맞음)
잔차 정규성( Normality of Residuals ): 잔차가 정규 분포를 따라야 합니다. 이는 통계적 추정과 추론이 효과적으로 이루어지기 위해 필요합니다. 이 가정이 만족되지 않으면, 회귀 모델의 신뢰구간이나 예측구간을 정확하게 계산할 수 없습니다.
독립성(Independence): 관측치들이 서로 독립적이어야 합니다. 즉, 어떤 관측치의 잔차가 다른 관측치의 잔차에 영향을 주지 않아야 합니다. 시계열 데이터와 같이 관측치들 사이에 상관관계가 있는 경우 이 가정이 위반될 수 있습니다.
다중공선성(Multicollinerity): 독립 변수들이 서로 강한 상관관계를 가지지 않아야 합니다. 독립 변수들 사이에 높은 상관관계가 있으면, 그 변수들의 영향력을 구분하기 어렵고, 모델의 안정성이 떨어질 수 있습니다. 이는 계수의 추정치가 불안정해지고, 오버피팅을 초래할 수 있습니다.
등분산성(Homoskedasticity): 모든 독립 변수 값에 대해 종속 변수의 잔차(오차)가 일정한 분산을 가져야 합니다. 이는 잔차가 일정한 범위 내에서 무작위로 분포하고, 독립 변수의 값에 따라 잔차의 분산이 증가하거나 감소하지 않아야 함을 의미합니다.
다중선형회귀
두 개 이상의 독립 변수(예측 변수)와 한 개의 종속 변수 사이의 관계를 분석하는 통계 기법입니다. 간단히 말해서, 다중 선형회귀는 여러 개의 입력 변수를 사용하여 출력 변수를 예측하는 방법입니다.
예를 들어, 집 가격을 예측할 때 다중 선형회귀 모델은 집의 크기, 방의 수, 위치, 건축 연도 등 여러 가지 요인을 동시에 고려할 수 있습니다. 이런 다양한 요인들이 집 가격에 어떤 영향을 미치는지 파악하는 데 도움이 됩니다.
결정계수(R-squared, 𝑅2)는 회귀 분석에서 종속 변수의 변동성 중 모델로 설명할 수 있는 부분의 비율을 나타내는 통계량입니다. 즉, 모델이 데이터에 얼마나 잘 적합하는지를 수치로 표현해 줍니다.
결정계수의 특징
- 결정계수의 값은 0과 1 사이에 있습니다.
- 값이 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미하며, 0에 가까울수록 설명력이 낮다는 것을 의미합니다.
- 일반적으로 결정계수가 높을수록 예측의 정확도가 높은 것으로 해석할 수 있지만, 변수가 많을수록 자동으로 결정계수 값이 높아지는 경향이 있습니다.
수학적 정의
결정계수는 다음과 같이 계산할 수 있습니다: 𝑅2=1−𝑆𝑆𝑟𝑒𝑠/𝑆𝑆𝑡𝑜𝑡 여기서:
- 𝑆𝑆𝑟𝑒𝑠 (잔차 제곱 합)는 실제 관측값과 회귀 모델에 의한 예측값의 차이의 제곱합입니다.
- 𝑆𝑆𝑡𝑜𝑡(총 변동)은 관측값과 관측값의 평균의 차이의 제곱합입니다.
예시
예를 들어, 어떤 학생의 시험 점수를 여러 학습 변수(공부 시간, 예습 여부 등)를 이용해 예측하는 모델을 만들었다고 합시다. 이때, 𝑅2값이 0.8이면, 이 모델이 학생의 시험 점수 변동의 80%를 설명한다고 할 수 있습니다. 나머지 20%는 모델에서 고려하지 않은 다른 요인들 때문에 발생하는 변동입니다.
결정계수는 모델의 성능을 평가하는 데 중요한 도구로 사용되며, 특히 예측 변수가 여러 개인 다중 회귀 분석에서 매우 유용합니다. 그러나 결정계수만으로 모델의 유용성을 완전히 판단할 수는 없으며, 다른 통계적 평가와 함께 고려되어야 합니다.
'통계' 카테고리의 다른 글
왜도Skewness/ 첨도Kurtosis (1) | 2024.04.26 |
---|---|
변동계수 (0) | 2024.04.26 |
이진분류Binary Classification/ 로지스틱 회귀Logistic Regression/ 이진 크로스엔트로피 손실 함수Binary Cross-Entropy Loss Function (0) | 2024.04.25 |
선형회귀 Linear Regression / 손실함수 Loss function (0) | 2024.04.25 |
상관분석 Correlation Analysis (0) | 2024.04.25 |
- Total
- Today
- Yesterday
- speaking
- Transformer
- 파이썬
- clustering
- PEFT
- 오블완
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 리스트
- 코딩테스트
- RAG
- English
- nlp
- recursion #재귀 #자료구조 # 알고리즘
- 해시
- LIST
- classification
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Github
- Numpy
- Lora
- Python
- 티스토리챌린지
- 손실함수
- Array
- t5
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- cnn
- Hugging Face
- LLM
- git
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |