Table of Contents
728x90
ANOVA가 그룹 간의 평균 차이를 분석하는 데 중점을 두는 반면, 상관분석은 변수들 사이의 어느 정도의 선형적 관계가 있는지 파악하는 데 초점을 맞춥니다.
다음은 한 반의 학생 20명의 수학과 과학 점수를 조사한 것입니다.
import matplotlib.pyplot as plt
import numpy as np
import scipy as sp
x = [90, 64, 94, 57, 82, 92, 84, 72, 52, 86, 73, 82, 78, 68, 54, 92, 65, 76, 83, 95]
y = [86, 65, 89, 62, 74, 64, 98, 85, 62, 84, 84, 83, 59, 64, 55, 95, 70, 72, 88, 93]
plt.scatter(x, y, color='b', s=20)
plt.xlabel('x')
plt.ylabel('y')
plt.show()
print(np.corrcoef(x, y))
print(sp.stats.pearsonr(x, y))
>>>
[[1. 0.71270975]
[0.71270975 1. ]]
PearsonRResult(statistic=0.712709746266057, pvalue=0.00042100297010646236)
상관계수 행렬 (corr_coef):
- 1은 각 변수가 자기 자신과의 상관관계를 의미하므로 완벽하게 1입니다.
- 0.71270975는 수학 점수(x)와 과학 점수(y) 사이의 상관계수로, 두 변수 사이에 강한 양의 상관관계가 있음을 보여줍니다.
Pearson 상관분석 결과 (pearson_corr):
- 상관계수 (statistic): 0.712709746266057로, 두 변수 사이에 강한 양의 상관관계가 존재합니다.
- p-값 (pvalue): 0.00042100297010646236으로 매우 작습니다. 일반적으로 p-값이 0.05 또는 0.01 이하일 경우 통계적으로 유의미하다고 판단합니다. 이 경우 p-값이 0.05보다 훨씬 작으므로, 우연히 발생한 결과일 가능성이 매우 낮고, 수학 점수와 과학 점수 사이에 실제로 양의 상관관계가 존재한다고 해석할 수 있습니다.
이러한 결과는 수학과 과학 점수가 서로 관련이 있을 수 있음을 시사하며, 학생들의 성적 패턴을 분석하는 데 중요한 정보를 제공할 수 있습니다. 이런 분석을 통해 교육 정책이나 학습 지원 방안을 개발하는 데 도움을 줄 수 있습니다.
그런데 수학을 잘하면 과학을 잘하게 되는걸까요?
"상관관계는 인과관계를 의미하지 않는다(Correlation does not imply causation)"는 통계학에서 매우 중요한 원칙입니다. 이 말은 두 변수 사이에 통계적 상관관계가 존재한다고 해서, 하나의 변수가 다른 하나를 유발한다고 단정 지을 수 없다는 것을 의미합니다.
상관관계와 인과관계의 차이:
- 상관관계 (Correlation): 두 변수 간에 어떤 통계적 연관성이 존재하는 것을 나타냅니다. 예를 들어, 아이스크림 판매량과 수영장 사고의 수가 늘어나는 것 사이에 상관관계가 있을 수 있습니다.
- 인과관계 (Causation): 한 변수가 다른 변수의 변화를 직접적으로 유발하는 관계를 말합니다. 예를 들어, 바이러스 감염이 질병을 유발하는 경우가 인과관계에 해당합니다.
왜 중요한가?
- 오해의 소지: 데이터를 해석할 때, 단순히 상관관계가 있다고 해서 원인과 결과를 잘못 연결지어 해석하는 오류를 범할 수 있습니다. 이런 오류는 잘못된 결정이나 정책을 초래할 수 있습니다.
- 제3의 요인: 두 변수 사이의 상관관계는 때때로 다른 숨겨진 변수(제3의 변수)에 의해 발생할 수 있습니다. 예를 들어, 여름철에 아이스크림 판매량과 수영장 사고가 모두 증가하지만, 이는 더운 날씨가 공통적인 원인일 수 있습니다.
실제 적용:
- 연구 설계에서 인과관계를 규명하기 위해 실험적 방법이나 장기적 연구가 필요할 수 있습니다. 예를 들어, 무작위 대조 시험(Randomized Controlled Trials, RCT)은 의학 연구에서 인과관계를 밝히는 데 가장 확실한 방법 중 하나입니다.
- 데이터 과학과 경제학에서는 계량 경제 모델과 같은 통계 모델을 사용하여 인과관계를 추정하고 검증합니다.
상관관계가 인과관계를 시사할 수는 있으나, 인과관계를 확립하기 위해서는 보다 철저한 분석과 추가적인 증거가 필요함을 항상 명심해야 합니다.
'통계' 카테고리의 다른 글
이진분류Binary Classification/ 로지스틱 회귀Logistic Regression/ 이진 크로스엔트로피 손실 함수Binary Cross-Entropy Loss Function (0) | 2024.04.25 |
---|---|
선형회귀 Linear Regression / 손실함수 Loss function (0) | 2024.04.25 |
이원분산분석 Two-way ANOVA/ 상호작용 효과 Interaction effect (0) | 2024.04.25 |
일원분산분석 One-Way ANOVA / 사후분석 post-hoc analysis (0) | 2024.04.25 |
t-test t검정/ ANOVA 분산분석 (0) | 2024.04.25 |
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Array
- t5
- 리스트
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- Numpy
- English
- Hugging Face
- recursion #재귀 #자료구조 # 알고리즘
- PEFT
- RAG
- 오블완
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 티스토리챌린지
- 코딩테스트
- 손실함수
- Lora
- Transformer
- classification
- cnn
- 해시
- speaking
- LLM
- 파이썬
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- LIST
- clustering
- Python
- nlp
- git
- Github
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함