Table of Contents

통계

상관분석 Correlation Analysis

꼬꼬마코더 2024. 4. 25. 15:31
728x90

ANOVA가 그룹 간의 평균 차이를 분석하는 데 중점을 두는 반면, 상관분석은 변수들 사이의 어느 정도의 선형적 관계가 있는지 파악하는 데 초점을 맞춥니다. 

다음은 한 반의 학생 20명의 수학과 과학 점수를 조사한 것입니다.

import matplotlib.pyplot as plt
import numpy as np
import scipy as sp

x = [90, 64, 94, 57, 82, 92, 84, 72, 52, 86, 73, 82, 78, 68, 54, 92, 65, 76, 83, 95]
y = [86, 65, 89, 62, 74, 64, 98, 85, 62, 84, 84, 83, 59, 64, 55, 95, 70, 72, 88, 93]

plt.scatter(x, y, color='b', s=20)
plt.xlabel('x')
plt.ylabel('y')
plt.show()

print(np.corrcoef(x, y))
print(sp.stats.pearsonr(x, y))

>>>
[[1.         0.71270975]
 [0.71270975 1.        ]]
PearsonRResult(statistic=0.712709746266057, pvalue=0.00042100297010646236)

 

상관계수 행렬 (corr_coef):

  • 1은 각 변수가 자기 자신과의 상관관계를 의미하므로 완벽하게 1입니다.
  • 0.71270975는 수학 점수(x)와 과학 점수(y) 사이의 상관계수로, 두 변수 사이에 강한 양의 상관관계가 있음을 보여줍니다.

Pearson 상관분석 결과 (pearson_corr):

  • 상관계수 (statistic): 0.712709746266057로, 두 변수 사이에 강한 양의 상관관계가 존재합니다.
  • p-값 (pvalue): 0.00042100297010646236으로 매우 작습니다. 일반적으로 p-값이 0.05 또는 0.01 이하일 경우 통계적으로 유의미하다고 판단합니다. 이 경우 p-값이 0.05보다 훨씬 작으므로, 우연히 발생한 결과일 가능성이 매우 낮고, 수학 점수와 과학 점수 사이에 실제로 양의 상관관계가 존재한다고 해석할 수 있습니다.

이러한 결과는 수학과 과학 점수가 서로 관련이 있을 수 있음을 시사하며, 학생들의 성적 패턴을 분석하는 데 중요한 정보를 제공할 수 있습니다. 이런 분석을 통해 교육 정책이나 학습 지원 방안을 개발하는 데 도움을 줄 수 있습니다.

 


 

그런데 수학을 잘하면 과학을 잘하게 되는걸까요?

"상관관계는 인과관계를 의미하지 않는다(Correlation does not imply causation)"는 통계학에서 매우 중요한 원칙입니다. 이 말은 두 변수 사이에 통계적 상관관계가 존재한다고 해서, 하나의 변수가 다른 하나를 유발한다고 단정 지을 수 없다는 것을 의미합니다.

상관관계와 인과관계의 차이:

  • 상관관계 (Correlation): 두 변수 간에 어떤 통계적 연관성이 존재하는 것을 나타냅니다. 예를 들어, 아이스크림 판매량과 수영장 사고의 수가 늘어나는 것 사이에 상관관계가 있을 수 있습니다.
  • 인과관계 (Causation): 한 변수가 다른 변수의 변화를 직접적으로 유발하는 관계를 말합니다. 예를 들어, 바이러스 감염이 질병을 유발하는 경우가 인과관계에 해당합니다.

왜 중요한가?

  • 오해의 소지: 데이터를 해석할 때, 단순히 상관관계가 있다고 해서 원인과 결과를 잘못 연결지어 해석하는 오류를 범할 수 있습니다. 이런 오류는 잘못된 결정이나 정책을 초래할 수 있습니다.
  • 제3의 요인: 두 변수 사이의 상관관계는 때때로 다른 숨겨진 변수(제3의 변수)에 의해 발생할 수 있습니다. 예를 들어, 여름철에 아이스크림 판매량과 수영장 사고가 모두 증가하지만, 이는 더운 날씨가 공통적인 원인일 수 있습니다.

실제 적용:

  • 연구 설계에서 인과관계를 규명하기 위해 실험적 방법이나 장기적 연구가 필요할 수 있습니다. 예를 들어, 무작위 대조 시험(Randomized Controlled Trials, RCT)은 의학 연구에서 인과관계를 밝히는 데 가장 확실한 방법 중 하나입니다.
  • 데이터 과학과 경제학에서는 계량 경제 모델과 같은 통계 모델을 사용하여 인과관계를 추정하고 검증합니다.

상관관계가 인과관계를 시사할 수는 있으나, 인과관계를 확립하기 위해서는 보다 철저한 분석과 추가적인 증거가 필요함을 항상 명심해야 합니다.