Table of Contents

728x90

독립표본 (Independent Samples)

상상해 보세요, 유치원에서 두 개의 다른 반에 있는 아이들이 있어요. 하나는 '해님 반'이고 다른 하나는 '달님 반'이에요. 이 두 반의 아이들은 서로 다른 반에서 다른 선생님과 활동을 해요. 이제 만약 우리가 '해님 반' 아이들과 '달님 반' 아이들의 키를 비교하고 싶다면, 우리는 두 개의 독립적인 그룹, 즉 독립표본을 가지고 있는 것이죠. 이 두 그룹은 서로 관련이 없으며, 각자 다른 환경에서 자라나고 있어요.

종속표본 (Dependent Samples)

이번에는 '해님 반'의 아이들이 어떻게 성장하는지 알아보고 싶다고 생각해 보세요. 우리는 같은 '해님 반' 아이들을 가을에 한 번, 봄에 한 번 측정해 그 아이들이 얼마나 클까를 알아볼 수 있어요. 이 경우, 가을과 봄의 측정은 같은 아이들로부터 나온 데이터이기 때문에 이 데이터는 종속적입니다. 아이들은 같은 환경에서 자라나고, 똑같은 아이들이니까요. 이것이 바로 종속표본이에요.

비유를 통한 요약

  • 독립표본: 유치원의 두 다른 반의 아이들을 비교하는 것처럼, 서로 다른 환경에서 서로 영향을 주지 않고 자라나는 두 그룹의 비교입니다.
  • 종속표본: 같은 반 아이들이 시간이 지남에 따라 어떻게 변하는지 보는 것처럼, 같은 그룹의 데이터를 시간에 따라 비교하는 것입니다.

 


 

독립표본 t-검정과 종속표본 t-검정은 두 그룹의 평균을 비교하는 통계적 방법이에요. 간단하게 말하면, 우리가 두 그룹이 서로 같은지 다른지를 알아보고 싶을 때 사용하는 방법이죠.

독립표본 t-검정 (Independent Samples t-test)

이 검정은 서로 관련이 없는 두 그룹을 비교할 때 사용돼요. 예를 들어, 유치원의 '해님 반' 아이들과 '별님 반' 아이들의 키를 비교하는 경우에요.

파이썬 코드 예시

import numpy as np
from scipy import stats

# '해님 반'과 '별님 반'의 키 데이터
group1 = np.random.normal(100, 10, 30)  # 평균 100, 표준편차 10, 데이터 30개
group2 = np.random.normal(105, 10, 30)  # 평균 105, 표준편차 10, 데이터 30개

# 독립표본 t-검정 실행
t_stat, p_value = stats.ttest_ind(group1, group2)
print("t-statistic:", t_stat)
print("p-value:", p_value)

>>>
t-statistic: -2.210802127832527
p-value: 0.031006813775789715
# 자유도 계산
df = len(group1) + len(group2) - 2 # 30 + 30 -2 = 58

# 유의 수준
alpha = 0.05

# 임계값 계산 (양측 검정)
t_critical = stats.t.ppf(1 - alpha/2, df)
print("Critical t-value for two-tailed test:", t_critical) # 2.0017174830120923

# t-통계량과 임계값 비교
if abs(t_stat) > t_critical: # 2.210802127832527 > 2.0017174830120923
    print("Reject the null hypothesis: significant difference between groups.")
else:
    print("Fail to reject the null hypothesis: no significant difference between groups.")
    
>>>
Critical t-value for two-tailed test: 2.0017174830120923
Reject the null hypothesis: significant difference between groups.

t-statistic (t-통계량)

t_stat은 t-통계량을 나타내며, 두 그룹 간 평균 차이의 크기를 표준 오차로 나눈 값입니다. 이 값이 크면 클수록 두 그룹 간의 차이가 통계적으로 유의미하다고 볼 수 있습니다. 통계량의 절대값이 큰 경우, 이는 평균 간 차이가 더 크다는 것을 의미합니다.

t-통계량의 값인 -2.21를 해석하고 비교하기 위해, 주로 사용되는 방법은 해당 t-통계량을 t 분포의 임계값(critical value)과 비교하는 것입니다. 이 임계값은 주어진 유의 수준(significance level)과 자유도(degrees of freedom)에 따라 결정됩니다.

1. 자유도(degrees of freedom) 계산

# 자유도 계산
df = len(group1) + len(group2) - 2 # 30 + 30 -2 = 58

독립표본 t-검정에서 자유도는 두 샘플 크기의 합에서 2를 빼서 계산됩니다. 예를 들어 각 그룹의 샘플 크기가 30인 경우, 자유도는 30+30−2=58이 됩니다. 

2. 임계값 계산 및 비교

# 임계값 계산 (양측 검정) alpha= 0.05

t_critical = stats.t.ppf(1 - alpha/2, df)
print("Critical t-value for two-tailed test:", t_critical) # 2.0017174830120923

유의 수준이 0.05 (5%)인 경우 두 그룹의 평균 차이에 대해 양측 검정(two-tailed test)을 수행하는 경우, t 분포 표에서 해당 자유도와 유의 수준에 맞는 임계값을 찾습니다. 그리고 t-통계량과 t분포의 임계값(critical value)을 비교합니다.

결론

자유도가 58이고 유의 수준이 0.05인 경우의 양측 검정에서의 임계값은 +2.00입니다. 이 경우 t-통계량 -2.21는 이 임계값 2.00보다 절대값이 더 크므로, 우리는 귀무가설을 기각하고 두 그룹 간에 통계적으로 유의미한 차이가 있다고 결론짓습니다.  '해님 반'과 '별님 반'의 평균 키에 통계적으로 유의미한 차이가 있음을 의미합니다. 

 

 


종속표본 t-검정 (Dependent Samples t-test)

이 검정은 같은 그룹의 데이터를 시간의 차이를 두고 비교할 때 사용돼요. 예를 들어, '해님 반' 아이들의 가을과 봄 키를 비교하는 경우에요.

파이썬 코드 예시

# 같은 '해님 반' 아이들의 키 데이터, 가을과 봄
fall_heights = np.random.normal(100, 10, 30)  # 가을 데이터
spring_heights = fall_heights + np.random.normal(5, 2, 30)  # 봄 데이터 (가을보다 키가 클 것으로 가정)

# 종속표본 t-검정 실행
t_stat, p_value = stats.ttest_rel(fall_heights, spring_heights)
print("t-statistic:", t_stat)
print("p-value:", p_value)

>>>
t-statistic: -14.664683946709102
p-value: 6.009642932300134e-15
# 임계값 계산 및 비교
df = len(fall_heights) - 1  # 자유도 계산 # 30 - 1 = 29
alpha = 0.05  # 유의 수준 설정

# 임계값 계산 (양측 검정)
t_critical = stats.t.ppf(1 - alpha/2, df)
print("Critical t-value for two-tailed test:", t_critical) # 2.045229642132703

# 결과 비교
if abs(t_stat) > t_critical:
    print("Reject the null hypothesis: significant difference between the two measurements.")
else:
    print("Fail to reject the null hypothesis: no significant difference between the two measurements.")

>>>
Critical t-value for two-tailed test: 2.045229642132703
Reject the null hypothesis: significant difference between the two measurements.

이 두 검정 방법을 사용하여, 데이터가 우리의 가설을 지지하는지 확인할 수 있어요.

자유도가 29이고 유의 수준이 0.05인 경우의 양측 검정에서의 임계값은 +2.04입니다. 이 경우 t-통계량 -14.66는 이 임계값 2.00보다 절대값이 더 크므로, 이는 봄과 가을 시기 간에 키의 변화가 유의미하다는 것을 의미하며, 귀무가설을 기각할 수 있습니다.

 


그런데 여기서 왜 양측검정을 진행했을까요?

양측 검정(two-tailed test)을 사용하는 이유는 우리가 두 그룹 간의 차이가 있을 것이라고 예측할 때, 그 차이의 방향(즉, 어느 그룹이 더 클지 또는 작을지)에 대해 특정 가정을 하지 않기 때문입니다. 양측 검정은 통계적으로 유의미한 차이가 존재하는지 확인할 때, 그 차이가 양의 방향이든 음의 방향이든 간에 발견될 수 있도록 합니다.

양측 검정의 사용 예

예를 들어, 종속표본 t-검정을 사용한 예에서:

  • 가을과 봄의 키 비교: 아이들의 키가 봄에 측정했을 때 가을보다 평균적으로 높아졌다고 예상할 수 있습니다. 그러나 통계적 검정을 할 때는 봄의 키가 가을의 키와 정확히 같지 않다는 것만을 증명하려 합니다. 이 경우, 봄의 키가 가을보다 유의미하게 낮을 수도 있는 가능성(비록 이런 결과가 예상되지 않는다 하더라도)을 열어두어야 합니다.
  • 양측 검정의 목적: 이는 두 시기의 키 차이가 통계적으로 유의미한지를 검증하는 데 목적이 있으며, 차이가 있을 경우 그 차이의 방향이 어느 쪽이든 결과에 영향을 미칠 수 있습니다. 즉, 우리는 키가 증가했는지 감소했는지를 모두 고려하는 것입니다.

 

실용적 접근

통계적 검정을 할 때 양측 검정을 사용하면, 연구자는 데이터가 보여주는 어떤 유의미한 차이도 포착할 수 있습니다. 만약 한 방향의 차이만을 고려하는 단측 검정(one-tailed test)을 사용했다면, 반대 방향의 유의미한 결과를 놓칠 수 있습니다. 이런 이유로, 연구 질문이 특정 방향의 효과를 명시적으로 예측하지 않는 한, 양측 검정이 더 보수적이고 일반적인 접근 방식으로 사용됩니다.

이렇게 양측 검정을 사용하면 연구의 유효성을 강화하고, 예상치 못한 결과에 대한 통찰력을 얻을 수 있어 연구 결과의 신뢰성을 높일 수 있습니다.