Table of Contents
독립표본 (Independent Samples)
상상해 보세요, 유치원에서 두 개의 다른 반에 있는 아이들이 있어요. 하나는 '해님 반'이고 다른 하나는 '달님 반'이에요. 이 두 반의 아이들은 서로 다른 반에서 다른 선생님과 활동을 해요. 이제 만약 우리가 '해님 반' 아이들과 '달님 반' 아이들의 키를 비교하고 싶다면, 우리는 두 개의 독립적인 그룹, 즉 독립표본을 가지고 있는 것이죠. 이 두 그룹은 서로 관련이 없으며, 각자 다른 환경에서 자라나고 있어요.
종속표본 (Dependent Samples)
이번에는 '해님 반'의 아이들이 어떻게 성장하는지 알아보고 싶다고 생각해 보세요. 우리는 같은 '해님 반' 아이들을 가을에 한 번, 봄에 한 번 측정해 그 아이들이 얼마나 클까를 알아볼 수 있어요. 이 경우, 가을과 봄의 측정은 같은 아이들로부터 나온 데이터이기 때문에 이 데이터는 종속적입니다. 아이들은 같은 환경에서 자라나고, 똑같은 아이들이니까요. 이것이 바로 종속표본이에요.
비유를 통한 요약
- 독립표본: 유치원의 두 다른 반의 아이들을 비교하는 것처럼, 서로 다른 환경에서 서로 영향을 주지 않고 자라나는 두 그룹의 비교입니다.
- 종속표본: 같은 반 아이들이 시간이 지남에 따라 어떻게 변하는지 보는 것처럼, 같은 그룹의 데이터를 시간에 따라 비교하는 것입니다.
독립표본 t-검정과 종속표본 t-검정은 두 그룹의 평균을 비교하는 통계적 방법이에요. 간단하게 말하면, 우리가 두 그룹이 서로 같은지 다른지를 알아보고 싶을 때 사용하는 방법이죠.
독립표본 t-검정 (Independent Samples t-test)
이 검정은 서로 관련이 없는 두 그룹을 비교할 때 사용돼요. 예를 들어, 유치원의 '해님 반' 아이들과 '별님 반' 아이들의 키를 비교하는 경우에요.
파이썬 코드 예시
import numpy as np
from scipy import stats
# '해님 반'과 '별님 반'의 키 데이터
group1 = np.random.normal(100, 10, 30) # 평균 100, 표준편차 10, 데이터 30개
group2 = np.random.normal(105, 10, 30) # 평균 105, 표준편차 10, 데이터 30개
# 독립표본 t-검정 실행
t_stat, p_value = stats.ttest_ind(group1, group2)
print("t-statistic:", t_stat)
print("p-value:", p_value)
>>>
t-statistic: -2.210802127832527
p-value: 0.031006813775789715
# 자유도 계산
df = len(group1) + len(group2) - 2 # 30 + 30 -2 = 58
# 유의 수준
alpha = 0.05
# 임계값 계산 (양측 검정)
t_critical = stats.t.ppf(1 - alpha/2, df)
print("Critical t-value for two-tailed test:", t_critical) # 2.0017174830120923
# t-통계량과 임계값 비교
if abs(t_stat) > t_critical: # 2.210802127832527 > 2.0017174830120923
print("Reject the null hypothesis: significant difference between groups.")
else:
print("Fail to reject the null hypothesis: no significant difference between groups.")
>>>
Critical t-value for two-tailed test: 2.0017174830120923
Reject the null hypothesis: significant difference between groups.
t-statistic (t-통계량)
t_stat은 t-통계량을 나타내며, 두 그룹 간 평균 차이의 크기를 표준 오차로 나눈 값입니다. 이 값이 크면 클수록 두 그룹 간의 차이가 통계적으로 유의미하다고 볼 수 있습니다. 통계량의 절대값이 큰 경우, 이는 평균 간 차이가 더 크다는 것을 의미합니다.
t-통계량의 값인 -2.21를 해석하고 비교하기 위해, 주로 사용되는 방법은 해당 t-통계량을 t 분포의 임계값(critical value)과 비교하는 것입니다. 이 임계값은 주어진 유의 수준(significance level)과 자유도(degrees of freedom)에 따라 결정됩니다.
1. 자유도(degrees of freedom) 계산
# 자유도 계산
df = len(group1) + len(group2) - 2 # 30 + 30 -2 = 58
독립표본 t-검정에서 자유도는 두 샘플 크기의 합에서 2를 빼서 계산됩니다. 예를 들어 각 그룹의 샘플 크기가 30인 경우, 자유도는 30+30−2=58이 됩니다.
2. 임계값 계산 및 비교
# 임계값 계산 (양측 검정) alpha= 0.05
t_critical = stats.t.ppf(1 - alpha/2, df)
print("Critical t-value for two-tailed test:", t_critical) # 2.0017174830120923
유의 수준이 0.05 (5%)인 경우 두 그룹의 평균 차이에 대해 양측 검정(two-tailed test)을 수행하는 경우, t 분포 표에서 해당 자유도와 유의 수준에 맞는 임계값을 찾습니다. 그리고 t-통계량과 t분포의 임계값(critical value)을 비교합니다.
결론
자유도가 58이고 유의 수준이 0.05인 경우의 양측 검정에서의 임계값은 +2.00입니다. 이 경우 t-통계량 -2.21는 이 임계값 2.00보다 절대값이 더 크므로, 우리는 귀무가설을 기각하고 두 그룹 간에 통계적으로 유의미한 차이가 있다고 결론짓습니다. '해님 반'과 '별님 반'의 평균 키에 통계적으로 유의미한 차이가 있음을 의미합니다.
종속표본 t-검정 (Dependent Samples t-test)
이 검정은 같은 그룹의 데이터를 시간의 차이를 두고 비교할 때 사용돼요. 예를 들어, '해님 반' 아이들의 가을과 봄 키를 비교하는 경우에요.
파이썬 코드 예시
# 같은 '해님 반' 아이들의 키 데이터, 가을과 봄
fall_heights = np.random.normal(100, 10, 30) # 가을 데이터
spring_heights = fall_heights + np.random.normal(5, 2, 30) # 봄 데이터 (가을보다 키가 클 것으로 가정)
# 종속표본 t-검정 실행
t_stat, p_value = stats.ttest_rel(fall_heights, spring_heights)
print("t-statistic:", t_stat)
print("p-value:", p_value)
>>>
t-statistic: -14.664683946709102
p-value: 6.009642932300134e-15
# 임계값 계산 및 비교
df = len(fall_heights) - 1 # 자유도 계산 # 30 - 1 = 29
alpha = 0.05 # 유의 수준 설정
# 임계값 계산 (양측 검정)
t_critical = stats.t.ppf(1 - alpha/2, df)
print("Critical t-value for two-tailed test:", t_critical) # 2.045229642132703
# 결과 비교
if abs(t_stat) > t_critical:
print("Reject the null hypothesis: significant difference between the two measurements.")
else:
print("Fail to reject the null hypothesis: no significant difference between the two measurements.")
>>>
Critical t-value for two-tailed test: 2.045229642132703
Reject the null hypothesis: significant difference between the two measurements.
이 두 검정 방법을 사용하여, 데이터가 우리의 가설을 지지하는지 확인할 수 있어요.
자유도가 29이고 유의 수준이 0.05인 경우의 양측 검정에서의 임계값은 +2.04입니다. 이 경우 t-통계량 -14.66는 이 임계값 2.00보다 절대값이 더 크므로, 이는 봄과 가을 시기 간에 키의 변화가 유의미하다는 것을 의미하며, 귀무가설을 기각할 수 있습니다.
그런데 여기서 왜 양측검정을 진행했을까요?
양측 검정(two-tailed test)을 사용하는 이유는 우리가 두 그룹 간의 차이가 있을 것이라고 예측할 때, 그 차이의 방향(즉, 어느 그룹이 더 클지 또는 작을지)에 대해 특정 가정을 하지 않기 때문입니다. 양측 검정은 통계적으로 유의미한 차이가 존재하는지 확인할 때, 그 차이가 양의 방향이든 음의 방향이든 간에 발견될 수 있도록 합니다.
양측 검정의 사용 예
예를 들어, 종속표본 t-검정을 사용한 예에서:
- 가을과 봄의 키 비교: 아이들의 키가 봄에 측정했을 때 가을보다 평균적으로 높아졌다고 예상할 수 있습니다. 그러나 통계적 검정을 할 때는 봄의 키가 가을의 키와 정확히 같지 않다는 것만을 증명하려 합니다. 이 경우, 봄의 키가 가을보다 유의미하게 낮을 수도 있는 가능성(비록 이런 결과가 예상되지 않는다 하더라도)을 열어두어야 합니다.
- 양측 검정의 목적: 이는 두 시기의 키 차이가 통계적으로 유의미한지를 검증하는 데 목적이 있으며, 차이가 있을 경우 그 차이의 방향이 어느 쪽이든 결과에 영향을 미칠 수 있습니다. 즉, 우리는 키가 증가했는지 감소했는지를 모두 고려하는 것입니다.
실용적 접근
통계적 검정을 할 때 양측 검정을 사용하면, 연구자는 데이터가 보여주는 어떤 유의미한 차이도 포착할 수 있습니다. 만약 한 방향의 차이만을 고려하는 단측 검정(one-tailed test)을 사용했다면, 반대 방향의 유의미한 결과를 놓칠 수 있습니다. 이런 이유로, 연구 질문이 특정 방향의 효과를 명시적으로 예측하지 않는 한, 양측 검정이 더 보수적이고 일반적인 접근 방식으로 사용됩니다.
이렇게 양측 검정을 사용하면 연구의 유효성을 강화하고, 예상치 못한 결과에 대한 통찰력을 얻을 수 있어 연구 결과의 신뢰성을 높일 수 있습니다.
'통계' 카테고리의 다른 글
t-test t검정/ ANOVA 분산분석 (0) | 2024.04.25 |
---|---|
종속표본 t-test t검정 (0) | 2024.04.25 |
[학습블로그] p-value 귀무가설 대립가설 5살 유치원생도 이해할 수 있게 설명해줄게요 (0) | 2024.04.24 |
산술평균 기하평균 조화평균 (0) | 2024.04.24 |
귀무가설/ 대립가설/ 1종 오류/ 2종 오류/ 유의확률p-value (0) | 2024.04.24 |
- Total
- Today
- Yesterday
- git
- Github
- Numpy
- classification
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
- Lora
- 티스토리챌린지
- 해시
- 오블완
- cnn
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- speaking
- LIST
- clustering
- 리스트
- Transformer
- LLM
- RAG
- Python
- nlp
- recursion #재귀 #자료구조 # 알고리즘
- 코딩테스트
- Array
- English
- 손실함수
- t5
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- PEFT
- Hugging Face
- 파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |