Table of Contents
이원분산분석
두가지 기준이 되는 요인으로 비교하고자 하는 변수의 평균 차이가 집단 간에 존재하는지를 조사하는 것입니다. 즉,요인이 2개일때, 분산의 원인이 어디에 있는지를 밝힘으로써 요인에 영향이 있는가를 알 수 있습니다.
- 술의 종류와 흡연 여부가 인간의 반응 시간에 미치는 영향
- 교수법과 보상방법이 학업성취도에 미치는 영향
- 편의점브랜드와 상권이 만족도에 미치는 영향
상호작용 효과
이원분산분석이 일원분산분석과 다른 점은 요인이 두 개라는것입니다. 일원분산분석에서는편의점브랜드에 따른 만족도라는 1:1 요인에 따라 나타나는 측정치에 대해 평균비교를 하지만 이원분산분석에서는 기준이 되는 요인이 두 개이기 때문에 요인이 독립적으로 변수에 미치는 영향의 평균차이를 확인하는 주효과 검정 뿐만 아니라 요인들이 연관되어 변수에 영향을 미치는 상호작용효과를 검정해야 합니다.
문제
예시1: 편의점브랜드에 따라 고객의 만족도에 차이가 있을까?
- 귀무가설: 편의점브랜드에 따른 고객의 만족도에는 차이가 없다.
- 대립가설: 편의점브랜드에 따른 고객의 만족도에는 차이가 있다.
예시2: 상권에 따라 고객의 만족도에 차이가 있을까?
- 귀무가설: 상권에 따른 고객의 만족도에는 차이가 없다.
- 대립가설: 상권에 따른 고객의 만족도에는 차이가 있다.
예시3: 상호작용에 의한 고객의 만족도에 차이가 있을까?
- 귀무가설: 상호작용에 의한 고객의 만족도에는 차이가 없다.
- 대립가설: 상호작용에 의한 고객의 만족도에는 차이가 있다.
다음과 같이 파이썬 코드를 통해 해당 편의점브랜드와 상권, 편의점브랜드와 상권의 상호작용에 관한 만족도 분석을 실행해봅니다.
import pandas as pd
data = {
'store': [1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3],
'area': [1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3],
'satisfaction': [1, 5, 4, 2, 3, 3, 2, 4, 4, 3, 5, 4, 3, 5, 4, 2, 4, 4, 1, 3, 3, 1, 2, 3, 2, 3, 3, 2, 3, 4]
}
df = pd.DataFrame(data)
df1=df
import scipy as sp
import numpy as np
import pingouin as pg
import scikit_posthocs
df1= df[['store', 'area', 'satisfaction']]
pd.options.display.float_format='{:3f}'.format
print(pg.anova(dv='satisfaction', between=['store', 'area'], data=df1))
>>>
Source SS DF MS F p-unc np2
0 store 8.422222 2.000000 4.211111 12.339535 0.000286 0.540271
1 area 20.466667 2.000000 10.233333 29.986047 0.000001 0.740651
2 store * area 1.811111 4.000000 0.452778 1.326744 0.292726 0.201733
3 Residual 7.166667 21.000000 0.341270 NaN NaN NaN
제공된 ANOVA(분산분석) 결과를 통해 'store', 'area', 그리고 'store'와 'area'의 상호작용('store * area')이 'satisfaction'에 미치는 영향을 분석할 수 있습니다. 각 열은 다음과 같은 정보를 포함하고 있습니다:
- Source: 분석의 출처 또는 그룹(독립변수).
- SS (Sum of Squares): 총 제곱합, 그룹 간 차이의 크기를 나타냅니다.
- DF (Degrees of Freedom): 자유도, 표본 데이터에서 계산할 수 있는 독립적인 값의 수.
- MS (Mean Square): 평균 제곱, 각 소스의 SS를 해당 DF로 나눈 값.
- F: F 통계량, 그룹 간 변동이 내부(오차) 변동에 비해 얼마나 큰지를 나타냅니다.
- p-unc: p-value, F 통계량이 관찰된 만큼의 크기나 더 큰 값을 얻을 확률.
- np2 (Partial Eta Squared): 효과 크기, 전체 변동 중에서 해당 소스가 설명하는 변동의 비율.
>>>
Source SS DF MS F p-unc np2
0 store 8.422222 2.000000 4.211111 12.339535 0.000286 0.540271
1 area 20.466667 2.000000 10.233333 29.986047 0.000001 0.740651
2 store * area 1.811111 4.000000 0.452778 1.326744 0.292726 0.201733
3 Residual 7.166667 21.000000 0.341270 NaN NaN NaN
해석:
- Store
- F-value: 12.339535, store가 satisfaction에 유의미한 영향을 미치고 있음을 나타냅니다.
- p-value: 0.000286, 0.05보다 훨씬 작아 store의 영향이 통계적으로 유의하다는 것을 의미합니다.
- Partial Eta Squared: 0.540271, store 변수가 satisfaction의 약 54.03%의 변동을 설명합니다.
- Area
- F-value: 29.986047, area가 satisfaction에 매우 강한 영향을 미치고 있음을 나타냅니다.
- p-value: 0.000001, 매우 작은 값으로 area의 영향이 통계적으로 매우 유의하다는 것을 의미합니다.
- Partial Eta Squared: 0.740651, area 변수가 satisfaction의 약 74.07%의 변동을 설명합니다.
- Store * Area (상호작용)
- F-value: 1.326744, 상호작용이 satisfaction에 미치는 영향은 비교적 약합니다.
- p-value: 0.292726, 0.05보다 크므로 store와 area의 상호작용이 satisfaction에 유의미한 통계적 영향을 미치지 않는다고 볼 수 있습니다.
- Partial Eta Squared: 0.201733, 상호작용이 satisfaction 변동의 약 20.17%를 설명합니다.
- Residual
- 남은 변동성을 나타내며, 모델이 설명하지 못한 데이터의 변동성입니다. 여기서는 21의 자유도에 대해 7.166667의 SS가 있습니다.
결론:
'area'가 'satisfaction'에 가장 강력한 영향을 미치며, 'store'도 유의미하지만 상대적으로 더 약한 영향을 미칩니다. 'store'와 'area'의 상호작용은 유의미하지 않으므로, 이 두 변수의 영향은 독립적으로 고려될 수 있습니다.
좀 더 상세하게 결과를 작성해봅시다.
1. 편의점 브랜드에 따른 고객 만족도
- F-값: 12.339535
- p-값: 0.000286
- 효과 크기 (np2): 0.540271
이 결과는 편의점 브랜드에 따라 고객 만족도에 통계적으로 유의미한 차이가 있다는 것을 나타냅니다. p-값이 0.05보다 작으므로 귀무가설(편의점 브랜드에 따른 고객 만족도에는 차이가 없다)을 기각하고, 대립가설(편의점 브랜드에 따른 고객 만족도에는 차이가 있다)을 채택합니다.
2. 상권에 따른 고객 만족도
- F-값: 29.986047
- p-값: 0.000001
- 효과 크기 (np2): 0.740651
상권에 따른 고객 만족도에서도 통계적으로 유의미한 차이가 관찰됩니다. p-값이 매우 낮아 귀무가설을 기각하고, 상권에 따라 고객 만족도에는 차이가 있다는 대립가설을 채택합니다. 효과 크기가 매우 크므로 상권별 차이는 실제로 중요한 영향을 미치는 것으로 볼 수 있습니다.
3. 편의점 브랜드와 상권의 상호작용
- F-값: 1.326744
- p-값: 0.292726
- 효과 크기 (np2): 0.201733
상호작용 효과는 통계적으로 유의미하지 않습니다(p-값 > 0.05). 이는 편의점 브랜드와 상권의 조합이 고객 만족도에 미치는 효과가 유의미하지 않다는 것을 의미합니다. 따라서, 이 두 변수의 상호작용은 고려하지 않아도 될 것으로 보입니다.
종합 결론
편의점 브랜드와 상권 모두 고객 만족도에 중요한 영향을 미치지만, 이들의 조합인 상호작용은 중요하지 않다는 결론을 내릴 수 있습니다. 따라서 각 브랜드와 상권을 독립적으로 고려하여 전략을 수립하는 것이 효과적일 것입니다.
'통계' 카테고리의 다른 글
선형회귀 Linear Regression / 손실함수 Loss function (0) | 2024.04.25 |
---|---|
상관분석 Correlation Analysis (0) | 2024.04.25 |
일원분산분석 One-Way ANOVA / 사후분석 post-hoc analysis (0) | 2024.04.25 |
t-test t검정/ ANOVA 분산분석 (0) | 2024.04.25 |
종속표본 t-test t검정 (0) | 2024.04.25 |
- Total
- Today
- Yesterday
- 리스트
- 코딩테스트
- git
- Python
- speaking
- LIST
- #패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- PEFT
- 손실함수
- Numpy
- RAG
- Array
- 오블완
- Github
- English
- t5
- recursion #재귀 #자료구조 # 알고리즘
- clustering
- #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab#국비지원 #패스트캠퍼스업스테이지에이아이랩#패스트캠퍼스업스테이지부트캠프
- 해시
- nlp
- 티스토리챌린지
- classification
- Lora
- cnn
- LLM
- 파이썬
- Transformer
- Hugging Face
- #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #무료교육 #국비지원 #국비지원취업 #데이터분석취업 등
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |