Table of Contents

728x90

이원분산분석

두가지 기준이 되는 요인으로 비교하고자 하는 변수의 평균 차이가 집단 간에 존재하는지를 조사하는 것입니다. 즉,요인이 2개일때, 분산의 원인이 어디에 있는지를 밝힘으로써 요인에 영향이 있는가를 알 수 있습니다.

  • 술의 종류와 흡연 여부가 인간의 반응 시간에 미치는 영향
  • 교수법과 보상방법이 학업성취도에 미치는 영향
  • 편의점브랜드와 상권이 만족도에 미치는 영향

 

상호작용 효과

이원분산분석이 일원분산분석과 다른 점은 요인이 두 개라는것입니다. 일원분산분석에서는편의점브랜드에 따른 만족도라는 1:1 요인에 따라 나타나는 측정치에 대해 평균비교를 하지만 이원분산분석에서는 기준이 되는 요인이 두 개이기 때문에 요인이 독립적으로 변수에 미치는 영향의 평균차이를 확인하는 주효과 검정 뿐만 아니라 요인들이 연관되어 변수에 영향을 미치는 상호작용효과를 검정해야 합니다.

 

문제

예시1: 편의점브랜드에 따라 고객의 만족도에 차이가 있을까?

  • 귀무가설: 편의점브랜드에 따른 고객의 만족도에는 차이가 없다.
  • 대립가설: 편의점브랜드에 따른 고객의 만족도에는 차이가 있다.

예시2: 상권에 따라 고객의 만족도에 차이가 있을까?

  • 귀무가설: 상권에 따른 고객의 만족도에는 차이가 없다.
  • 대립가설: 상권에 따른 고객의 만족도에는 차이가 있다.

예시3: 상호작용에 의한 고객의 만족도에 차이가 있을까?

  • 귀무가설: 상호작용에 의한 고객의 만족도에는 차이가 없다.
  • 대립가설: 상호작용에 의한 고객의 만족도에는 차이가 있다.

 

다음과 같이 파이썬 코드를 통해 해당 편의점브랜드와 상권, 편의점브랜드와 상권의 상호작용에 관한 만족도 분석을 실행해봅니다. 

import pandas as pd

data = {
'store': [1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3],
'area': [1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3],
'satisfaction': [1, 5, 4, 2, 3, 3, 2, 4, 4, 3, 5, 4, 3, 5, 4, 2, 4, 4, 1, 3, 3, 1, 2, 3, 2, 3, 3, 2, 3, 4]
}
df = pd.DataFrame(data)
df1=df
import scipy as sp
import numpy as np
import pingouin as pg
import scikit_posthocs
df1= df[['store', 'area', 'satisfaction']]
pd.options.display.float_format='{:3f}'.format
print(pg.anova(dv='satisfaction', between=['store', 'area'], data=df1))
>>>
         Source        SS        DF        MS         F    p-unc      np2
0         store  8.422222  2.000000  4.211111 12.339535 0.000286 0.540271
1          area 20.466667  2.000000 10.233333 29.986047 0.000001 0.740651
2  store * area  1.811111  4.000000  0.452778  1.326744 0.292726 0.201733
3      Residual  7.166667 21.000000  0.341270       NaN      NaN      NaN

제공된 ANOVA(분산분석) 결과를 통해 'store', 'area', 그리고 'store'와 'area'의 상호작용('store * area')이 'satisfaction'에 미치는 영향을 분석할 수 있습니다. 각 열은 다음과 같은 정보를 포함하고 있습니다:

  • Source: 분석의 출처 또는 그룹(독립변수).
  • SS (Sum of Squares): 총 제곱합, 그룹 간 차이의 크기를 나타냅니다.
  • DF (Degrees of Freedom): 자유도, 표본 데이터에서 계산할 수 있는 독립적인 값의 수.
  • MS (Mean Square): 평균 제곱, 각 소스의 SS를 해당 DF로 나눈 값.
  • F: F 통계량, 그룹 간 변동이 내부(오차) 변동에 비해 얼마나 큰지를 나타냅니다.
  • p-unc: p-value, F 통계량이 관찰된 만큼의 크기나 더 큰 값을 얻을 확률.
  • np2 (Partial Eta Squared): 효과 크기, 전체 변동 중에서 해당 소스가 설명하는 변동의 비율.

 

>>>
         Source        SS        DF        MS         F    p-unc      np2
0         store  8.422222  2.000000  4.211111 12.339535 0.000286 0.540271
1          area 20.466667  2.000000 10.233333 29.986047 0.000001 0.740651
2  store * area  1.811111  4.000000  0.452778  1.326744 0.292726 0.201733
3      Residual  7.166667 21.000000  0.341270       NaN      NaN      NaN

해석:

  1. Store
    • F-value: 12.339535, store가 satisfaction에 유의미한 영향을 미치고 있음을 나타냅니다.
    • p-value: 0.000286, 0.05보다 훨씬 작아 store의 영향이 통계적으로 유의하다는 것을 의미합니다.
    • Partial Eta Squared: 0.540271, store 변수가 satisfaction의 약 54.03%의 변동을 설명합니다.
  2. Area
    • F-value: 29.986047, area가 satisfaction에 매우 강한 영향을 미치고 있음을 나타냅니다.
    • p-value: 0.000001, 매우 작은 값으로 area의 영향이 통계적으로 매우 유의하다는 것을 의미합니다.
    • Partial Eta Squared: 0.740651, area 변수가 satisfaction의 약 74.07%의 변동을 설명합니다.
  3. Store * Area (상호작용)
    • F-value: 1.326744, 상호작용이 satisfaction에 미치는 영향은 비교적 약합니다.
    • p-value: 0.292726, 0.05보다 크므로 store와 area의 상호작용이 satisfaction에 유의미한 통계적 영향을 미치지 않는다고 볼 수 있습니다.
    • Partial Eta Squared: 0.201733, 상호작용이 satisfaction 변동의 약 20.17%를 설명합니다.
  4. Residual
    • 남은 변동성을 나타내며, 모델이 설명하지 못한 데이터의 변동성입니다. 여기서는 21의 자유도에 대해 7.166667의 SS가 있습니다.

결론:

'area'가 'satisfaction'에 가장 강력한 영향을 미치며, 'store'도 유의미하지만 상대적으로 더 약한 영향을 미칩니다. 'store'와 'area'의 상호작용은 유의미하지 않으므로, 이 두 변수의 영향은 독립적으로 고려될 수 있습니다.

 

좀 더 상세하게 결과를 작성해봅시다.

1. 편의점 브랜드에 따른 고객 만족도

  • F-값: 12.339535
  • p-값: 0.000286
  • 효과 크기 (np2): 0.540271

이 결과는 편의점 브랜드에 따라 고객 만족도에 통계적으로 유의미한 차이가 있다는 것을 나타냅니다. p-값이 0.05보다 작으므로 귀무가설(편의점 브랜드에 따른 고객 만족도에는 차이가 없다)을 기각하고, 대립가설(편의점 브랜드에 따른 고객 만족도에는 차이가 있다)을 채택합니다.

2. 상권에 따른 고객 만족도

  • F-값: 29.986047
  • p-값: 0.000001
  • 효과 크기 (np2): 0.740651

상권에 따른 고객 만족도에서도 통계적으로 유의미한 차이가 관찰됩니다. p-값이 매우 낮아 귀무가설을 기각하고, 상권에 따라 고객 만족도에는 차이가 있다는 대립가설을 채택합니다. 효과 크기가 매우 크므로 상권별 차이는 실제로 중요한 영향을 미치는 것으로 볼 수 있습니다.

3. 편의점 브랜드와 상권의 상호작용

  • F-값: 1.326744
  • p-값: 0.292726
  • 효과 크기 (np2): 0.201733

상호작용 효과는 통계적으로 유의미하지 않습니다(p-값 > 0.05). 이는 편의점 브랜드와 상권의 조합이 고객 만족도에 미치는 효과가 유의미하지 않다는 것을 의미합니다. 따라서, 이 두 변수의 상호작용은 고려하지 않아도 될 것으로 보입니다.

종합 결론

편의점 브랜드와 상권 모두 고객 만족도에 중요한 영향을 미치지만, 이들의 조합인 상호작용은 중요하지 않다는 결론을 내릴 수 있습니다. 따라서 각 브랜드와 상권을 독립적으로 고려하여 전략을 수립하는 것이 효과적일 것입니다.