교육연구과 통계검증(12)- 일원분산분석
1. 분산분석의 기본 개념
□ 분산분석이란?
- 여러 개의 집단 간에 양적 변수인 종속변수의 모집단 평균이 동일한지 여부를 통계적으로 검증
- 집단을 나누는 기준, 즉 "요인(factor)"의 수에 따라서 '일원분산분석(one-way ANOVA)'과 이원 또는 삼원 분산분석과 같은 '다원분산분석'으로 구분
- 일원분산분석의 통계적 영가설(H₀): μ₁ = μ₂ = ⋯ = μₖ = μ
□ 분산분석을 사용하는 이유?
- ■ 일원분산분석의 경우에, 집단을 두 개씩 짝을 지어서 독립표본 t 검정을 반복 사용하지 않고 분산분석을 사용하는 이유가 무엇인가?
▶ familywise error rate (FWER): 한 연구질문에 답하기 위해서, 여러 번의 가설 검증을 실시하는 경우, 여러 번의 검증에서 단 한 번이라도 제 1종의 오류를 범할 확률
▶ 예컨대, A, B, C의 세 집단간 평균 차이의 검증을 위해, A-B, A-C, B-C, (A&B)-C, (A&C)-B, (B&C)-A 등 모두 6가지 평균 차이에 대한 t 검증을 각각 유의수준 α=0.05에서 실시한다면,
▶ familywise error rate (FWER) = 1 - (1 - 0.05)^6 = 1 - (0.95)^6 = 0.26
□ 제곱합(sum of squares; SS)의 분할
- ■ 전체 제곱합 (SST) = 집단내 제곱합 (SSW) + 집단간 제곱합 (SSB)
수식:
∑∑(Yij - Ȳ)² = ∑∑(Yij - Ȳj)² + ∑∑(Ȳj - Ȳ)²
= ∑∑(Yij - Ȳj)² + ∑nj(Ȳj - Ȳ)²
□ 자유도의 분할
- ■ 전체 자유도 (dfT) = 집단내 자유도 (dfW) + 집단간 자유도 (dfB)
(N - 1) = (N - g) + (g - 1) 또는 ∑(nj - 1) + (g - 1)
□ 분산분석의 기본 원리:
- ■ 모집단에서의 분산에 대한 추정치를 구하기 위하여 제곱합을 자유도로 나누어준 ‘평균제곱(mean square; MS)’를 계산한 다음,
- ■ 종속변수의 변산 중에서 무선오차에 의한 비체계적인 부분(집단내 평균제곱; MSW)에 비하여
독립변수에 의한 체계적인 부분(집단간 평균제곱; MSB)이 차지하는 비율이 얼마나 큰지의 개념으로
독립변수의 효과(이 경우 집단간 차이) 검증 실시
수식:
F = MSB / MSW = (SSB / dfB) / (SSW / dfW)
절차
① 영가설과 대립가설 진술
(필요한 경우 유의수준 결정)
- H₀: μ₁ = μ₂ = μ₃
② 표본 통계치 계산
- N₁ = N₂ = N₃ = 4
- Ȳ₁ = 5.75, Ȳ₂ = 4.75, Ȳ₃ = 2.5
- S₁ = 1.71, S₂ = 1.71, S₃ = 1.29
③ 표집분포 상정
- MSB / MSW = SSB / dfB ÷ SSW / dfW
- ~ F(dfB = 2, dfW = 9)
④ F 통계값 계산 (분산분석표 작성)
- F = MSB / MSW = (SSB / dfB) ÷ (SSW / dfW)
- = (22.167 / 2) ÷ (22.5 / 9) = 4.433
⑤ 기각역 또는 유의확률 확인 통해 결론 도출
3. 분산분석의 기본 가정
□ 정규성 가정
- 개별 조건/집단의 모집단에서 종속변수 Y는 정규분포를 이루고 있다는 가정
□ 등분산 가정
- Y의 모집단 분산이 모든 조건/집단에 있어서 동일해야 한다는 가정
□ 독립성 가정
- 개별 조건/집단은 각각의 모집단에서 서로 독립적으로 표집된 사례들로 구성되어 있다는 가정
- 종속변수가 양적변수어야함.
- F값이 1에 가까우면 두 모집단 분산은 다르지 않다.
□ 가정의 Robustness
■ 독립성 가정의 경우,
- 가정 위배의 영향이 매우 심각
□ 독립성 가정을 위배하는 경우에는 반복측정 분산분석과 같은 이에 적합한 분석 수행!
■ 정규성과 등분산성 가정의 경우,
□ 모집단 분포가 좌우대칭이거나 적어도 형태가 상호 유사하다면 OK!
□ 가장 큰 분산이 가장 작은 분산의 4배 이하이면 OK!
□ 정규성 및 등분산 가정을 위배하는 경우 대응방안
■ 등분산 가정을 위배하는 이유가 비정규성 때문일 수도 있으므로,
- 일단 종속변수가 정규분포를 이루도록 변환하여 다시 분석
■ **Box(1954)**의 보수적 검정 적용
□ 앞서 제시한 임계치 대신 다음 값 적용:
Fα(1,n−1)F_{\alpha}(1, n - 1)Fα(1,n−1)
■ Welch F 검증(1951) 실시
◼ 사후비교
- 전반적 검증 결과 집단간 차이가 유의한 것으로 파악된 후, family-wise error rate(FWER)을 어느 정도 통제하면서 어떤 평균들이 서로 차이가 나는지를 규명하기 위하여 평균들을 둘씩 쌍으로 또는 대비로 묶어서 비교하는 방법
- Bonferroni 검증과 범위(q) 통계량을 사용한 Tukey 검증, Fisher의 검증, Scheffé 검증 등이 있으며, 이들은 ‘FWER’를 얼마나 엄격한 수준에서 통제하는지에 있어서 차이
◼ Scheffé 검증
- 두 개의 실험집단 평균들 사이의 차이에 대한 비교뿐만 아니라, 모든 가능한 유형의 대비에 의한 비교들에도 적용
- 우선 대비분석을 수행한 다음, 각 대비의 F 값을 산출
-
- Scheffé 검증은 모든 다중비교 방법들 중에서 영가설을 기각하기 가장 어려운 방법이나,
모든 쌍 비교뿐 아니라 모든 대비분석도 다 수행할 수 있다는 장점이 있음
서울대학교 교육통계 강의 자료. 사범대학교 교육학과 박현정교수
성태제(2019). 현대기초통계학 이해와 적용 제 8판. 학지사. pp, 369-418.