반응형
□ 중다회귀분석이란?
- 여러 개의 독립변수를 사용하여 한 개의 양적 변수인 종속변수를 설명, 예측하기 위한 통계모형
□ 중다회귀분석의 목적:
- 여러 개의 특정 독립변수들이 종속변수에 대하여 가지는 효과를 파악하되,
다른 독립변수들(공변인; covariates)에 의한 영향/오염을 통제하고 순수한 효과를 파악하기 위해 실시 - 종속변수를 가장 잘 예측하는, 또는 가장 많이 설명하는 독립변수가 어떤 것인지 파악하기 위해 실시
주의: 회귀분석의 결과를 토대로 "인과관계 추론"은 부적절
□ 중다회귀계수의 추정
- 최소제곱법 (ordinary least square estimation)
- 중다회귀분석의 기본 가정
상관분석과 유사
선형성
다변량 정규성(multivariate normality)
등분산성
□ Outlier(이상치) 확인
◼ Distance
- 종속변수의 잠재적 outlier 확인에 유용, 잔차
- 잔차
◼ Leverage (Hat)
- 독립변수들에 있어서 잠재적 outlier 확인에 유용
- 독립변수들의 조합평균에서부터의 각 관찰치의 거리
- 1/N에서 1 사이 값, 3(p+1)/N이상이면 유의 (Stevens, 1992)
◼ Influence :
distance와 leverage를 결합하여 결과에 가장 큰 영향을 미치는 관찰치 확인
- Cook’s D:
1-2. 회귀분석모형의 진단
■ 다중공선성 (multicollinearity)
- 중다회귀분석에서 독립변수들 사이에 높은 상관관계가 존재하는 상황
- 엄밀하게는 독립변수들간 상관이 1.0이라는 의미이나 0.8 혹은 0.9 이상이면 심각한 문제 발생
- 결과 : 다중공선성이 있는 경우 잘못된 판단을 유도할 수 있기에 문제가 됨
▪ 회귀계수의 불안정성
▪ 중다상관, 혹은 결정계수에 악영향
▪ 개별 독립변수의 중요도 해석에 장애
■ 다중공선성(multicollinearity) 확인방법
- 공차(tolerance; 1 - R²) < 0.1
□ R²는 독립변수 X를 종속변수로 할 때 다른 독립변수들이 얼마만큼의 설명변량을 갖는지를 의미 - VIF(1 / tolerance) > 10
■ 다중공선성이 있을 경우 해결방안
- 상관관계가 높은 변수들 중 하나만 모형에 투입
- 상관이 높은 변수들을 주성분분석하여 추출한 ‘주성분(principal component)’을 모형에 투입
■ 유목변수의 더미코딩
- 지역규모(서울, 광역시, 중소도시, 읍면지역)와 같은 범주 변수를 독립변수로 회귀분석에 투입하고자 하는 경우
- "범주수 - 1"개의 더미변수로 변환해서 투입
- 준거집단(혹은 참조집단) = 더미변수로 포함되지 않는 범주
■ 상호작용효과 분석
▪ 상호작용효과의 의미
- 종속변수 Y에 대한 X₁과 X₂의 영향을 분석함에 있어서,
- X₂의 값에 따라서 X₁이 Y에 미치는 영향(즉, b₁)이 달라진다고 예측된다면,
X₁과 X₂의 상호작용효과가 있다고 간주
▪ 모형 설계방법
- 원 변수(X₁, X₂)와 함께 이 두 변수의 곱으로 새로운 변수 (X₁X₂)를 생성하여 함께 독립변수로 투입
- 다중공선성을 피하기 위해서, 원 변수를 편차점수로 변환한 후 분석
■ 위계 모형 분석 (hierarchical analysis)
- 서로 위계적인 관계에 있는 회귀모형들을 서로 비교하여 추가적으로 투입된 변수들의 효과를 추정
- restricted model: 더 작은 수의 변수로 구성
- full model: restricted model에 포함된 모든 독립변수와 추가 변수들로 구성
▪ 사례:
- 영어점수 = b₀ + b₁(성별) + b₂(공부시간)
- 영어점수 = b₀ + b₁(성별) + b₂(공부시간) + b₃(성별)(공부시간)
■ 사례수 결정
- 독립변수와 사례수 비율 = 약 1:20 (Tabachnick & Fidell, 1989)
- 최소 50명 이상이면서 n ≥ p + 50 (Harris, 1985)
- 독립변수 수와 상관계수, 통계적 검증력을 고려해서 추정 (Cohen 외, 2003)
- G*Power 사용 결과,
▪ 상관이 0.3이고 통계적 검증력이 약 0.8인 경우, - ▪ 독립변수가 한 개면 82명, 다섯 개면 136명 필요
3. 매개변수와 조절변수에 대한 회귀분석
■ 매개변수에 대한 회귀분석
- 매개변수는 위계모형 분석을 통하여 분석 가능
- 독립변수만 포함한 모형과 여기에 매개변수를 추가한 모형을 비교
■ 조절변수에 대한 회귀분석
- 조절변수는 독립변수와 종속변수 간의 관계가 하위집단에 따라서 다르게 나타난다는 것 의미
- 이는 상호작용효과 혹은 차별적 효과로 해석
- 따라서 원래 변수와 더불어 상호작용효과 변수를 새로 생성한 후 이를 모형에 함께 투입
서울대학교 교육통계 강의 자료. 사범대학교 교육학과 박현정교수
반응형
'교육연구방법' 카테고리의 다른 글
교육연구과 통계검증(13)- 공분산분석 (0) | 2025.04.16 |
---|---|
교육연구과 통계검증(13)- 이원분산분석 (0) | 2025.04.16 |
교육연구과 통계검증(12)- 일원분산분석 (0) | 2025.04.15 |
교육연구과 통계검증(10)- 회귀 (0) | 2025.04.11 |
교육연구과 통계검증(9)- 상관 (0) | 2025.04.11 |
교육연구과 통계검증(8)- t검증 (0) | 2025.04.09 |
교육연구와 통계방법(7) - 가설검증의 관점(불편파성, 구간추정, 표본크기) (0) | 2025.04.08 |
교육연구와 통계방법(6)- 가설검증 (0) | 2025.04.08 |