교육연구방법

교육연구과 통계검증(11)- 중다회귀분석

밍티쳐 2025. 4. 11. 15:08
반응형

중다회귀분석이란?

  • 여러 개의 독립변수를 사용하여 한 개의 양적 변수인 종속변수를 설명, 예측하기 위한 통계모형

 

중다회귀분석의 목적:

  • 여러 개의 특정 독립변수들이 종속변수에 대하여 가지는 효과를 파악하되,
    다른 독립변수들(공변인; covariates)에 의한 영향/오염을 통제하고 순수한 효과를 파악하기 위해 실시
  • 종속변수를 가장 잘 예측하는, 또는 가장 많이 설명하는 독립변수가 어떤 것인지 파악하기 위해 실시

주의: 회귀분석의 결과를 토대로 "인과관계 추론"은 부적절

 

중다회귀계수의 추정

  • 최소제곱법 (ordinary least square estimation)

 

  1. 중다회귀분석의 기본 가정

상관분석과 유사

선형성

다변량 정규성(multivariate normality)

등분산성

 

□ Outlier(이상치) 확인

Distance

  • 종속변수의 잠재적 outlier 확인에 유용, 잔차
  • 잔차

Leverage (Hat)

  • 독립변수들에 있어서 잠재적 outlier 확인에 유용
  • 독립변수들의 조합평균에서부터의 각 관찰치의 거리
  • 1/N에서 1 사이 값, 3(p+1)/N이상이면 유의 (Stevens, 1992)

Influence :

distance leverage를 결합하여 결과에 가장 큰 영향을 미치는 관찰치 확인

  • Cook’s D:

 

1-2. 회귀분석모형의 진단

다중공선성 (multicollinearity)

  • 중다회귀분석에서 독립변수들 사이에 높은 상관관계가 존재하는 상황
  • 엄밀하게는 독립변수들간 상관이 1.0이라는 의미이나 0.8 혹은 0.9 이상이면 심각한 문제 발생
  • 결과 : 다중공선성이 있는 경우 잘못된 판단을 유도할 수 있기에 문제가 됨
    회귀계수의 불안정성
    중다상관, 혹은 결정계수에 악영향
    개별 독립변수의 중요도 해석에 장애

 

다중공선성(multicollinearity) 확인방법

  • 공차(tolerance; 1 - R²) < 0.1
    □ R²
    는 독립변수 X를 종속변수로 할 때 다른 독립변수들이 얼마만큼의 설명변량을 갖는지를 의미
  • VIF(1 / tolerance) > 10

 

다중공선성이 있을 경우 해결방안

  • 상관관계가 높은 변수들 중 하나만 모형에 투입
  • 상관이 높은 변수들을 주성분분석하여 추출한주성분(principal component)’을 모형에 투입

 

유목변수의 더미코딩

  • 지역규모(서울, 광역시, 중소도시, 읍면지역)와 같은 범주 변수를 독립변수로 회귀분석에 투입하고자 하는 경우
  • "범주수 - 1"개의 더미변수로 변환해서 투입
  • 준거집단(혹은 참조집단) = 더미변수로 포함되지 않는 범주

 

상호작용효과 분석

상호작용효과의 의미

  • 종속변수 Y에 대한 X₁ X₂의 영향을 분석함에 있어서,
  • X₂의 값에 따라서 X₁ Y에 미치는 영향(, b₁)이 달라진다고 예측된다면,
    X₁
    X₂의 상호작용효과가 있다고 간주

모형 설계방법

  • 원 변수(X₁, X₂)와 함께 이 두 변수의 곱으로 새로운 변수 (X₁X₂)를 생성하여 함께 독립변수로 투입
  • 다중공선성을 피하기 위해서, 원 변수를 편차점수로 변환한 후 분석

 

위계 모형 분석 (hierarchical analysis)

  • 서로 위계적인 관계에 있는 회귀모형들을 서로 비교하여 추가적으로 투입된 변수들의 효과를 추정
  • restricted model: 더 작은 수의 변수로 구성
  • full model: restricted model에 포함된 모든 독립변수와 추가 변수들로 구성

사례:

  • 영어점수 = b₀ + b₁(성별) + b₂(공부시간)
  • 영어점수 = b₀ + b₁(성별) + b₂(공부시간) + b₃(성별)(공부시간)

 

사례수 결정

  • 독립변수와 사례수 비율 = 1:20 (Tabachnick & Fidell, 1989)
  • 최소 50명 이상이면서 n ≥ p + 50 (Harris, 1985)
  • 독립변수 수와 상관계수, 통계적 검증력을 고려해서 추정 (Cohen , 2003)
  • G*Power 사용 결과,
    상관이 0.3이고 통계적 검증력이 약 0.8인 경우,
  • 독립변수가 한 개면 82, 다섯 개면 136명 필요

 

3. 매개변수와 조절변수에 대한 회귀분석

매개변수에 대한 회귀분석

  • 매개변수는 위계모형 분석을 통하여 분석 가능
  • 독립변수만 포함한 모형여기에 매개변수를 추가한 모형을 비교

 

조절변수에 대한 회귀분석

  • 조절변수는 독립변수와 종속변수 간의 관계가 하위집단에 따라서 다르게 나타난다는 것 의미
  • 이는 상호작용효과 혹은 차별적 효과로 해석
  • 따라서 원래 변수와 더불어 상호작용효과 변수를 새로 생성한 후 이를 모형에 함께 투입

 

서울대학교 교육통계 강의 자료. 사범대학교 교육학과 박현정교수

반응형