교육연구방법

교육연구과 통계검증(16)- 로지스틱 회귀분석

밍티쳐 2025. 4. 21. 12:52
반응형

로지스틱 회귀분석이란?

  • 종속변수가 0/1과 같은 두 가지 값을 갖는 범주변수인 경우
  • 범주변수와 연속적 독립변수들 간의 관계를 파악하기 위해 사용하는 회귀분석

 

로지스틱 회귀분석의 논리:

  • 범주변수인 종속변수를 연속적 종속변수로 변환해준 다음,
    변환된 종속변수와 독립변수들 간의 관계
    혹은 변환된 종속변수에 대한 독립변수들의 효과를 중다회귀분석 모형을 이용해서 검증
  • 연결함수(link function):
    원래의 범주변수실제 회귀분석에 사용될 연속적 종속변수로 변환해주는 규칙.
    **
    로짓함수(logit function)**프로빗함수(probit function) 등이 있음

 

승산의 의미:

  • 0에서사이의 값
  • 승산이 1.00이면 대학 진학 비율과 미진학 비율이 동일
  • 승산이 1.00보다 크면 진학 비율이 미진학 비율보다 크다는 의미

 

  • 승산의 경우 의미는 분명하지만, 1.0을 기준으로 0에서사이에 비대칭 분포를 이루는 단점을 극복하기 위해 로그 변환 (정규성 가정)
  • 수식에서 'ln'은 자연상수 e(≈2.718) 를 밑으로 하는 자연로그

 

  • 예시:

 

 

 

 

로지스틱 회귀계수의 추정

  • 최대우도추정법에 의한 추정: 등분산 가정과 **영 빈도(zero frequency)**의 문제로 인해 최소제곱법 사용 불가.

 

로지스틱 회귀모형의 통계적 검증

  • 우도비 카이제곱을 사용한 모형 검증
  • Wald 통계치를 사용한 회귀계수에 대한 통계적 검증

 

로지스틱 회귀모형의 장점

  • 범주변수인 종속변수와 연속적 독립변수의 비선형적 관계 검증을 위해 손쉽게 사용 가능
  • 최대우도추정법이 가지는 모든 통계적 장점 보유
  • 종속변수의 범주 수가 세 개 이상인 경우에도,
    다항 로지스틱 회귀분석(multinomial logistic regression)을 통해 손쉽게 일반화 가능

 

로지스틱 회귀분석의 단점

  • 연속적 독립변수의 각 값을 하나의 범주변수로 간주하므로,
    연속적 독립변수의 수가 많을 경우 교차분할되는 범주의 수가 기하급수적으로 늘어나
    영빈도의 문제 발생 가능성도 커진다.
  • 특히 5 미만의 빈도를 가지는 범주의 수가 많으면
    합치도 지수에 심각한 왜곡이 생기거나
    회귀계수가 불안정
  • 따라서 표본의 크기가 커야 한다는 실질적, 이론적 필요

 

서울대학교 교육통계 강의 자료. 사범대학교 교육학과 박현정교수

반응형