반응형
■ 로지스틱 회귀분석이란?
- 종속변수가 0/1과 같은 두 가지 값을 갖는 범주변수인 경우
- 범주변수와 연속적 독립변수들 간의 관계를 파악하기 위해 사용하는 회귀분석
■ 로지스틱 회귀분석의 논리:
- 범주변수인 종속변수를 연속적 종속변수로 변환해준 다음,
변환된 종속변수와 독립변수들 간의 관계
혹은 변환된 종속변수에 대한 독립변수들의 효과를 중다회귀분석 모형을 이용해서 검증 - 연결함수(link function):
“원래의 범주변수”를 “실제 회귀분석에 사용될 연속적 종속변수”로 변환해주는 규칙.
**로짓함수(logit function)**와 프로빗함수(probit function) 등이 있음
■ 승산의 의미:
- 0에서 ∞ 사이의 값
- 승산이 1.00이면 대학 진학 비율과 미진학 비율이 동일
- 승산이 1.00보다 크면 진학 비율이 미진학 비율보다 크다는 의미
- 승산의 경우 의미는 분명하지만, 1.0을 기준으로 0에서 ∞ 사이에 비대칭 분포를 이루는 단점을 극복하기 위해 로그 변환 (정규성 가정)
- 수식에서 'ln'은 자연상수 e(≈2.718) 를 밑으로 하는 자연로그
- 예시:
□ 로지스틱 회귀계수의 추정
- 최대우도추정법에 의한 추정: 등분산 가정과 **영 빈도(zero frequency)**의 문제로 인해 최소제곱법 사용 불가.
□ 로지스틱 회귀모형의 통계적 검증
- 우도비 카이제곱을 사용한 모형 검증
- Wald 통계치를 사용한 회귀계수에 대한 통계적 검증
□ 로지스틱 회귀모형의 장점
- 범주변수인 종속변수와 연속적 독립변수의 비선형적 관계 검증을 위해 손쉽게 사용 가능
- 최대우도추정법이 가지는 모든 통계적 장점 보유
- 종속변수의 범주 수가 세 개 이상인 경우에도,
‘다항 로지스틱 회귀분석(multinomial logistic regression)’을 통해 손쉽게 일반화 가능
□ 로지스틱 회귀분석의 단점
- 연속적 독립변수의 각 값을 하나의 범주변수로 간주하므로,
연속적 독립변수의 수가 많을 경우 교차분할되는 범주의 수가 기하급수적으로 늘어나
→ 영빈도의 문제 발생 가능성도 커진다. - 특히 5 미만의 빈도를 가지는 범주의 수가 많으면
→ 합치도 지수에 심각한 왜곡이 생기거나
→ 회귀계수가 불안정 - 따라서 표본의 크기가 커야 한다는 실질적, 이론적 필요
서울대학교 교육통계 강의 자료. 사범대학교 교육학과 박현정교수
반응형
'교육연구방법' 카테고리의 다른 글
교육연구과 통계검증(15)- 카이스퀘어 검증 (0) | 2025.04.17 |
---|---|
교육연구과 통계검증(14)- 공분산분석 (0) | 2025.04.16 |
교육연구과 통계검증(13)- 이원분산분석 (0) | 2025.04.16 |
교육연구과 통계검증(12)- 일원분산분석 (0) | 2025.04.15 |
교육연구과 통계검증(11)- 중다회귀분석 (1) | 2025.04.11 |
교육연구과 통계검증(10)- 회귀 (0) | 2025.04.11 |
교육연구과 통계검증(9)- 상관 (0) | 2025.04.11 |
교육연구과 통계검증(8)- t검증 (0) | 2025.04.09 |