이항 로지스틱 회귀분석이란?
이항 로지스틱 회귀분석은 이분형 결과변수(정확히 두 범주를 가진 변수)를 하나 이상의 예측변수로부터 예측하는 통계 방법입니다. 연속형 결과를 예측하는 일반 선형 회귀분석과 달리, 로지스틱 회귀분석은 관측치가 두 집단 중 하나에 속할 확률을 예측합니다.
이분형 결과의 일반적인 예시:
- 합격 vs. 불합격
- 질병 있음 vs. 없음
- 고객 이탈 vs. 잔류
- 지원자 합격 vs. 불합격
모형은 결과의 로그 오즈(로짓)를 추정하는 방정식을 생성하며, 이를 0과 1 사이의 확률로 변환할 수 있습니다.
언제 로지스틱 회귀분석을 사용할까?
로지스틱 회귀분석은 다음의 경우에 적합합니다.
- 종속변수가 이분형(0과 1로 코딩된 두 범주)일 때
- 어떤 예측변수가 집단 구성원을 유의하게 예측하는지 알고 싶을 때
- 사건 발생 확률을 추정해야 할 때
- 예측변수가 연속형, 범주형, 또는 둘의 혼합일 때
결과가 세 개 이상의 범주를 가지면 다항 로지스틱 회귀분석을, 결과가 연속형이면 선형 회귀분석을 사용합니다.
1단계: 데이터 준비
결과 변수 코딩
종속변수는 0과 1로 코딩해야 합니다.
- 0 = 참조 범주 (예: 질병 없음, 구매하지 않음)
- 1 = 관심 사건 (예: 질병 있음, 구매함)
어떤 범주를 0과 1로 코딩하느냐가 중요합니다. 모형은 1로 코딩된 사건의 확률을 예측하기 때문입니다.
예측변수 확인
로지스틱 회귀분석은 연속형과 범주형 예측변수를 모두 처리할 수 있습니다. 두 수준 이상의 범주형 예측변수는 더미 코딩이 필요합니다(StatMate가 자동으로 처리합니다).
표본 크기 고려사항
로지스틱 회귀분석은 많은 연구자들이 예상하는 것보다 큰 표본이 필요합니다.
| 기준 | 권장 사항 | |------|----------| | 최소 전체 N | 100명 이상 | | 변수당 사건 수(EPV) | 예측변수당 최소 10건 | | 권장 EPV | 예측변수당 20건 이상 |
예시: 예측변수가 5개이고 빈도가 낮은 결과 범주가 40건이면, EPV = 40/5 = 8로 권장 최소값 미만입니다. 예측변수 수를 줄이거나 더 많은 데이터를 수집해야 합니다.
2단계: 가정 확인
로지스틱 회귀분석은 선형 회귀분석보다 가정이 적지만, 몇 가지 조건을 확인해야 합니다.
다중공선성 없음
예측변수 간 높은 상관이 없어야 합니다. 각 예측변수의 분산 팽창 인수(VIF)를 확인합니다.
| VIF 값 | 해석 | |--------|------| | 1.0 | 상관 없음 | | 1.0 ~ 5.0 | 보통, 일반적으로 허용 | | 5.0 ~ 10.0 | 높음, 문제가 될 수 있음 | | 10.0 초과 | 심각한 다중공선성 — 조치 필요 |
로짓의 선형성
연속형 예측변수의 경우, 예측변수와 결과의 로그 오즈 간 관계가 선형이어야 합니다. 예측변수와 그 자연로그의 상호작용을 모형에 포함하여 검정할 수 있습니다.
관측치의 독립성
각 관측치는 독립이어야 합니다. 수정 없이는 반복측정이나 군집 데이터에 로지스틱 회귀분석을 적용할 수 없습니다.
극단적 이상치 없음
로지스틱 회귀분석은 선형 회귀분석보다 이상치에 강건하지만, 연속형 예측변수의 극단값은 결과를 왜곡할 수 있습니다.
3단계: 모형 적합
로지스틱 회귀 방정식
모형은 다음 방정식을 추정합니다.
log(p / (1-p)) = b0 + b1X1 + b2X2 + ... + bkXk
여기서:
- p: 사건 발생 확률 (Y = 1)
- p / (1-p): 사건의 오즈
- log(p / (1-p)): 로그 오즈 (로짓)
- b0: 절편
- b1 ~ bk: 회귀계수
실제 예제: 대학원 입학 예측
GPA와 GRE 점수를 기반으로 지원자의 합격(1) 또는 불합격(0)을 예측하고 싶다고 가정합니다. 데이터는 400명의 지원자를 포함합니다.
| 변수 | 역할 | 유형 | |------|------|------| | 입학 여부 (0/1) | 결과변수 | 이분형 | | GPA (0-4.0) | 예측변수 | 연속형 | | GRE 점수 (200-800) | 예측변수 | 연속형 |
모형 적합 후 결과는 다음과 같을 수 있습니다.
| 예측변수 | B | SE | Wald | p | 오즈비 | 95% CI | |----------|------|------|-------|-------|--------|--------| | 절편 | -6.44 | 1.25 | 26.55 | < .001 | — | — | | GPA | 1.05 | 0.33 | 10.12 | .001 | 2.86 | 1.50, 5.44 | | GRE 점수 | 0.003 | 0.001 | 7.84 | .005 | 1.003 | 1.001, 1.005 |
4단계: 계수 해석
회귀계수 (B)
B 값은 예측변수가 한 단위 증가할 때 로그 오즈의 변화를 나타냅니다. 로그 오즈는 직관적이지 않으므로 일반적으로 오즈비로 변환합니다.
오즈비 (Exp(B))
오즈비는 회귀계수를 지수화하여 구합니다: OR = e^B. 이것이 로지스틱 회귀분석에서 가장 해석하기 쉬운 지표입니다.
예제 결과 해석:
- GPA: OR = 2.86. GPA가 1점 증가할 때마다 입학 오즈가 2.86배 증가합니다(186% 증가). GRE를 통제한 상태입니다.
- GRE: OR = 1.003. GRE가 1점 증가할 때마다 입학 오즈가 1.003배 증가합니다(0.3% 증가). 더 의미 있는 해석을 위해 100점 증가 효과를 보면: OR = 1.003^100 = 1.35로, 오즈가 35% 증가합니다.
오즈비 해석 기준
| 오즈비 | 해석 | |--------|------| | 정확히 1.00 | 효과 없음 | | 1.00 초과 | 사건의 오즈 증가 | | 1.00 미만 | 사건의 오즈 감소 |
중요: 오즈비 2.0은 확률이 두 배가 된다는 뜻이 아닙니다. 오즈와 확률의 관계는 비선형입니다. OR = 2.0은 오즈가 두 배가 된다는 의미이며, 실제 확률 변화는 기저 확률에 따라 달라집니다.
5단계: 모형 적합도 평가
전반적 모형 유의성
총괄 카이제곱 검정(우도비 검정)은 예측변수가 포함된 모형이 예측변수 없는 모형(영 모형)보다 유의하게 적합한지를 평가합니다.
예시: chi-square(2) = 25.73, p < .001 — 모형이 통계적으로 유의합니다.
유사 R-제곱
선형 회귀분석과 달리 로지스틱 회귀분석에는 진정한 R-제곱이 없습니다. 여러 유사 R-제곱 지표가 설명된 분산 비율을 근사합니다.
| 지표 | 예제 값 | 해석 | |------|---------|------| | Cox and Snell R-제곱 | .062 | — | | Nagelkerke R-제곱 | .089 | 분산의 약 8.9% 설명 | | McFadden R-제곱 | .055 | — |
로지스틱 회귀분석의 유사 R-제곱 값은 선형 회귀분석의 R-제곱보다 훨씬 낮은 것이 일반적입니다. 이분형 결과를 다루는 응용 연구에서는 .20 ~ .40이 매우 양호한 것으로 간주됩니다.
Hosmer-Lemeshow 검정
관측 빈도와 기대 빈도를 집단별로 비교합니다. 비유의한 결과(p > .05)는 모형이 데이터에 적절히 적합함을 나타냅니다.
분류표
분류표는 모형이 집단 구성원을 얼마나 잘 예측하는지를 보여줍니다.
| | 예측: 불합격 | 예측: 합격 | 정확도(%) | |---|---|---|---| | 실제: 불합격 | 245 | 28 | 89.7% | | 실제: 합격 | 75 | 52 | 40.9% | | 전체 | | | 74.3% |
전체 분류 정확도는 74.3%입니다. 하지만 모형이 불합격 예측(89.7%)이 합격 예측(40.9%)보다 훨씬 정확합니다. 이러한 불균형은 한 결과 범주가 더 빈번할 때 흔히 나타납니다.
6단계: 예측 수행
모형이 검증되면 새로운 관측치에 대한 결과 확률을 예측할 수 있습니다.
예측 예시: GPA 3.5, GRE 650인 지원자의 입학 확률은?
- 로짓 계산: -6.44 + (1.05 x 3.5) + (0.003 x 650) = -6.44 + 3.675 + 1.95 = -0.815
- 확률 변환: p = 1 / (1 + e^0.815) = 1 / (1 + 2.259) = 0.307
예측 입학 확률은 약 30.7%입니다.
StatMate에서 로지스틱 회귀분석 실행하기
StatMate의 로지스틱 회귀분석 계산기는 전체 분석을 처리합니다.
- 데이터 입력 — 이분형 결과변수와 예측변수를 입력하거나 CSV 파일을 업로드합니다
- 가정 검토 — 다중공선성을 확인하고 잠재적 문제를 표시합니다
- 결과 확인 — 회귀계수, 신뢰구간이 포함된 오즈비, 유의성 검정을 확인합니다
- 모형 적합도 평가 — 총괄 검정, 유사 R-제곱, 분류표를 확인합니다
- 시각화 — 오즈비 차트가 각 예측변수의 효과를 직관적으로 보여줍니다
- 내보내기 — APA 형식 결과를 복사하거나 PDF로 다운로드합니다
APA 형식으로 결과 보고하기
완전한 APA 보고에 포함할 내용:
- 모형 명세: 결과변수, 예측변수, 방법 명시
- 전반적 모형 적합도: 총괄 카이제곱과 유사 R-제곱 보고
- 개별 예측변수: B, SE, Wald, p, OR과 95% CI 보고
- 분류 정확도: 전체 정분류율 보고
보고 예시:
GPA와 GRE 점수로 대학원 입학을 예측하기 위해 이항 로지스틱 회귀분석을 실시하였다. 전체 모형은 통계적으로 유의하였으며, chi-square(2) = 25.73, p < .001, Nagelkerke R-제곱 = .089. GPA는 입학의 유의한 예측변수였다, B = 1.05, SE = 0.33, Wald(1) = 10.12, p = .001, OR = 2.86, 95% CI [1.50, 5.44]. GRE 점수 또한 유의하였다, B = 0.003, SE = 0.001, Wald(1) = 7.84, p = .005, OR = 1.003, 95% CI [1.001, 1.005]. 모형의 전체 정분류율은 74.3%였다.
흔한 실수 피하기
이분형 결과에 선형 회귀분석 사용
선형 회귀분석은 0-1 범위 밖의 값을 예측할 수 있어 확률로서 의미가 없습니다. 또한 등분산성 가정을 위반합니다. 결과가 이분형이면 반드시 로지스틱 회귀분석을 사용하세요.
기저율 무시
표본의 95%가 한 범주에 속한다면, 단순히 다수 범주를 모두에게 예측하는 모형도 95% 정확할 수 있습니다. 항상 모형의 정확도를 기저율과 비교하세요.
과다한 예측변수로 인한 과적합
사건 수 대비 너무 많은 예측변수를 포함하면 훈련 데이터에는 잘 적합하지만 일반화에 실패합니다. EPV 가이드라인을 따르세요.
오즈비와 위험비 혼동
오즈비 3.0이 확률이 세 배라는 뜻이 아닙니다. 결과가 흔한 경우(10% 이상) 오즈비는 위험비를 상당히 과대추정합니다.
자주 묻는 질문
로지스틱 회귀분석의 최소 표본 크기는?
핵심 요인은 전체 표본이 아니라 사건 수(빈도가 낮은 결과)입니다. 예측변수당 최소 10건, 권장 20건 이상의 사건이 필요합니다. 예를 들어 예측변수 3개면 최소 30건(이상적으로 60건 이상)의 사건이 필요합니다.
상호작용 항을 포함할 수 있나요?
네. 한 예측변수의 효과가 다른 예측변수의 수준에 따라 달라진다고 가정하면, 상호작용 항을 포함합니다. 상호작용 계수는 한 예측변수의 오즈비가 다른 예측변수 수준에 따라 어떻게 변하는지를 나타냅니다.
다수준 범주형 예측변수는 어떻게 처리하나요?
더미 변수를 생성합니다. 범주형 예측변수가 k개 수준이면 k-1개의 더미 변수가 필요합니다. 하나의 수준을 참조 범주로 선택합니다. StatMate에서는 변수를 범주형으로 지정하면 자동으로 더미 변수를 생성합니다.
모형의 분류 정확도가 낮으면 어떻게 하나요?
낮은 정확도는 예측변수가 두 결과 집단을 강하게 구별하지 못함을 나타낼 수 있으며, 이것 자체가 정보입니다. 중요한 예측변수가 누락되었는지, 현상이 본질적으로 예측하기 어려운 것인지 고려하세요. 보통 수준의 정확도를 가진 모형도 의미 있는 예측변수-결과 관계를 보여줄 수 있습니다.
전진, 후진, 입력법 중 어떤 것을 사용해야 하나요?
각 예측변수를 포함하는 이론적 근거가 있다면 입력법(모든 예측변수 동시 투입)이 권장됩니다. 단계별 방법(전진 또는 후진)은 데이터 기반이며 우연에 의존할 수 있어, 표본마다 다른 결과를 낼 수 있습니다.
비유의한 예측변수도 보고해야 하나요?
유의 여부에 관계없이 모든 예측변수를 결과 표에 포함합니다. 비유의한 예측변수는 다른 예측변수를 넘어서 결과를 유의하게 예측하지 못했음을 의미하며, 이것도 중요한 발견입니다.
새로운 데이터로 예측할 수 있나요?
네. 모형이 수립되고 검증되면, 새로운 예측변수 값을 입력하여 결과 확률을 추정할 수 있습니다. 단, 예측은 원래 데이터의 범위 내에서만, 그리고 유사한 모집단에 대해서만 유효합니다.