What is the difference between binary, multinomial, and ordinal logistic regression?

Binary logistic regression predicts a dichotomous outcome (two categories). Multinomial logistic regression predicts an outcome with three or more unordered categories (e.g., preferred transportation: car, bus, bicycle). Ordinal logistic regression predicts an outcome with ordered categories (e.g., disease severity: mild, moderate, severe). Each type produces odds ratios, but the interpretation and model structure differ.

How do I interpret an odds ratio less than 1?

An OR less than 1.00 indicates decreased odds of the outcome. Calculate (1 - OR) x 100 for the percentage decrease. For example, OR = 0.65 means a 35% decrease in odds per one-unit increase in the predictor. Some researchers report the reciprocal (1/OR) to express the protective effect as increased odds.

What is the minimum sample size for logistic regression?

The classic guideline is at least 10 events per predictor variable (EPV), where events are cases in the less frequent outcome category. More recent research recommends EPV of 20 or higher for stable estimates. For 5 predictors with a 30% event rate, you need at least 50 events (total N of approximately 167).

What is the Hosmer-Lemeshow test and when should I report it?

The Hosmer-Lemeshow test evaluates whether predicted probabilities match observed outcomes across subgroups. A non-significant result (p > .05) indicates adequate model fit. Report it to strengthen your write-up, but note it is sensitive to sample size: large samples may flag trivial deviations, while small samples may miss genuine lack of fit.

What is the difference between the Wald test and the likelihood ratio test?

The Wald test evaluates individual predictor coefficients using the coefficient-to-standard-error ratio. The likelihood ratio test compares nested models by examining the change in -2 log likelihood. The likelihood ratio test is generally more reliable, especially for large coefficients where the Wald test can be conservative due to the Hauck-Donner effect.

로지스틱 회귀분석 APA 7판 보고법 — 오즈비, Wald 검정 & 모형 적합도

로지스틱 회귀분석 보고에 특별한 주의가 필요한 이유

로지스틱 회귀분석은 심리학에서 역학, 교육학에 이르기까지 이분형 결과를 예측하기 위한 핵심 방법입니다. t-검정이나 ANOVA와 달리 하나의 검정 통계량과 하나의 효과크기를 보고하면 되는 것이 아니라, 로지스틱 회귀분석은 다층적인 출력을 산출합니다: 전체 모형 적합도, 의사 R² 값, 분류 정확도, 그리고 B 계수, 표준오차, Wald 카이제곱 값, p 값, 오즈비, 신뢰구간을 포함하는 개별 예측변인 통계.

보고의 어려움은 단순히 양이 많다는 것이 아닙니다. 로지스틱 회귀분석의 각 통계량은 선형 회귀분석의 대응물과 다른 해석을 가집니다. B 계수는 원래 단위의 기울기가 아닌 로그오즈 값입니다. 의사 R²는 최소자승법의 R²와 동일한 양이 아닙니다. 그리고 핵심 효과크기 측정치인 오즈비는 확률비로 일상적으로 잘못 해석됩니다.

로지스틱 회귀분석 보고에서 어떤 한 요소라도 누락하면 수정 요청의 가장 흔한 이유 중 하나가 됩니다. 오즈비의 잘못된 해석은 또 다른 문제입니다. 이 가이드는 이항 로지스틱 회귀분석 결과를 APA 7판 형식으로 보고하기 위한 완전한 단계별 접근법을 제공합니다. 모든 템플릿을 논문에 바로 복사하여 자신의 숫자로 적용할 수 있습니다.

로지스틱 회귀분석 사용 시기

이분형 결과변수

로지스틱 회귀분석은 종속변수가 정확히 두 범주를 가질 때 적합합니다: 예/아니오, 합격/불합격, 진단/정상, 졸업/중퇴. 로지스틱 회귀분석을 사용하기 위해 연속형 결과를 두 집단으로 코딩한다면, 선형 회귀분석이나 다른 기법이 더 적절하지 않은지 재고하십시오.

복수의 예측변인(연속형과 범주형)

로지스틱 회귀분석은 연속형 예측변인(연령, GPA, 소득)과 범주형 예측변인(성별, 치료군, 교육 수준)을 동일한 모형에서 처리합니다. 두 수준 이상의 범주형 예측변인은 더미 코딩된 변수로 입력되며, 한 범주가 참조 집단 역할을 합니다.

선형 회귀분석과의 비교

| 특징 | 선형 회귀분석 | 로지스틱 회귀분석 | |------|------------|----------------| | 결과변수 | 연속형 | 이분형(0/1) | | 계수 해석 | X가 한 단위 변할 때 Y의 변화 | X가 한 단위 변할 때 로그오즈의 변화 | | 주요 효과크기 | B 또는 β | 오즈비(OR) | | 모형 적합도 | R², 수정된 R² | Nagelkerke R², 분류 정확도 | | 전체 모형 검정 | F-통계량 | 카이제곱(우도비) | | 잔차 가정 | 정규성, 등분산성 | 로짓의 선형성 |

로지스틱 회귀분석의 기본 APA 형식

전체 모형 적합도

전체 모형은 통계적으로 유의하였다, χ²(df) = X.XX, p = .XXX, Nagelkerke R² = .XX.

여기서 카이제곱은 전체 모형(모든 예측변인 포함)을 영 모형(절편만)과 비교하는 옴니버스 우도비 검정입니다. 자유도(예측변인 수)와 카이제곱 값(소수점 이하 두 자리), 정확한 p 값을 보고합니다.

개별 예측변인

B = X.XX, SE = X.XX, Wald χ²(1) = X.XX, p = .XXX, OR = X.XX, 95% CI [X.XX, X.XX]

각 예측변인은 고유한 통계량을 받습니다. 단일 예측변인의 Wald 카이제곱은 자유도 1입니다(다수준 범주형 변수의 경우 더 많음). 오즈비(OR)는 B 계수의 지수: OR = e^B입니다. 95% 신뢰구간은 B가 아닌 오즈비에 대한 것입니다.

로지스틱 회귀분석 보고: 단계별 안내

연구 시나리오

대학 연구자가 세 변수가 200명 학부생의 졸업 상태(졸업 vs. 미졸업)를 예측하는지 검토합니다:

GPA(연속형, 0.00~4.00 척도)
주간 공부 시간(연속형, 주당 시간)
수업 출석률(연속형, 백분율 0-100)

결과변수는 졸업 상태로, 1 = 졸업, 0 = 미졸업으로 코딩됩니다. 200명 중 128명(64%)이 졸업하고 72명(36%)이 졸업하지 못했습니다.

1단계: 모형 적합도 통계 보고

결과 섹션의 첫 문단에서 모형 전체가 의미 있는지 확인합니다.

APA 예시:

200명 학부생의 졸업 상태를 GPA, 주간 공부 시간, 수업 출석률이 예측하는지 검토하기 위해 이항 로지스틱 회귀분석을 실시하였다. 모형 계수의 옴니버스 검정 결과, 전체 모형이 통계적으로 유의한 것으로 나타났다, χ²(3) = 42.86, p < .001. 모형은 졸업 상태 분산의 28.4%를 설명하였으며(Nagelkerke R² = .284), 79.5%의 사례를 올바르게 분류하였다(민감도 84.4%, 특이도 70.8%). Hosmer-Lemeshow 검정 결과, 적절한 모형 적합도가 나타났다, χ²(8) = 5.73, p = .678.

이 단일 문단은 네 가지 모형 적합도 지표를 다룹니다: 옴니버스 카이제곱, Nagelkerke R², 분류 정확도(민감도와 특이도 포함), Hosmer-Lemeshow 검정.

2단계: 계수 표 제시

세 개 이상의 예측변인이 있는 경우, 표가 본문보다 명확합니다.

| 예측변인 | B | SE | Wald χ² | p | OR | OR의 95% CI | |---------|------|------|-----------|------|------|------------| | (상수) | -9.15 | 2.34 | 15.30 | < .001 | -- | -- | | GPA | 1.74 | 0.48 | 13.14 | < .001 | 5.70 | [2.23, 14.57] | | 공부 시간 | 0.16 | 0.06 | 7.11 | .008 | 1.17 | [1.04, 1.32] | | 출석률(%) | 0.04 | 0.02 | 4.00 | .046 | 1.04 | [1.00, 1.08] |

주. Nagelkerke R² = .284. 모형 χ²(3) = 42.86, p < .001. 분류 정확도 = 79.5%.

3단계: APA 서술 작성

GPA가 졸업 상태의 가장 강력한 예측변인이었다, B = 1.74, SE = 0.48, Wald χ²(1) = 13.14, p < .001, OR = 5.70, 95% CI [2.23, 14.57]. GPA가 1점 증가할 때마다 졸업의 오즈가 약 5.70배 증가하였으며, 다른 변수를 통제한 결과이다. 주간 공부 시간도 졸업을 유의하게 예측하였다, B = 0.16, SE = 0.06, Wald χ²(1) = 7.11, p = .008, OR = 1.17, 95% CI [1.04, 1.32]. 주간 공부 시간이 1시간 추가될 때마다 졸업의 오즈가 17% 증가하는 것으로 나타났다. 수업 출석률은 더 작지만 통계적으로 유의한 기여를 하였다, B = 0.04, SE = 0.02, Wald χ²(1) = 4.00, p = .046, OR = 1.04, 95% CI [1.00, 1.08].

오즈비 해석

오즈비(OR)는 로지스틱 회귀분석의 주요 효과크기입니다. 다른 모든 예측변인을 통제한 상태에서, 예측변인이 한 단위 증가할 때 결과의 오즈가 어떻게 변하는지를 알려줍니다.

OR > 1: 오즈 증가

OR = 5.70은 예측변인이 한 단위 증가할 때마다 결과의 오즈가 5.70배 더 커진다는 것을 의미합니다. 백분율 증가로 표현하면: (5.70 - 1) × 100 = 470% 오즈 증가.

OR < 1: 오즈 감소

OR = 0.65는 예측변인이 한 단위 증가할 때 오즈가 35% 감소한다는 것을 의미합니다. (1 - 0.65) × 100으로 계산합니다. 역수를 취하면: 1/0.65 = 1.54, 즉 한 단위 감소가 1.54배의 오즈와 연관됩니다.

OR = 1: 효과 없음

정확히 1.00인 OR은 예측변인이 결과와 연관이 없음을 의미합니다.

신뢰구간이 1을 포함하는 경우

오즈비의 95% CI가 .05 수준에서의 통계적 유의성의 핵심 지표입니다. 구간이 1.00을 포함하면 예측변인은 통계적으로 유의하지 않습니다.

중요한 구분: 오즈는 확률이 아닙니다. "GPA가 높은 학생이 졸업할 가능성이 5.70배 더 높았다"는 기술적으로 부정확합니다. 올바른 표현은 "졸업의 오즈가 5.70배 더 높았다"입니다. 결과가 드문 경우(유병률 10% 미만) 오즈비는 위험비와 근사하지만, 결과가 흔한 경우 양자는 상당히 다릅니다.

모형 적합도 지표

Nagelkerke R²

Cox & Snell R²나 Nagelkerke R² 모두 진정한 R²가 아닙니다. 설명된 분산에 대한 친숙한 지표를 제공하기 위한 의사 R² 근사치입니다.

| 측정치 | 범위 | 핵심 속성 | |--------|------|----------| | Cox & Snell R² | 0 ~ < 1 | 최대값이 1.0에 도달하지 못하여 상한이 모호 | | Nagelkerke R² | 0 ~ 1 | Cox & Snell을 재조정하여 최대값이 1.0; 더 해석 가능 |

Nagelkerke R²가 명확한 상한을 가지므로 APA 보고의 표준 선택입니다. 항상 어떤 의사 R²를 사용하는지 명시하십시오. "Nagelkerke"를 명시하지 않고 "R² = .28"이라고 쓰면 OLS R²로 오해될 수 있습니다.

Nagelkerke R²의 대략적 기준:

| Nagelkerke R² | 대략적 해석 | |-----------------|-----------| | .02 ~ .12 | 작은 효과 | | .13 ~ .25 | 중간 효과 | | .26 이상 | 큰 효과 |

분류 정확도 표

분류표(혼동 행렬)는 모형이 기본 확률 절단점 .50에서 사례를 올바른 결과 집단에 얼마나 잘 배정하는지를 보여줍니다.

| 관찰 | 예측: 미졸업 | 예측: 졸업 | 정확률 | |------|-----------|----------|--------| | 미졸업 | 51 | 21 | 70.8% | | 졸업 | 20 | 108 | 84.4% | | 전체 | | | 79.5% |

분류 정확도를 항상 기저율과 비교하십시오. 이 예시에서 64%의 학생이 졸업했습니다. 모든 학생에 대해 "졸업"을 예측하는 모형은 예측변인 없이 64% 정확도를 달성합니다. 모형의 79.5% 정확도는 이 순진한 기저선 대비 15.5%p의 향상을 나타냅니다.

AUC-ROC

ROC 곡선 아래 면적(AUC-ROC)은 단일 절단점에 의존하지 않는 판별 능력의 측정치입니다.

| AUC 값 | 판별 수준 | |--------|----------| | .50 | 우연 수준 | | .60 - .69 | 나쁨 | | .70 - .79 | 수용 가능 | | .80 - .89 | 우수 | | .90+ | 탁월 |

ROC 곡선 아래 면적은 .83, 95% CI [.77, .89]으로, 졸업자와 비졸업자 간의 우수한 판별을 나타내었다.

흔한 실수와 주의사항

오즈비 없이 비표준화 B만 보고

로지스틱 회귀분석의 B 계수는 로그오즈 값입니다. 선형 회귀분석의 B와 달리 직접적인 직관적 해석이 없습니다. 오즈비(OR = e^1.74 = 5.70)로 변환하지 않으면 독자는 "B = 1.74"가 무엇을 의미하는지 파악할 수 없습니다. 항상 B와 OR을 함께 보고하십시오.

오즈비에 대한 신뢰구간 미포함

신뢰구간이 없는 오즈비는 정밀도 표시가 없는 점추정치입니다. APA 7판은 효과크기 측정치에 대한 신뢰구간을 명시적으로 요구하며, 로지스틱 회귀분석에서는 각 오즈비의 95% CI가 이 역할을 합니다.

선형 회귀분석의 R² 사용

로지스틱 회귀분석은 전통적인 R²를 산출하지 않습니다. Nagelkerke R²(또는 Cox & Snell R²)임을 명시하지 않고 "R² = .28"이라고 쓰면 독자가 최소자승법의 설명된 분산으로 오해할 수 있습니다.

오즈비를 확률비로 해석

로지스틱 회귀분석 보고에서 가장 흔한 해석적 오류입니다. 오즈와 확률은 수학적으로 다른 양입니다.

부적절: "GPA가 1점 높은 학생은 졸업할 가능성이 5.70배 더 높았다." 적절: "GPA가 1점 증가할 때마다 졸업의 오즈가 5.70배 더 높았다."

참조 범주 미명시

범주형 예측변인의 경우, 오즈비는 코딩된 집단을 참조 범주와 비교합니다. 참조를 명시하지 않으면 결과를 해석할 수 없습니다.

불규칙 출석(참조)에 비해 규칙적 출석 학생의 졸업 오즈가 2.35배 높았다, OR = 2.35, 95% CI [1.12, 4.93].

로지스틱 회귀분석 APA 체크리스트

논문 제출 전, 로지스틱 회귀분석 결과에 다음이 포함되어 있는지 확인하십시오:

로지스틱 회귀분석 유형(이항, 다항, 서열)
표본 크기와 결과 집단 빈도
자유도와 p 값이 포함된 옴니버스 카이제곱
의사 R²로 명확히 표시된 Nagelkerke R²
민감도와 특이도가 포함된 분류 정확도
기저율과의 비교
B, SE, Wald χ², p, OR, OR의 95% CI가 포함된 계수 표
표에 절편(상수) 행
확률이 아닌 오즈로 해석된 오즈비
범주형 예측변인의 참조 범주 명시
모든 오즈비에 대한 신뢰구간
모든 통계 기호 이탤릭체(B, SE, p, χ², R²)
가정 검토 언급(로짓의 선형성, 다중공선성, 표본 크기)

자주 묻는 질문

이항, 다항, 서열 로지스틱 회귀분석의 차이는 무엇인가요?

이항 로지스틱 회귀분석은 이분형 결과(두 범주)를 예측합니다. 다항 로지스틱 회귀분석은 세 개 이상의 비순서 범주(예: 선호 교통수단: 자동차, 버스, 자전거)를 예측합니다. 서열 로지스틱 회귀분석은 순서가 있는 범주(예: 질환 심각도: 경증, 중등도, 중증)를 예측합니다.

OR이 1 미만인 경우 어떻게 해석하나요?

1.00 미만의 OR은 결과의 오즈가 감소함을 나타냅니다. (1 - OR) × 100으로 백분율 감소를 계산합니다. 예: OR = 0.65는 예측변인이 한 단위 증가할 때 오즈가 35% 감소함을 의미합니다.

로지스틱 회귀분석의 최소 표본 크기는 얼마인가요?

고전적 지침은 예측변인당 최소 10개의 사건(EPV)이며, 사건은 빈도가 낮은 결과 범주의 사례입니다. 30%의 사건률에서 5개 예측변인이면 최소 50개 사건, 총 약 167명의 표본이 필요합니다. 최근 시뮬레이션 연구는 안정적인 계수 추정을 위해 EPV 20 이상을 권장합니다.

Wald 검정과 우도비 검정의 차이는 무엇인가요?

Wald 검정은 계수 대 표준오차 비율을 사용하여 개별 예측변인 계수를 평가합니다. 우도비 검정은 -2 로그우도의 변화를 검토하여 내포 모형을 비교합니다. 우도비 검정이 일반적으로 더 신뢰할 수 있으며, 특히 계수가 클 때 Wald 검정이 Hauck-Donner 효과로 인해 보수적일 수 있습니다.

계산의 정확성

SPSS나 R 출력에서 모형 적합도 통계, 오즈비, 신뢰구간, 분류표를 조합하여 APA 7판 양식으로 서식화하는 것은 번거롭고 오류가 발생하기 쉽습니다. StatMate의 로지스틱 회귀분석 계산기가 전체 과정을 자동화합니다.

이분형 결과와 예측변인을 입력하면, StatMate가 옴니버스 모형 검정, Nagelkerke R², 민감도와 특이도가 포함된 분류표, B, SE, Wald 카이제곱, p, 오즈비, 95% 신뢰구간을 포함한 개별 예측변인 통계를 계산합니다. 결과는 APA 7판 양식으로 서식화되어 논문에 바로 복사할 수 있습니다.

계산기는 각 예측변인의 OR과 신뢰구간을 시각적으로 표시하는 오즈비 차트도 생성하여, 1.00을 배제하는 효과와 그렇지 않은 효과를 쉽게 식별할 수 있습니다. 완전한 결과를 Word 또는 PDF로 한 번의 클릭으로 내보내십시오.