로지스틱 회귀분석 보고가 어려운 이유
로지스틱 회귀분석은 보건과학, 심리학, 교육학 연구에서 가장 널리 사용되는 통계 기법 중 하나입니다. 단일 검정 통계량과 효과크기를 보고하는 t검정이나 ANOVA와 달리, 로지스틱 회귀분석은 일관된 서술로 정리해야 하는 복잡한 출력 배열을 생성합니다.
완전한 로지스틱 회귀분석 작성에는 전체 모형 적합도 통계, 의사 R제곱 값, 분류 정확도, 그리고 B 계수, 표준오차, Wald 통계량, p 값, 오즈비, 신뢰구간을 포함하는 개별 예측변수 통계가 필요합니다. 이 중 하나라도 빠지면 학술지 심사위원으로부터 수정 요청을 받는 흔한 이유가 됩니다.
이 가이드에서는 모든 구성요소를 단계별로 설명하며, 논문에 바로 적용할 수 있는 구체적인 APA 7판 예시를 제공합니다.
보고해야 할 핵심 통계량
보고 템플릿을 자세히 살펴보기 전에, 로지스틱 회귀분석 작성에 포함되어야 하는 통계량의 요약입니다.
전체 모형 적합도:
- 옴니버스 카이제곱 검정(모형 카이제곱)
- 자유도와 p 값
- 의사 R제곱 값: Nagelkerke R²과 Cox & Snell R²
분류 성능:
- 전체 분류 정확도(정분류율)
- 민감도(진양성률)와 특이도(진음성률)
개별 예측변수:
- B (비표준화 로지스틱 회귀계수)
- SE (B의 표준오차)
- Wald 카이제곱 통계량
- p 값
- OR (오즈비, SPSS 출력에서 Exp(B)로도 표시)
- 오즈비의 95% CI
각각은 고유한 역할을 합니다. 모형 적합도 통계는 독자에게 예측변수 세트가 전체적으로 두 결과 집단을 구별하는지 알려줍니다. 분류표는 모형이 실제로 얼마나 잘 작동하는지 보여줍니다. 개별 예측변수 통계는 어떤 변수가 예측을 주도하고 얼마나 큰 영향을 미치는지 밝힙니다.
단계 1: 전체 모형 적합도 보고
모형 계수의 옴니버스 검정은 예측변수를 포함한 전체 모형이 절편만 있는 영모형보다 유의하게 더 잘 적합하는지 평가합니다. 이는 카이제곱 검정으로 보고됩니다.
APA 템플릿:
[결과변수]에 대한 [예측변수]의 효과를 조사하기 위해 이항 로지스틱 회귀분석을 실시하였다. 전체 모형은 통계적으로 유의하였다, 카이제곱(df) = X.XX, p = .XXX. 이는 예측변수 세트가 [집단 1]과 [집단 2]를 신뢰롭게 구별함을 나타낸다. 모형은 [결과변수] 분산의 XX.X%(Nagelkerke R²)를 설명하였다.
예시:
학점, 주당 학습 시간, 수업 출석률이 졸업 여부에 미치는 효과를 조사하기 위해 이항 로지스틱 회귀분석을 실시하였다. 전체 모형은 통계적으로 유의하였다, 카이제곱(3) = 34.72, p < .001. 이는 예측변수 세트가 졸업한 학생과 졸업하지 못한 학생을 신뢰롭게 구별함을 나타낸다. 모형은 졸업 여부 분산의 31.5%(Nagelkerke R²)를 설명하였다.
의사 R제곱 이해
일반 최소제곱 회귀와 달리, 로지스틱 회귀분석은 진정한 R² 값을 산출하지 않습니다. 대신 설명된 분산의 비율을 근사하는 의사 R제곱 측도를 제공합니다.
| 측도 | 범위 | 비고 | |------|------|------| | Cox & Snell R² | 0 ~ < 1 | 1.0에 도달할 수 없음; 과소추정 경향 | | Nagelkerke R² | 0 ~ 1 | Cox & Snell의 조정 버전; 보고에 선호됨 |
대부분의 APA 양식 논문은 상한이 1.0이어서 해석이 더 용이한 Nagelkerke R²를 보고합니다. 일부 연구자는 투명성을 위해 두 값을 모두 보고합니다. 어느 접근법이든 허용되지만, 항상 어떤 의사 R제곱을 사용하고 있는지 표시하십시오.
단계 2: 분류표 보고
분류표는 모형이 사례를 올바른 결과 집단에 얼마나 정확하게 배정하는지 요약합니다. 이는 통계적 유의성 검정을 보완하는 모형 성능의 실질적 측도입니다.
APA 템플릿:
모형은 전체 사례의 XX.X%를 정확하게 분류하였으며, 민감도 XX.X%([긍정적 결과]를 정확히 예측)와 특이도 XX.X%([부정적 결과]를 정확히 예측)를 보였다.
예시:
모형은 전체 사례의 78.3%를 정확하게 분류하였으며, 민감도 82.1%(졸업을 정확히 예측)와 특이도 71.4%(미졸업을 정확히 예측)를 보였다.
분류표 형식
| 관찰값 | 예측: 미졸업 | 예측: 졸업 | 정분류율 | |--------|------------|----------|---------| | 미졸업 | 45 | 18 | 71.4% | | 졸업 | 15 | 69 | 82.1% | | 전체 | | | 78.3% |
분류 정확도를 해석할 때 기저율을 고려하십시오. 표본에서 학생의 70%가 졸업했다면, 모든 사람이 졸업한다고 예측하는 모형은 예측변수 없이도 70%의 정확도를 달성합니다. 모형의 정확도는 이 기준선과 비교하여 평가해야 합니다.
단계 3: 개별 예측변수 보고
개별 예측변수 결과는 표로 제시한 후 서술적 설명을 추가하는 것이 가장 좋습니다. 로지스틱 회귀분석의 APA 형식 표에는 B, SE, Wald 카이제곱, p, 오즈비(OR), 오즈비의 95% 신뢰구간 열이 포함됩니다.
로지스틱 회귀 계수표
| 예측변수 | B | SE | Wald 카이제곱 | p | OR | OR의 95% CI | |---------|------|------|-----------|------|------|---------------| | (상수) | -8.42 | 2.15 | 15.33 | < .001 | -- | -- | | 학점 | 1.63 | 0.52 | 9.82 | .002 | 5.10 | [1.84, 14.15] | | 학습 시간 | 0.18 | 0.07 | 6.61 | .010 | 1.20 | [1.04, 1.37] | | 출석률(%) | 0.04 | 0.02 | 4.00 | .045 | 1.04 | [1.00, 1.08] |
개별 예측변수 작성
학점은 졸업 여부의 유의한 예측변수였다, B = 1.63, SE = 0.52, Wald 카이제곱(1) = 9.82, p = .002, OR = 5.10, 95% CI [1.84, 14.15]. 학점이 1점 증가할 때마다 졸업 오즈가 약 5.10배 높았다. 주당 학습 시간도 졸업을 유의하게 예측하였다, B = 0.18, SE = 0.07, Wald 카이제곱(1) = 6.61, p = .010, OR = 1.20, 95% CI [1.04, 1.37]. 주당 학습 시간이 1시간 추가될 때마다 졸업 오즈가 20% 증가하였다. 수업 출석률은 경계적으로 유의한 예측변수였다, B = 0.04, SE = 0.02, Wald 카이제곱(1) = 4.00, p = .045, OR = 1.04, 95% CI [1.00, 1.08].
Wald 카이제곱은 각 개별 예측변수에 대해 1의 자유도를 가집니다(예측변수가 더미 코딩된 다범주 변수가 아닌 경우). 항상 괄호 안에 자유도를 포함하십시오.
오즈비 해석
오즈비(OR)는 로지스틱 회귀분석의 주요 효과크기 측도입니다. 다른 모든 예측변수를 통제한 상태에서 예측변수가 1단위 증가할 때 결과의 오즈가 어떻게 변하는지 알려줍니다.
오즈비 참조 가이드
| OR 값 | 해석 | |-------|------| | OR = 1.00 | 효과 없음; 예측변수가 오즈를 변화시키지 않음 | | OR > 1.00 | 결과의 오즈 증가 | | OR < 1.00 | 결과의 오즈 감소 |
구체적 예시: OR = 2.45는 예측변수가 1단위 증가할 때 결과 발생의 오즈가 2.45배 더 크다(또는 145% 더 높다)는 것을 의미합니다. OR = 0.60은 1단위 증가 시 오즈가 40% 감소(1 - 0.60 = 0.40으로 계산)한다는 것을 의미합니다.
연속형 vs 범주형 예측변수
연속형 예측변수의 경우 OR은 원래 측정 척도에서의 1단위 변화를 반영합니다. 학습 시간이 주당 시간으로 측정되면 OR = 1.20은 추가 1시간마다 오즈가 20% 증가함을 의미합니다. 단위에 유의하십시오: 변수가 분 단위로 측정되면 단위당 OR이 훨씬 작아져 해석이 어렵습니다. 단위당 OR이 1.00에 매우 가까운 경우 연속형 예측변수를 재조정하는 것을 고려하십시오(예: 10시간 증가당).
범주형 예측변수(더미 코딩)의 경우 OR은 코딩된 집단의 결과 오즈를 참조 집단과 비교합니다. 처치 집단(1로 코딩) 대 통제 집단(0으로 코딩)의 OR = 3.20이면, 처치 집단이 통제 집단에 비해 결과의 오즈가 3.20배입니다.
중요한 구별: 오즈는 확률이 아니다
흔한 오류는 오즈비를 확률비로 해석하는 것입니다. "처치 집단의 환자가 회복할 가능성이 3.20배 더 높았다"고 말하는 것은 기술적으로 부정확합니다. 올바른 표현은 "처치 집단에서 회복의 오즈가 3.20배 더 컸다"입니다. 결과가 드문 경우(유병률 10% 미만) 오즈비는 위험비에 근사하지만, 흔한 결과의 경우 두 값은 상당히 달라집니다.
완전한 APA 보고 예시
아래는 이전 섹션의 모든 요소를 결합한 전체 작성문입니다. 이 예시는 세 개의 예측변수를 사용한 졸업 예측 시나리오를 사용합니다.
147명의 학부생을 대상으로 학점, 주당 학습 시간, 수업 출석률로 졸업 여부(졸업 vs. 미졸업)를 예측하기 위해 이항 로지스틱 회귀분석을 실시하였다. 전체 모형은 통계적으로 유의하였다, 카이제곱(3) = 34.72, p < .001, Nagelkerke R² = .32. 이는 예측변수 세트가 졸업한 학생과 졸업하지 못한 학생을 신뢰롭게 구별함을 나타낸다. 모형은 전체 사례의 78.3%를 정확하게 분류하였으며, 민감도 82.1%, 특이도 71.4%를 보였다.
학점은 졸업의 가장 강력한 예측변수였다, B = 1.63, SE = 0.52, Wald 카이제곱(1) = 9.82, p = .002, OR = 5.10, 95% CI [1.84, 14.15]. 학점이 1점 증가할 때마다 졸업 오즈가 약 5배 높았다. 주당 학습 시간도 졸업을 유의하게 예측하였다, B = 0.18, SE = 0.07, Wald 카이제곱(1) = 6.61, p = .010, OR = 1.20, 95% CI [1.04, 1.37]. 추가 1시간은 오즈의 20% 증가와 관련되었다. 수업 출석은 작지만 통계적으로 유의한 기여를 하였다, B = 0.04, SE = 0.02, Wald 카이제곱(1) = 4.00, p = .045, OR = 1.04, 95% CI [1.00, 1.08].
이 예시는 명확한 구조를 따릅니다: 분석과 표본을 진술하고, 전체 모형 적합도와 분류 정확도를 보고하고, 각 예측변수의 전체 통계 세트를 기술합니다. 심사위원이 필요한 모든 정보를 빠르게 찾을 수 있습니다.
피해야 할 흔한 실수
오즈비 없이 B 계수만 보고
로지스틱 회귀분석의 B 계수는 로그 오즈 값으로, 직관적으로 해석하기 어렵습니다. 항상 B를 오즈비(OR = e^B)로 변환하고 둘 다 보고하십시오. 오즈비가 독자와 심사위원이 기대하는 효과크기입니다.
오즈비의 신뢰구간 누락
오즈비의 95% 신뢰구간은 필수적입니다. 이는 오즈비 추정치의 정밀도를 전달하고 효과가 사소하게 작을 수도, 상당히 클 수도 있는지 나타냅니다. OR = 2.50이고 95% CI가 [0.85, 7.35]이면 1.00을 포함하므로 통계적으로 유의하지 않지만, OR = 2.50이고 CI가 [1.40, 4.46]이면 훨씬 더 강한 증거를 제공합니다.
오즈비를 확률로 혼동
앞서 언급한 바와 같이, 오즈와 확률은 수학적으로 다릅니다. OR = 3.00은 결과가 "3배 더 가능하다"는 것을 의미하지 않습니다. 오즈가 3배 더 크다는 것을 의미합니다. 이 구별은 결과 유병률이 높을 때 가장 중요합니다.
모형 적합도 통계 미보고
일부 연구자들은 옴니버스 모형 검정, Nagelkerke R², 분류 정확도를 보고하지 않고 바로 개별 예측변수로 넘어갑니다. 이것들이 없으면 독자는 개별 효과를 검토하기 전에 전체 모형이 의미 있는지 평가할 수 없습니다.
의사 R제곱 대신 R제곱 사용
로지스틱 회귀분석은 전통적인 R² 값을 산출하지 않습니다. Nagelkerke R²(또는 Cox & Snell R²)임을 명시하지 않고 R² = .32라고 보고하면 오해의 소지가 있습니다. 항상 보고하는 의사 R제곱의 유형을 표시하십시오.
Hosmer-Lemeshow 검정 무시
Hosmer-Lemeshow 적합도 검정은 모형이 데이터에 잘 적합하는지 평가합니다. 유의하지 않은 결과(p > .05)는 적절한 적합도를 나타냅니다. 항상 필수적인 것은 아니지만, 이 검정을 보고하면 특히 심사위원이 모형 보정에 대해 우려하는 경우 작성을 강화합니다.
로지스틱 회귀분석 APA 체크리스트
논문 제출 전에 로지스틱 회귀분석 결과에 다음이 포함되어 있는지 확인하십시오:
- 실시한 로지스틱 회귀분석 유형(이항, 다항, 서열)
- 표본 크기와 결과 집단별 빈도
- 자유도와 p 값을 포함한 전체 모형 카이제곱
- 명확하게 표시된 의사 R제곱(Nagelkerke R² 선호)
- 분류 정확도(전체 정분류율, 민감도, 특이도)
- B, SE, Wald 카이제곱, p, OR, OR의 95% CI를 포함하는 계수표
- 계수표에 절편(상수) 행
- 유의한 예측변수에 대한 오즈비의 서술적 해석
- 오즈비를 확률이 아닌 올바르게 해석
- 모든 통계 기호를 이탤릭체(B, SE, p, 카이제곱, R²)
- 정확한 p 값(또는 매우 작은 값에 p < .001)
- 가정 검정 언급(로짓의 선형성, 다중공선성, 이상값)
StatMate의 무료 로지스틱 회귀분석 계산기를 사용해 보세요
SPSS나 R 출력에서 이 모든 통계를 모아 정확하게 포맷하는 것은 시간이 많이 걸리고 오류가 발생하기 쉽습니다. StatMate의 로지스틱 회귀분석 계산기가 전체 과정을 자동으로 처리합니다.
이항 결과변수와 예측변수를 입력하면 StatMate가 옴니버스 모형 검정, Nagelkerke R², 분류표, B, SE, Wald 카이제곱, p, 오즈비, 95% 신뢰구간을 포함한 개별 예측변수 통계를 계산합니다. 결과는 APA 7판 양식으로 포맷되어 논문에 직접 복사할 수 있습니다.
계산기는 또한 각 예측변수의 OR과 신뢰구간을 시각적으로 보여주는 오즈비 포레스트 플롯을 생성하여, 어떤 예측변수가 가장 강한 효과를 가지고 신뢰구간이 1.00을 포함하는지 쉽게 파악할 수 있습니다. 클릭 한 번으로 전체 결과를 Word로 내보낼 수 있습니다.
StatMate가 계산과 포맷을 처리하게 함으로써, 누락된 신뢰구간, 표시되지 않은 의사 R제곱 값, 잘못 계산된 오즈비 같은 흔한 오류를 없애고 연구 결과 해석에 시간을 집중할 수 있습니다.