회귀분석 보고를 정확하게 해야 하는 이유
회귀분석은 양적 연구에서 가장 다재다능하고 널리 사용되는 방법 중 하나입니다. 공부 시간으로 시험 성적을 예측하든, 여러 직장 요인이 직무 만족도에 미치는 공동 영향을 모형화하든, 인구통계학적 변수를 통제한 후 임상적 중재가 증상 감소를 예측하는지를 검정하든, 회귀분석이 그 틀을 제공합니다. 그러나 회귀분석 결과를 APA 형식으로 보고하는 것은 거의 모든 다른 통계 절차보다 연구자를 힘들게 합니다.
어려움은 회귀분석 출력의 다층적 특성에 기인합니다. t-검정은 하나의 검정 통계량과 효과크기를 산출하지만, 회귀분석은 전체 모형 적합도 통계, 개별 예측변인 통계, 표준화 및 비표준화 계수, 신뢰구간, 가정 진단을 산출합니다. 이 요소 중 하나라도 누락하면 학술지 심사자의 수정 요청을 초래합니다. 이 가이드는 구체적인 수치 예시와 함께 단순 및 다중 회귀분석의 APA 7판 형식을 안내합니다.
회귀분석 결과의 APA 형식
단순선형회귀 템플릿
APA로 보고하는 모든 단순선형회귀에는 다음이 포함되어야 합니다:
- R²: 설명된 분산 비율
- F-통계량: 자유도가 포함된 전체 모형 검정
- 정확한 p 값: 소수점 이하 세 자리 또는 p < .001
- 비표준화 계수(B): 표준오차가 포함된 기울기
- 표준화 계수(β): 연구 간 비교용
- 95% 신뢰구간: B에 대한 것
일반 템플릿:
[예측변인]이 [결과]를 예측하는지 검토하기 위해 단순선형회귀를 실시하였다. 모형은 통계적으로 유의하였다, R² = .XX, F(1, N-2) = X.XX, p = .XXX. [예측변인]은 [결과]를 유의하게 예측하였다, B = X.XX, SE = X.XX, β = .XX, t(df) = X.XX, p = .XXX, 95% CI [X.XX, X.XX].
다중회귀 템플릿
다중회귀는 두 가지를 추가로 요구합니다:
- 수정된 R²: 예측변인 수를 보정
- 계수 표: 두 개 이상의 예측변인이 있을 때
[예측변인 1], [예측변인 2], [예측변인 3]이 [결과]를 예측하는지 검토하기 위해 다중회귀분석을 실시하였다. 전체 모형은 통계적으로 유의하였다, R² = .XX, 수정된 R² = .XX, F(k, N-k-1) = X.XX, p < .001.
단계별 예시: 공부 시간으로 GPA 예측
연구 시나리오
교육심리학자가 120명 대학생의 주간 공부 시간이 학기 GPA를 예측하는지 조사합니다.
전체 모형 보고
주간 공부 시간이 학기 GPA를 예측하는지 검토하기 위해 단순선형회귀를 실시하였다. 결과, 전체 모형이 통계적으로 유의한 것으로 나타났다, R² = .34, F(1, 118) = 60.73, p < .001. 주간 공부 시간은 학기 GPA 분산의 34%를 설명하였다.
계수 보고
주간 공부 시간은 학기 GPA를 유의하게 예측하였다, B = 0.08, SE = 0.01, β = .58, t(118) = 7.79, p < .001, 95% CI [0.06, 0.10]. 주간 공부 시간이 1시간 증가할 때마다 학기 GPA가 평균 0.08점 증가하였다.
구성요소 분석
| 구성요소 | 값 | 설명 | |----------|-----|------| | R² | .34 | 설명된 분산 34%; 소수점 앞 0 생략 | | F | 60.73 | 전체 모형 F-통계량, 소수점 이하 두 자리 | | df | 1, 118 | 회귀 df(예측변인 수)와 잔차 df(N - k - 1) | | p | < .001 | 정확한 p값 또는 매우 작은 값의 경우 < .001 | | B | 0.08 | 원래 단위의 비표준화 기울기 | | SE | 0.01 | 기울기의 표준오차 | | β | .58 | 표준화 계수(소수점 앞 0 생략) | | t | 7.79 | 계수의 t-통계량 | | 95% CI | [0.06, 0.10] | B에 대한 신뢰구간 |
R² 해석
R²는 예측변인에 의해 설명되는 결과의 분산 비율을 나타냅니다. 위 예시에서 R² = .34는 공부 시간이 GPA 변동의 34%를 설명한다는 것을 의미합니다.
R² 해석 지침
Cohen(1988)은 행동과학에 대한 기준을 제시하였습니다:
| R² | f² | 해석 | |------|------|------| | .02 | .02 | 작은 효과 | | .13 | .15 | 중간 효과 | | .26 | .35 | 큰 효과 |
이 기준은 분야에 따라 다릅니다. 경제학에서 R² = .10은 주목할 만하고, 정신물리학에서 R² = .80은 기대될 수 있습니다. 항상 맥락에서 해석하십시오.
R² vs. 수정된 R²
예측변인이 하나인 단순회귀에서는 R²로 충분합니다. 다중회귀에서는 항상 R²와 수정된 R²를 함께 보고합니다.
수정된 R²는 적합도를 의미 있게 개선하지 않는 예측변인의 추가에 대해 페널티를 부과합니다. 예측변인을 추가했는데 수정된 R²가 감소하면, 해당 예측변인은 기존 예측변인이 설명하는 것 이상을 기여하지 않는 것입니다.
모형은 시험 점수 분산의 52%를 설명하였다(R² = .52, 수정된 R² = .51).
베타계수: 표준화 vs. 비표준화
비표준화 계수(B)
B는 원래 측정 단위에서 예측변인이 한 단위 변할 때 결과의 예측된 변화를 알려줍니다:
주간 공부 시간이 1시간 증가할 때마다 GPA가 0.08점 증가하였다(B = 0.08).
단위가 의미 있을 때(시간, 금액, 년) 가장 실질적으로 해석 가능한 계수입니다.
표준화 계수(β)
β는 표준편차 단위로 예측된 변화를 표현하여, 서로 다른 척도로 측정된 예측변인 간의 직접 비교를 가능하게 합니다:
공부 시간이 출석률(β = .22)보다 더 강한 상대적 기여를 하였다(β = .38).
서로 다른 단위의 예측변인의 상대적 중요성을 비교할 때 β를 사용합니다.
APA 형식에서 둘 다 보고
APA는 가능한 경우 둘 다 포함하도록 권장합니다:
공부 시간은 시험 점수를 유의하게 예측하였다, B = 1.92, SE = 0.31, β = .38, t(146) = 6.19, p < .001, 95% CI [1.31, 2.53].
다중회귀: 완전한 실제 예시
연구 시나리오
연구자가 150명 학생의 공부 시간, 수업 출석률, 이전 GPA가 기말 시험 점수를 예측하는지 조사합니다.
전체 모형
공부 시간, 수업 출석률, 이전 GPA가 기말 시험 점수를 예측하는지 검토하기 위해 다중회귀분석을 실시하였다. 전체 모형은 통계적으로 유의하였다, R² = .52, 수정된 R² = .51, F(3, 146) = 52.78, p < .001. 세 예측변인이 기말 시험 점수 분산의 52%를 설명하였다.
계수 표
| 예측변인 | B | SE | β | t | p | 95% CI | |---------|------|------|------|------|------|---------| | (절편) | 12.45 | 5.32 | -- | 2.34 | .021 | [1.94, 22.96] | | 공부 시간 | 1.92 | 0.31 | .38 | 6.19 | < .001 | [1.31, 2.53] | | 출석률 | 0.28 | 0.08 | .22 | 3.50 | < .001 | [0.12, 0.44] | | 이전 GPA | 8.74 | 1.85 | .29 | 4.72 | < .001 | [5.08, 12.40] |
주. R² = .52, 수정된 R² = .51, F(3, 146) = 52.78, p < .001.
개별 예측변인 서술
공부 시간이 기말 시험 점수의 가장 강력한 예측변인이었다, B = 1.92, SE = 0.31, β = .38, t(146) = 6.19, p < .001, 95% CI [1.31, 2.53]. 이전 GPA도 시험 점수를 유의하게 예측하였다, B = 8.74, SE = 1.85, β = .29, t(146) = 4.72, p < .001, 95% CI [5.08, 12.40]. 수업 출석률은 더 작지만 통계적으로 유의한 기여를 하였다, B = 0.28, SE = 0.08, β = .22, t(146) = 3.50, p < .001, 95% CI [0.12, 0.44].
위계적(R² 변화) 보고
모형을 단계별로 구축할 때 추가 설명 분산을 보여주기 위해 ΔR²를 보고합니다:
1단계에서 공부 시간을 투입하여 분산의 28%를 설명하였다, R² = .28, F(1, 148) = 57.56, p < .001. 2단계에서 출석률과 이전 GPA를 추가하였다. 모형은 추가로 24%의 분산을 설명하였다, ΔR² = .24, F-변화(2, 146) = 36.52, p < .001.
회귀분석 가정 보고
APA 7판은 최소한 가정 검토에 대한 간단한 언급을 기대합니다. 다섯 가지 핵심 가정과 보고 템플릿:
1. 선형성
각 예측변인과 결과 간의 산점도에서 대략적으로 선형적인 관계가 나타났다.
2. 잔차의 독립성
Durbin-Watson 통계량은 1.92로, 잔차 간에 실질적인 자기상관이 없음을 나타내었다.
3. 등분산성
표준화 잔차 대 예측값 도표에서 무선적 산포 패턴이 나타나 등분산성 가정이 충족된 것으로 판단하였다.
4. 잔차의 정규성
표준화 잔차의 Q-Q 도표에서 대략적으로 정규분포가 나타났다. 잔차에 대한 Shapiro-Wilk 검정이 유의하지 않았다(W = 0.99, p = .312).
5. 다중공선성(다중회귀만 해당)
모든 예측변인의 VIF 값이 1.12에서 2.34 범위였으며, 10의 기준 이하로 다중공선성 우려가 없는 것으로 나타났다.
가정 위반 시
위반과 보정 조치를 보고합니다:
잔차 도표의 시각적 검사에서 잠재적 이분산성이 나타났다. 모든 계수 검정에 이분산성 일관 표준오차(HC3)를 사용하였다. 강건한 표준오차를 사용하여도 유의한 예측변인의 패턴은 변하지 않았다.
| 위반 | 보정 전략 | |------|----------| | 비선형성 | 로그 또는 다항 변환 | | 자기상관(Durbin-Watson이 2에서 멀리) | 일반화 최소자승법 | | 이분산성 | 강건(HC3) 표준오차 또는 가중 최소자승법 | | 비정규 잔차 | 부트스트랩 신뢰구간 또는 변환 | | 다중공선성(VIF > 10) | 상관된 예측변인 제거 또는 결합; 릿지 회귀 |
회귀분석 계수의 신뢰구간
APA 7판은 점추정치와 그 정밀도를 모두 전달하므로 신뢰구간을 강조합니다.
- CI에 0이 포함되지 않음: 계수가 통계적으로 유의함.
- CI에 0이 포함됨: 계수가 유의하지 않음.
- 좁은 CI: 정밀한 추정(대표본, 낮은 변동성).
- 넓은 CI: 부정밀한 추정(더 큰 표본 또는 더 나은 측정 필요).
비유의한 회귀분석 결과
유의성과 관계없이 동일한 구성요소를 보고합니다:
단순선형회귀 결과, 수면 시간은 시험 점수를 유의하게 예측하지 않는 것으로 나타났다, R² = .02, F(1, 118) = 2.41, p = .123. 수면 시간은 유의한 예측변인이 아니었다, B = 0.95, SE = 0.61, β = .14, t(118) = 1.55, p = .123, 95% CI [-0.26, 2.16].
흔한 실수와 주의사항
1. 다중회귀에서 수정된 R² 누락
수정된 R²는 여러 예측변인으로 모형 적합도를 평가하는 데 필수적입니다. 불필요한 변수에 대해 페널티를 부과하고 설명된 분산에 대한 더 정직한 추정을 제공합니다.
2. B와 β 혼동
B(비표준화)는 실질적 해석을 위해 원래 단위를 보존합니다. β(표준화)는 예측변인 간 비교를 가능하게 합니다. 어떤 것을 보고하는지 항상 명시하고 가능하면 둘 다 포함합니다.
3. p = .000 보고
절대 p = .000으로 쓰지 마십시오. 항상 p < .001로 보고합니다. 확률은 절대 정확히 0이 아닙니다.
4. 신뢰구간 누락
APA 7판은 모든 회귀계수에 95% CI를 강력히 권장합니다. CI는 p값만으로는 전달할 수 없는 정밀도를 전달합니다.
5. 절편 누락
절편은 해석의 초점이 아니더라도 계수 표에 나타나야 합니다.
6. 가정 검토 무시
핵심 가정을 확인했다는 것을 항상 언급합니다. 최소한 다중공선성에 대한 VIF 값과 잔차 도표를 검토했다는 것을 보고합니다.
7. 다른 예측변인을 통제하지 않고 B 해석
다중회귀에서 각 B는 다른 모든 예측변인을 통제한 해당 예측변인의 고유 효과를 나타냅니다. 단순 이변량 관계로 해석하지 마십시오.
8. 정당화 없이 단계적 회귀 사용
자동화된 단계적 방법은 우연에 기대어 불안정한 모형을 산출합니다. 단계적 선택을 사용한다면 정당화하고 교차타당화 결과를 보고합니다.
회귀분석 APA 체크리스트
논문 제출 전 확인사항:
- 전체 모형 R²(다중회귀의 경우 수정된 R²도)
- 올바른 자유도가 포함된 F-통계량
- 전체 모형의 정확한 p 값
- 각 예측변인에 대한 B, SE, β, t, p, 95% CI가 포함된 계수 표
- 계수 표의 절편 행
- 비표준화(B)와 표준화(β) 계수를 명확히 구분하는 레이블
- 모든 통계 기호 이탤릭체
- 가정 검토 언급(최소한 VIF와 잔차 도표)
- 위계적인 경우: 각 단계의 ΔR²와 F-변화
자주 묻는 질문
R²와 수정된 R²의 차이는 무엇인가요?
R²는 모든 예측변인에 의해 설명되는 분산 비율을 보여줍니다. 수정된 R²는 예측변인 수를 보정하여 불필요한 변수에 페널티를 부과합니다. 다른 수의 예측변인을 가진 모형을 비교할 때 수정된 R²를 사용합니다. 단순회귀에서는 두 값이 거의 동일합니다.
음의 회귀계수를 어떻게 해석하나요?
음의 B는 다른 예측변인을 통제한 상태에서 예측변인이 한 단위 증가할 때 결과가 B 단위 감소함을 의미합니다. 부호는 방향을 나타내며 강도는 나타내지 않습니다. 예: 운동 시간에 대한 B = -1.47은 운동 1시간 추가가 스트레스 1.47점 감소와 연관됨을 의미합니다.
표준화 계수와 비표준화 계수 중 어떤 것을 보고해야 하나요?
APA는 둘 다 권장합니다. 비표준화 계수(B)는 실질적 해석을 위해 측정 단위를 보존합니다. 표준화 계수(β)는 서로 다른 척도의 예측변인 간 상대적 중요성을 비교할 수 있게 합니다.
VIF > 10은 무엇을 의미하나요?
10을 초과하는 VIF는 심각한 다중공선성을 나타냅니다. 두 개 이상의 예측변인이 높은 상관을 보여 표준오차가 부풀려지고 개별 계수 검정이 신뢰할 수 없게 됩니다. 상관된 예측변인을 제거하거나 결합하거나 릿지 회귀를 사용하는 것을 고려합니다.
범주형 예측변인으로 회귀분석을 할 수 있나요?
네, 더미 변수(0/1 코딩)를 생성합니다. k개의 범주를 가진 변수는 k - 1개의 더미 변수가 필요합니다. 모든 더미가 0이면 참조 범주를 나타냅니다.
모형이 유의하지 않을 때 어떻게 보고하나요?
동일한 통계를 보고합니다: F, 자유도, p, R². 예: "모형은 통계적으로 유의하지 않았다, F(2, 97) = 1.45, p = .240, R² = .03."
회귀계수에 대한 신뢰구간을 보고해야 하나요?
네. APA 7판은 모든 회귀계수에 95% CI를 권장합니다. 0을 배제하는 CI는 통계적 유의성을 확인합니다. CI는 효과크기의 그럴듯한 범위를 보여주어 실질적 유의성을 평가하는 데도 도움이 됩니다.
StatMate로 APA 형식의 회귀분석 결과 생성하기
회귀분석 출력을 올바르게 서식화하는 것은 번거롭고 오류가 발생하기 쉽습니다. 특히 여러 예측변인이 있을 때 그렇습니다. StatMate의 단순회귀 및 다중회귀 계산기가 이 과정을 자동화합니다.
데이터를 입력하면 StatMate가 R², 수정된 R², F-통계량, 표준오차, 표준화 베타, t-통계량, p값, 신뢰구간을 포함한 개별 계수를 모두 APA 7판 양식으로 서식화하여 계산합니다. 결과를 논문에 바로 복사할 수 있습니다.
StatMate가 계산과 서식을 처리하게 하면 계수 오류, 신뢰구간 누락, 잘못된 자유도 등의 흔한 오류를 제거할 수 있습니다.