회귀분석 결과 보고, 왜 정확해야 할까?
회귀분석은 양적 연구에서 가장 폭넓게 활용되는 통계 기법입니다. 공부 시간으로 시험 성적을 예측하는 단순한 분석부터, 여러 인구통계학적 변인이 직무 만족도에 미치는 영향을 동시에 모형화하는 복잡한 분석까지, 회귀분석은 사회과학 전반에서 핵심적인 역할을 합니다.
그런데 회귀분석 결과를 APA 형식에 맞게 보고하는 단계에서 많은 연구자가 어려움을 겪습니다. t-검정이나 ANOVA와 달리, 회귀분석에서는 전체 모형의 적합도, 개별 예측변인의 기여도, 비표준화 계수와 표준화 계수의 구분, 그리고 신뢰구간까지 다층적인 정보를 빠짐없이 제시해야 합니다. 이 중 하나라도 누락되면 학술지 심사에서 수정 요청을 받을 수 있습니다.
이 글에서는 APA 7판 기준으로 단순선형회귀와 다중회귀분석 결과를 보고하는 방법을 구체적인 숫자 예시와 함께 체계적으로 안내합니다.
단순선형회귀(Simple Linear Regression)
반드시 포함해야 할 요소
단순선형회귀 결과를 APA 형식으로 보고할 때 포함해야 하는 핵심 요소는 다음과 같습니다.
- 결정계수(R²): 예측변인이 결과변인 분산의 몇 퍼센트를 설명하는지를 나타내는 지표
- F 통계량: 전체 모형의 유의성 검정 결과, 이탤릭체로 F
- 자유도(df): 회귀 자유도와 잔차 자유도를 괄호 안에 표기
- 유의확률(p): 소수점 셋째 자리까지
- 비표준화 회귀계수(B): 기울기와 표준오차
- 표준화 회귀계수(beta): 표준화된 값
전체 모형의 기본 보고 형식은 아래와 같습니다.
R² = .XX, F(df회귀, df잔차) = 통계량, p = 유의확률
연구 상황
대학생 120명을 대상으로 주간 공부 시간이 기말고사 점수를 예측하는지 검증하는 연구를 가정합니다.
전체 모형 보고
올바른 보고 예시:
주간 공부 시간이 기말고사 점수를 예측하는지 검증하기 위해 단순선형회귀분석을 실시하였다. 분석 결과, 전체 회귀모형은 통계적으로 유의하였다, R² = .34, F(1, 118) = 60.73, p < .001. 주간 공부 시간은 기말고사 점수 전체 분산의 34%를 설명하였다.
회귀계수 보고
주간 공부 시간은 기말고사 점수를 유의하게 예측하였다, B = 2.85, SE = 0.37, t(118) = 7.79, p < .001, 95% CI [2.12, 3.58]. 주간 공부 시간이 1시간 증가할 때마다 기말고사 점수가 평균 2.85점 상승하는 것으로 나타났다.
구성 요소 정리
| 요소 | 값 | 설명 | |------|------|------| | R² | .34 | 설명된 분산 비율 34%; 앞의 0 생략 | | F | 60.73 | 전체 모형 F 통계량, 소수점 둘째 자리 | | df | 1, 118 | 회귀 자유도(예측변인 수)와 잔차 자유도(N - k - 1) | | p | < .001 | 매우 작은 값은 < .001로 표기 | | B | 2.85 | 비표준화 기울기 | | SE | 0.37 | 기울기의 표준오차 | | t | 7.79 | 회귀계수의 t 통계량 | | 95% CI | [2.12, 3.58] | B의 95% 신뢰구간 |
다중회귀분석(Multiple Regression)
예측변인이 여러 개일 때
다중회귀분석은 두 개 이상의 예측변인을 동시에 투입하여 결과변인을 예측합니다. APA 보고가 더 복잡해지는데, 전체 모형의 적합도뿐 아니라 각 예측변인의 고유한 기여도를 개별적으로 기술해야 하기 때문입니다.
연구 상황
학생 150명을 대상으로 공부 시간, 수업 출석률, 이전 학점(GPA)이 기말고사 점수를 예측하는지 검증하는 연구를 가정합니다.
전체 모형 보고
공부 시간, 수업 출석률, 이전 학점이 기말고사 점수를 예측하는지 검증하기 위해 다중회귀분석을 실시하였다. 전체 회귀모형은 통계적으로 유의하였으며, R² = .52, 수정된 R² = .51, F(3, 146) = 52.78, p < .001. 세 예측변인은 기말고사 점수 전체 분산의 52%를 설명하였다.
여기서 중요한 점은 다중회귀분석에서는 반드시 R²와 **수정된 R²(adjusted R²)**를 함께 보고해야 한다는 것입니다. 수정된 R²는 모형에 투입된 예측변인 수를 고려하여 보정한 값으로, 예측변인이 많을수록 R²가 인위적으로 커지는 문제를 방지합니다.
회귀계수 표(Coefficients Table)
개별 예측변인의 결과는 표로 정리하면 가독성이 높아집니다.
| 예측변인 | B | SE | beta | t | p | 95% CI | |----------|------|------|--------|------|------|---------| | (절편) | 12.45 | 5.32 | -- | 2.34 | .021 | [1.94, 22.96] | | 공부 시간 | 1.92 | 0.31 | .38 | 6.19 | < .001 | [1.31, 2.53] | | 출석률 | 0.28 | 0.08 | .22 | 3.50 | < .001 | [0.12, 0.44] | | 이전 학점 | 8.74 | 1.85 | .29 | 4.72 | < .001 | [5.08, 12.40] |
개별 예측변인 해석
공부 시간은 기말고사 점수를 가장 강력하게 예측하는 변인이었다, B = 1.92, SE = 0.31, beta = .38, t(146) = 6.19, p < .001, 95% CI [1.31, 2.53]. 이전 학점 역시 기말고사 점수를 유의하게 예측하였다, B = 8.74, SE = 1.85, beta = .29, t(146) = 4.72, p < .001, 95% CI [5.08, 12.40]. 수업 출석률은 상대적으로 작지만 통계적으로 유의한 기여를 보였다, B = 0.28, SE = 0.08, beta = .22, t(146) = 3.50, p < .001, 95% CI [0.12, 0.44].
표준화 베타(beta)의 의미
표준화 회귀계수(beta)는 각 예측변인의 상대적 중요도를 비교할 때 사용합니다. beta는 원래 측정 단위가 아닌 표준편차 단위로 표현되므로, 척도가 다른 예측변인 간에도 직접 비교가 가능합니다.
위 예시에서 공부 시간의 beta = .38과 출석률의 beta = .22를 비교하면, 다른 변인을 통제한 상태에서 공부 시간이 기말고사 점수에 더 큰 고유한 기여를 하고 있음을 알 수 있습니다.
유의하지 않은 결과 보고
회귀분석이 유의하지 않은 경우에도 동일한 형식으로 전체 모형 통계량과 개별 회귀계수를 빠짐없이 보고합니다.
수면 시간이 기말고사 점수를 예측하는지 검증하기 위해 단순선형회귀분석을 실시하였다. 분석 결과, 수면 시간은 기말고사 점수를 유의하게 예측하지 못하였다, R² = .02, F(1, 118) = 2.41, p = .123. 회귀계수 역시 유의하지 않았다, B = 0.95, SE = 0.61, t(118) = 1.55, p = .123, 95% CI [-0.26, 2.16].
회귀분석 APA 보고에서 흔한 실수
1. 다중회귀에서 수정된 R² 누락
단순회귀에서는 R²만 보고해도 충분하지만, 다중회귀에서는 수정된 R²를 반드시 함께 보고해야 합니다. 수정된 R²는 예측변인 수를 고려하여 보정된 값이므로, 모형의 실질적 설명력을 더 정확하게 반영합니다. 이를 누락하는 것은 매우 흔한 실수입니다.
2. B와 beta 혼동
B(비표준화 계수)와 beta(표준화 계수)는 서로 다른 정보를 전달합니다. B는 예측변인의 원래 단위에서 결과변인이 얼마나 변하는지를 나타내고, beta는 표준편차 단위로 변환된 값이므로 예측변인 간 상대적 비교에 적합합니다. 어떤 계수를 보고하는지 항상 명확히 표기하고, 가능하면 두 가지 모두 포함하세요.
3. p = .000으로 보고
SPSS나 R 등 통계 소프트웨어에서 p = .000으로 출력되는 경우가 있습니다. 이는 p가 정확히 0이라는 의미가 아니므로, 반드시 p < .001로 표기해야 합니다.
4. 신뢰구간 누락
APA 7판에서는 회귀계수의 95% 신뢰구간을 보고하도록 강력히 권장합니다. 신뢰구간은 추정치의 정밀도에 대한 정보를 제공하며, p 값만으로는 전달할 수 없는 중요한 맥락을 더해 줍니다.
5. 절편(Intercept) 누락
절편은 대개 해석의 초점이 아니지만, 회귀계수 표에는 반드시 포함해야 합니다. 심사자들은 절편이 포함된 완전한 계수표를 기대합니다.
6. 가정 검토 미보고
회귀분석 결과를 보고하기 전에 핵심 가정을 확인해야 합니다. 선형성, 잔차의 독립성, 등분산성(잔차 분산의 일정성), 잔차의 정규성, 그리고 다중공선성의 부재(다중회귀의 경우)를 확인하세요. 가정 위반이 있었다면 결과 섹션에서 이를 언급하고 어떤 교정 조치를 취했는지 기술하는 것이 바람직합니다.
APA 형식 회귀분석 보고 체크리스트
논문 제출 전에 다음 항목을 점검하세요.
- 전체 모형의 R²를 보고했는가 (다중회귀의 경우 수정된 R²도 포함)
- F 통계량과 올바른 자유도를 포함했는가
- 전체 모형의 정확한 p 값을 보고했는가
- 회귀계수 표에 B, SE, beta, t, p, 95% CI를 모두 포함했는가
- 절편(Intercept) 행이 계수표에 포함되어 있는가
- 비표준화 계수(B)와 표준화 계수(beta)를 명확히 구분하여 표기했는가
- 모든 통계 기호(R², F, B, beta, t, p)를 이탤릭체로 표기했는가
- 회귀분석의 기본 가정 검토 결과를 본문에 언급했는가
StatMate로 회귀분석 결과를 정확하게 보고하기
여러 예측변인이 포함된 다중회귀분석의 결과를 APA 형식에 맞게 정리하는 것은 번거롭고 실수가 발생하기 쉬운 작업입니다. StatMate의 회귀분석 계산기를 활용하면 이 과정을 자동화할 수 있습니다.
데이터를 단순회귀 또는 다중회귀 계산기에 입력하면, R², 수정된 R², F 통계량, 개별 회귀계수와 표준오차, 표준화 베타, t 통계량, p 값, 신뢰구간이 자동으로 계산됩니다. 결과는 APA 7판 형식에 맞게 출력되므로, 바로 복사하여 논문에 붙여넣을 수 있습니다.
StatMate에 계산과 서식을 맡기면 계수 혼동, 신뢰구간 누락, 자유도 오류 같은 흔한 실수를 방지할 수 있으며, 결과 해석과 논의 작성에 더 많은 시간을 투자할 수 있습니다.
마무리
회귀분석 결과를 APA 형식으로 보고할 때는 전체 모형의 적합도와 개별 예측변인의 기여도를 모두 제시해야 합니다. 단순회귀에서는 R², F 통계량과 자유도, 회귀계수와 표준오차, t 통계량, p 값, 신뢰구간을 포함하세요. 다중회귀에서는 여기에 더해 수정된 R², 표준화 베타가 포함된 완전한 계수표, 그리고 각 예측변인의 상대적 중요도를 설명하는 서술을 추가하세요. 이 글에서 소개한 예시와 체크리스트를 참고하여 자신의 연구 결과에 적용해 보시기 바랍니다.