OLS 회귀분석으로 여러 예측변수에서 결과를 예측합니다. R², VIF가 포함된 계수 테이블, ANOVA 테이블, APA 형식 결과를 제공합니다.
다중회귀분석(Multiple Regression Analysis)은 두 개 이상의 독립변수 (예측변수)가 하나의 연속형 종속변수(결과변수)에 미치는 영향을 동시에 분석하는 통계 기법입니다. 단순회귀분석이 하나의 예측변수만을 다루는 반면, 다중회귀분석은 여러 예측변수를 하나의 모형에 포함시켜 각 변수의 독립적인 기여도를 평가할 수 있습니다—이는 현실 세계의 복잡한 현상을 보다 정확하게 설명하는 데 필수적입니다.
회귀분석의 역사는 19세기 후반 Francis Galton이 부모와 자녀의 키 관계를 연구하면서 "평균으로의 회귀(regression toward the mean)"라는 개념을 도입한 데서 시작됩니다. 이후 Karl Pearson과 그의 제자들이 수학적 기초를 확립했으며, 20세기 초 R. A. Fisher가 최소제곱법(OLS, Ordinary Least Squares)의 통계적 속성을 체계화했습니다. OLS는 관측값과 예측값 사이의 잔차 제곱합을 최소화하는 회귀계수를 추정하는 방법으로—오늘날에도 다중회귀분석의 핵심 추정법으로 널리 사용됩니다.
다중회귀분석은 다음과 같은 상황에서 사용합니다: (1) 여러 예측변수가 결과변수에 각각 얼마나 기여하는지 파악하고 싶을 때, (2) 다른 변수를 통제한 상태에서 특정 변수의 순수한 효과를 추정하고 싶을 때, (3) 여러 변수의 정보를 종합하여 결과를 예측하는 모형을 구축하고 싶을 때. 회귀 모형의 일반 공식은 Y = b0 + b1X1 + b2X2 + … + bkXk + e이며, 여기서 b0은 절편, b1…bk는 각 예측변수의 비표준화 회귀계수, e는 잔차(오차)입니다.
교육 연구자가 대학생 30명의 데이터를 수집하여 공부 시간(주당 시간), 수면 시간(일평균 시간), 출석률(%)이 학점(GPA, 4.5 만점)에 미치는 영향을 분석하고자 합니다.
기술통계 요약
| 변수 | M | SD | 범위 |
|---|---|---|---|
| GPA | 3.25 | 0.58 | 1.80–4.30 |
| 공부 시간 | 14.50 | 5.20 | 3–28 |
| 수면 시간 | 6.80 | 1.10 | 4.5–9.0 |
| 출석률 (%) | 82.00 | 12.50 | 45–100 |
상관행렬
| GPA | 공부 | 수면 | 출석 | |
|---|---|---|---|---|
| GPA | 1.00 | .72 | .38 | .65 |
| 공부 | .72 | 1.00 | .15 | .45 |
| 수면 | .38 | .15 | 1.00 | .10 |
| 출석 | .65 | .45 | .10 | 1.00 |
회귀계수 표
| 예측변수 | B | SE | β | t | p | VIF |
|---|---|---|---|---|---|---|
| (절편) | -0.52 | 0.41 | — | -1.27 | .216 | — |
| 공부 시간 | 0.055 | 0.010 | .49 | 5.50 | < .001 | 1.26 |
| 수면 시간 | 0.112 | 0.038 | .21 | 2.95 | .007 | 1.03 |
| 출석률 | 0.018 | 0.004 | .33 | 4.50 | < .001 | 1.25 |
모형 적합도
R² = .72, 수정된 R² = .69
F(3, 26) = 22.29, p < .001
Durbin-Watson = 1.95
결과 해석
회귀 모형은 전체적으로 유의했으며(F(3, 26) = 22.29, p < .001), GPA 분산의 약 72%를 설명합니다. 세 예측변수 모두 통계적으로 유의한 기여를 보였습니다. 표준화 계수(β)를 비교하면, 공부 시간(β = .49)이 GPA에 가장 큰 상대적 영향력을 가지며, 출석률(β = .33), 수면 시간(β = .21) 순입니다. 모든 VIF 값이 1.3 미만으로 다중공선성 문제는 없었으며, Durbin-Watson 통계량(1.95)은 잔차의 독립성 가정이 충족됨을 나타냅니다.
R² vs 수정된 R² (Adjusted R²)
R²(결정계수)는 종속변수 분산 중 모형이 설명하는 비율을 나타냅니다. 그러나 R²는 예측변수를 추가할수록 항상 증가하는 문제가 있습니다—무의미한 변수를 넣어도 값이 올라갑니다. 수정된 R²는 예측변수의 수와 표본 크기를 고려하여 패널티를 부여하므로, 모형 간 비교에 더 적합합니다. 수정된 R²가 R²보다 현저히 낮다면 불필요한 예측변수가 포함되었을 가능성을 시사합니다.
F-검정 (모형 전체 유의성)
F-검정은 모형에 포함된 모든 예측변수가 동시에 0인지(즉, 모형이 결과를 전혀 예측하지 못하는지)를 검정합니다. F-통계량이 크고 p값이 작으면(< .05), 모형이 전체적으로 유의하다고 결론내립니다. 그러나 F-검정이 유의하더라도 모든 예측변수가 유의한 것은 아닐 수 있으므로, 개별 t-검정도 반드시 확인해야 합니다.
개별 예측변수의 t-검정
각 예측변수에 대한 t-검정은 다른 예측변수를 통제한 상태에서 해당 변수의 회귀계수가 0과 유의하게 다른지를 검정합니다. t = B / SE로 계산되며, p값이 .05 미만이면 해당 예측변수가 모형에 유의한 기여를 한다고 해석합니다.
표준화 계수 (β)
비표준화 계수(B)는 예측변수의 원래 단위로 해석되므로 서로 다른 변수 간 상대적 중요도를 직접 비교할 수 없습니다. 표준화 계수(β)는 모든 변수를 z-점수로 변환한 후의 계수이므로, β의 절대값이 클수록 해당 변수의 상대적 영향력이 크다고 해석합니다. 예를 들어 β = .49는 β = .21보다 결과변수에 대한 영향력이 약 2.3배 크다는 것을 의미합니다.
VIF (분산팽창인자, Variance Inflation Factor)
VIF는 예측변수 간 다중공선성(multicollinearity)의 정도를 측정합니다. VIF = 1이면 해당 변수가 다른 예측변수와 전혀 상관이 없음을 의미하고, VIF가 커질수록 공선성이 심합니다. 일반적으로 VIF < 10이면 허용 가능하며, VIF < 5를 권장하는 연구자도 많습니다. VIF가 높으면 해당 변수를 제거하거나 주성분 분석을 고려해야 합니다.
Durbin-Watson 통계량
Durbin-Watson 통계량은 잔차의 자기상관(autocorrelation)을 검정합니다. 값의 범위는 0–4이며, 2에 가까울수록 자기상관이 없음을 나타냅니다. 일반적으로 1.5–2.5 범위이면 잔차의 독립성 가정이 충족된 것으로 판단합니다. 0에 가까우면 양의 자기상관, 4에 가까우면 음의 자기상관을 시사하며—이는 시계열 데이터나 반복측정 설계에서 특히 주의해야 합니다.
연구 설계와 변수의 특성에 따라 적절한 분석 방법이 달라집니다. 아래 표는 다중회귀분석과 유사한 분석 기법들을 비교합니다.
| 분석 방법 | 독립변수 | 종속변수 | 사용 상황 |
|---|---|---|---|
| 단순회귀 | 연속형 1개 | 연속형 | 단일 예측변수와 결과변수의 관계 분석 |
| 다중회귀 | 연속형 2개 이상 | 연속형 | 여러 예측변수의 동시 효과 분석 및 예측 |
| 로지스틱 회귀 | 연속형 / 범주형 | 이분형 (0/1) | 합격/불합격, 질병 유무 등 이분형 결과 예측 |
| 분산분석(ANOVA) | 범주형 (집단) | 연속형 | 3개 이상 집단의 평균 차이 비교 |
참고: 다중회귀분석에 더미 코딩된 범주형 변수를 포함하면 ANOVA와 동일한 결과를 얻을 수 있습니다. 실제로 ANOVA는 회귀분석의 특수한 경우로 볼 수 있으며, 일반선형모형(GLM)의 틀 안에서 두 접근법은 수학적으로 동등합니다.
다중회귀분석 결과를 신뢰하려면 다음 여섯 가지 가정이 합리적으로 충족되어야 합니다. 이러한 가정의 위반은 편향된 추정치, 부정확한 p값, 또는 잘못된 결론으로 이어질 수 있습니다.
1. 선형성 (Linearity)
각 예측변수와 종속변수 사이의 관계가 선형이어야 합니다. 잔차 대 예측값 산점도를 확인하여 곡선 패턴이 없는지 검토합니다. 비선형 관계가 있다면 변수 변환(로그, 제곱근 등)이나 다항 회귀를 고려하세요.
2. 관찰의 독립성 (Independence)
각 관찰은 다른 관찰과 독립적이어야 합니다. 시계열 데이터, 군집 표본(같은 학교 학생들), 반복측정 설계에서는 이 가정이 위반될 수 있습니다. Durbin-Watson 통계량(1.5–2.5)으로 잔차의 독립성을 확인합니다.
3. 잔차의 정규성 (Normality of Residuals)
잔차(관측값 - 예측값)가 정규분포를 따라야 합니다. 이는 잔차의 히스토그램이나 Q-Q 도표로 확인할 수 있습니다. 표본 크기가 충분히 크면(일반적으로 N ≥ 30) 중심극한정리에 의해 이 가정의 위반에 강건합니다.
4. 등분산성 (Homoscedasticity)
잔차의 분산이 예측값의 모든 수준에서 일정해야 합니다. 잔차 대 예측값 산점도에서 "나팔 모양"(분산이 점점 커지는 패턴)이 보이면 이분산성(heteroscedasticity)이 존재합니다. 이 경우 가중 최소제곱법(WLS)이나 로버스트 표준오차를 사용합니다.
5. 다중공선성 없음 (No Multicollinearity)
예측변수 간 과도한 상관이 없어야 합니다. 다중공선성이 심하면 회귀계수의 표준오차가 팽창하여 개별 변수의 효과를 정확히 추정할 수 없습니다. VIF < 10(보수적으로 < 5)을 기준으로 하며, 예측변수 간 상관계수가 |r| > .80이면 주의가 필요합니다.
6. 자기상관 없음 (No Autocorrelation)
잔차끼리 서로 상관이 없어야 합니다. Durbin-Watson 통계량이 약 2에 가까우면 자기상관이 없다고 판단합니다. 시계열 데이터에서 자기상관이 발견되면 시차 변수를 추가하거나 일반화 최소제곱법(GLS)을 사용합니다.
APA 제7판 지침에 따르면, 다중회귀분석 결과에는 모형의 R², F-통계량, 각 예측변수의 비표준화 계수(B), 표준화 계수(β), t-통계량, p값을 포함해야 합니다. 다음은 템플릿과 풀이 예제입니다:
보고 템플릿
다중회귀분석을 실시하여 [예측변수 목록]이(가) [종속변수]에 미치는 영향을 검증하였다. 회귀모형은 통계적으로 유의하였으며, F(df회귀, df잔차) = [F값], p [< .001 또는 = 정확한 값], R² = [값], 수정된 R² = [값]. [각 예측변수의 B, β, t, p를 보고].
풀이 예제 보고
다중회귀분석을 실시하여 공부 시간, 수면 시간, 출석률이 대학생의 GPA에 미치는 영향을 검증하였다. 회귀모형은 통계적으로 유의하였으며, F(3, 26) = 22.29, p < .001, R² = .72, 수정된 R² = .69로, 모형이 GPA 분산의 약 72%를 설명하였다. 공부 시간(B = 0.055, β = .49, t = 5.50, p < .001), 출석률(B = 0.018, β = .33, t = 4.50, p < .001), 수면 시간(B = 0.112, β = .21, t = 2.95, p = .007) 모두 GPA를 유의하게 예측하였다.
참고: F값과 t값은 소수점 둘째 자리까지 보고합니다. p값은 소수점 셋째 자리까지 보고하되, .001 미만인 경우 p < .001로 표기합니다. R²는 소수점 둘째 자리까지 보고합니다. 통계 기호(F, t, p, R², B, β)는 항상 이탤릭체로 표기합니다.
StatMate의 다중회귀분석 계산은 R의 lm() 함수 및 SPSS의 회귀분석 출력에 대해 검증되었습니다. 최소제곱법(OLS)을 사용하여 회귀계수를 추정하며, F-분포와 t-분포에 jstat 라이브러리를 사용합니다. 모든 회귀계수, 표준오차, t-통계량, p값, R², 수정된 R², F-통계량, VIF, Durbin-Watson 통계량은 R과 SPSS 출력과 소수점 4자리 이상 일치합니다. 95% 신뢰구간은 t-분포의 임계값을 사용하여 정확하게 계산됩니다.
T-검정
두 집단의 평균 비교
분산분석
3개 이상 집단의 평균 비교
카이제곱
범주형 변수의 연관성 검정
상관분석
관계의 강도 측정
기술통계
데이터 요약
표본 크기
검정력 분석 및 표본 계획
일표본 T
알려진 값과 비교
Mann-Whitney U
비모수 집단 비교
Wilcoxon
비모수 대응표본 검정
회귀분석
X-Y 관계 모델링
Cronbach's Alpha
척도 신뢰도 분석
로지스틱 회귀
이항 결과 예측
요인분석
잠재 요인 구조 탐색
Kruskal-Wallis
비모수 3개 이상 집단 비교
반복측정
피험자 내 분산분석
이원배치 분산분석
요인설계 분석
Friedman 검정
비모수 반복측정
Fisher 정확검정
2×2 분할표 정확 검정
McNemar 검정
대응 명목 데이터 검정
Excel/Sheets에서 붙여넣기 또는 CSV 파일 드래그
Excel/Sheets에서 붙여넣기 또는 CSV 파일 드래그
Excel/Sheets에서 붙여넣기 또는 CSV 파일 드래그
데이터를 입력하고 계산을 클릭하세요
또는 "예시 데이터"를 클릭해 사용해보세요