소개: 예측변수가 하나인가, 여러 개인가
회귀분석은 독립변수(예측변수)로 종속변수(결과변수)를 예측하거나 설명하는 통계 방법입니다. 연구에서 가장 기본적인 질문 중 하나는 "이 변수가 결과에 영향을 미치는가?"이며, 회귀분석은 이 질문에 정량적으로 답할 수 있습니다.
회귀분석은 예측변수의 수에 따라 두 가지로 나뉩니다.
- 단순선형회귀(Simple Linear Regression): 예측변수가 1개일 때
- 다중선형회귀(Multiple Linear Regression): 예측변수가 2개 이상일 때
이 글에서는 두 회귀분석의 원리, 가정, 장단점을 체계적으로 비교하고, 동일한 데이터에 두 방법을 적용하여 결과를 비교합니다.
핵심 비교 요약
| 특성 | 단순선형회귀 | 다중선형회귀 | |------|-----------|-----------| | 예측변수 수 | 1개 | 2개 이상 | | 모형 | Y = b0 + b1X | Y = b0 + b1X1 + b2X2 + ... | | R-제곱 해석 | 직접적 | 조정된 R-제곱 권장 | | 다중공선성 | 해당 없음 | 반드시 확인 | | 해석 용이성 | 높음 (직관적) | 중간 (다른 변수 통제) | | 생략 변수 편향 | 위험 있음 | 감소시킬 수 있음 | | 과적합 위험 | 낮음 | 변수 많을수록 증가 | | 표본 크기 요구 | 작음 | 변수당 최소 10~15개 |
단순선형회귀의 원리
단순선형회귀는 하나의 예측변수(X)로 종속변수(Y)를 예측하는 직선 모형입니다.
모형:
Y = b0 + b1X + e
- b0: 절편 (X가 0일 때 Y의 예측값)
- b1: 기울기 (X가 1단위 증가할 때 Y의 변화량)
- e: 오차항
핵심 질문은 "b1이 0과 유의하게 다른가?"입니다. 기울기가 0이 아니면 X와 Y 사이에 선형 관계가 있다고 판단합니다.
StatMate 단순회귀 계산기에서 직접 확인해보세요.
단순회귀의 가정
- 선형성: X와 Y의 관계가 직선적
- 독립성: 잔차가 서로 독립적
- 정규성: 잔차가 정규분포를 따름
- 등분산성: 잔차의 분산이 X의 모든 수준에서 동일
다중선형회귀의 원리
다중선형회귀는 두 개 이상의 예측변수로 종속변수를 예측합니다.
모형:
Y = b0 + b1X1 + b2X2 + ... + bkXk + e
각 회귀계수(b1, b2, ...)는 다른 예측변수를 통제한 상태에서 해당 변수가 1단위 증가할 때 Y의 변화량을 나타냅니다. 이것이 단순회귀와의 가장 큰 차이입니다.
StatMate 다중회귀 계산기에서 직접 확인해보세요.
다중회귀의 추가 가정
단순회귀의 가정에 더하여 다음을 확인해야 합니다.
- 다중공선성 부재: 예측변수 간 상관이 지나치게 높지 않을 것
- 충분한 표본 크기: 예측변수 수에 비해 충분한 관측치 (최소 N > 50 + 8k, k = 예측변수 수)
예제 데이터: 직원 생산성 예측
30명의 직원을 대상으로 생산성(월간 업무 완료 수)에 영향을 미치는 요인을 분석합니다. 수집한 변수는 다음과 같습니다.
- 종속변수 (Y): 월간 생산성 (업무 완료 수)
- 예측변수 1 (X1): 업무 경험 (년)
- 예측변수 2 (X2): 주간 교육 시간 (시간)
- 예측변수 3 (X3): 직무 만족도 (1~10점)
원시 데이터 (일부)
| 직원 | 생산성 (Y) | 경험 (X1) | 교육 시간 (X2) | 만족도 (X3) | |------|-----------|----------|-------------|-----------| | 1 | 45 | 3 | 5 | 7 | | 2 | 62 | 7 | 8 | 8 | | 3 | 38 | 2 | 3 | 5 | | 4 | 55 | 5 | 6 | 7 | | 5 | 70 | 10 | 10 | 9 | | 6 | 42 | 3 | 4 | 6 | | 7 | 58 | 6 | 7 | 8 | | 8 | 35 | 1 | 2 | 4 | | 9 | 50 | 4 | 6 | 7 | | 10 | 65 | 8 | 9 | 9 |
기술통계
| 변수 | 평균 (M) | 표준편차 (SD) | 범위 | |------|---------|--------------|------| | 생산성 (Y) | 52.00 | 11.40 | 30 ~ 75 | | 경험 (X1) | 5.20 | 2.85 | 1 ~ 12 | | 교육 시간 (X2) | 6.10 | 2.50 | 1 ~ 12 | | 만족도 (X3) | 6.80 | 1.75 | 3 ~ 10 |
상관행렬
| | Y | X1 | X2 | X3 | |---|---|---|---|---| | Y (생산성) | 1.00 | .82 | .78 | .71 | | X1 (경험) | .82 | 1.00 | .55 | .48 | | X2 (교육 시간) | .78 | .55 | 1.00 | .52 | | X3 (만족도) | .71 | .48 | .52 | 1.00 |
세 예측변수 모두 생산성과 높은 상관을 보이며, 예측변수 간 상관은 .48~.55로 중간 수준입니다.
분석 1: 단순회귀 (경험 → 생산성)
경험(X1)만으로 생산성(Y)을 예측하는 단순회귀를 실행합니다.
모형 요약
| 통계량 | 값 | |--------|-----| | R | .820 | | R-제곱 | .672 | | 조정된 R-제곱 | .661 | | 추정의 표준오차 | 6.64 |
회귀계수
| 변수 | B (비표준화) | SE | Beta (표준화) | t | p 값 | |------|-----------|-----|-------------|------|------| | 절편 | 34.95 | 2.83 | — | 12.35 | < .001 | | 경험 (X1) | 3.28 | 0.45 | .820 | 7.57 | < .001 |
해석
- R-제곱 = .672: 업무 경험이 생산성 변동의 67.2%를 설명합니다.
- b1 = 3.28: 경험이 1년 증가할 때 생산성이 평균 3.28건 증가합니다.
- p < .001: 이 관계는 통계적으로 유의합니다.
분석 2: 다중회귀 (경험 + 교육 + 만족도 → 생산성)
세 가지 예측변수를 모두 포함하는 다중회귀를 실행합니다.
모형 요약
| 통계량 | 값 | |--------|-----| | R | .935 | | R-제곱 | .874 | | 조정된 R-제곱 | .860 | | 추정의 표준오차 | 4.27 |
회귀계수
| 변수 | B (비표준화) | SE | Beta (표준화) | t | p 값 | VIF | |------|-----------|-----|-------------|------|------|-----| | 절편 | 12.35 | 3.42 | — | 3.61 | .001 | — | | 경험 (X1) | 2.15 | 0.38 | .537 | 5.66 | < .001 | 1.52 | | 교육 시간 (X2) | 1.83 | 0.42 | .401 | 4.36 | < .001 | 1.48 | | 만족도 (X3) | 1.25 | 0.55 | .192 | 2.27 | .031 | 1.38 |
다중공선성 진단
| 변수 | VIF | 허용도 (Tolerance) | 판정 | |------|-----|-------------------|------| | 경험 | 1.52 | .658 | 문제 없음 | | 교육 시간 | 1.48 | .676 | 문제 없음 | | 만족도 | 1.38 | .725 | 문제 없음 |
VIF(분산팽창인자)가 모두 10 미만이므로 다중공선성 문제가 없습니다.
| VIF 값 | 해석 | |--------|------| | 1 | 공선성 없음 | | 1 ~ 5 | 약한 공선성 (허용 가능) | | 5 ~ 10 | 중간 공선성 (주의 필요) | | 10 이상 | 심각한 공선성 (조치 필요) |
결과 비교: 단순회귀 vs 다중회귀
설명력 비교
| 지표 | 단순회귀 | 다중회귀 | 차이 | |------|---------|---------|------| | R-제곱 | .672 | .874 | +.202 | | 조정된 R-제곱 | .661 | .860 | +.199 | | 추정의 표준오차 | 6.64 | 4.27 | -2.37 |
다중회귀는 생산성 변동의 87.4%를 설명하며, 단순회귀(67.2%)보다 약 20% 더 높은 설명력을 보입니다. 추정의 표준오차도 6.64에서 4.27로 줄어 예측 정확도가 향상되었습니다.
회귀계수 변화
| 변수 | 단순회귀 B | 다중회귀 B | 변화 | |------|----------|----------|------| | 경험 (X1) | 3.28 | 2.15 | -1.13 |
주목할 점은 경험의 회귀계수가 단순회귀에서 3.28이었던 것이 다중회귀에서 2.15로 감소했다는 것입니다. 이는 **생략 변수 편향(omitted variable bias)**의 전형적인 예입니다.
단순회귀에서 경험의 효과(3.28)에는 교육 시간과 만족도의 효과가 혼재되어 있었습니다. 다중회귀에서 이 변수들을 통제하면, 경험의 순수한 독립적 효과는 2.15로 나타납니다.
생략 변수 편향: 단순회귀의 위험
단순회귀의 가장 큰 약점은 중요한 변수를 포함하지 않으면 회귀계수가 편향된다는 것입니다.
편향이 발생하는 조건
생략 변수 편향은 다음 두 조건이 동시에 충족될 때 발생합니다.
- 생략된 변수가 종속변수(Y)에 영향을 미침
- 생략된 변수가 포함된 예측변수(X)와 상관이 있음
실제 예시
위 데이터에서 교육 시간(X2)은 생산성(Y)과 상관 .78, 경험(X1)과 상관 .55입니다. 교육 시간을 생략하면 경험의 효과가 과대추정됩니다.
| 모형 | 경험 효과 | 해석 | |------|----------|------| | 단순회귀 (경험만) | 3.28 | 교육, 만족도의 효과 포함 (편향) | | 다중회귀 (경험+교육+만족도) | 2.15 | 순수한 경험 효과 (통제 후) |
R-제곱 vs 조정된 R-제곱
R-제곱의 한계
R-제곱은 모형에 변수를 추가하면 항상 증가하거나 같은 값을 유지합니다. 아무 관련 없는 변수를 추가해도 R-제곱은 감소하지 않습니다. 이 때문에 다중회귀에서 R-제곱만으로 모형의 적합도를 평가하면 오해를 초래할 수 있습니다.
조정된 R-제곱
조정된 R-제곱(Adjusted R-squared)은 예측변수의 수에 대한 **벌칙(penalty)**을 적용합니다. 불필요한 변수를 추가하면 조정된 R-제곱은 오히려 감소할 수 있습니다.
| 지표 | 단순회귀 | 다중회귀 (3변수) | 해석 | |------|---------|----------------|------| | R-제곱 | .672 | .874 | 항상 증가 | | 조정된 R-제곱 | .661 | .860 | 변수 추가의 가치 반영 | | 차이 (R-제곱 - 조정) | .011 | .014 | 벌칙 크기 |
조정된 R-제곱이 R-제곱보다 유의미하게 낮다면, 일부 변수가 불필요할 수 있습니다.
검정 선택 의사결정 기준
단순회귀를 선택하는 경우
- 예측변수가 하나만 있거나 하나만 관심 대상인 경우
- 탐색적 분석의 초기 단계에서 개별 변수의 효과를 파악할 때
- 표본 크기가 매우 작아 다중회귀를 실행할 수 없을 때
- 다른 변수에 대한 데이터가 없을 때
- 단순한 예측 모형이 필요한 경우
다중회귀를 선택하는 경우
- 종속변수에 영향을 미치는 여러 요인을 동시에 분석하고 싶을 때
- 특정 변수의 순수한 독립적 효과를 확인하고 싶을 때 (다른 변수 통제)
- 생략 변수 편향을 줄이고 싶을 때
- 예측 정확도를 높이고 싶을 때
- 충분한 표본 크기가 확보된 경우
표본 크기 가이드
| 예측변수 수 | 최소 표본 크기 | 권장 표본 크기 | |-----------|-------------|-------------| | 1 (단순회귀) | 20 | 30 이상 | | 2 | 66 | 100 이상 | | 3 | 74 | 100 이상 | | 5 | 90 | 120 이상 | | 10 | 130 | 200 이상 |
위 최소 표본 크기는 Tabachnick & Fidell의 공식 N >= 50 + 8k (k = 예측변수 수)에 기반합니다.
다중회귀에서 주의할 점
1. 다중공선성
예측변수 간 상관이 .80 이상이면 회귀계수가 불안정해집니다. VIF가 10 이상인 변수는 제거하거나 합치는 것을 고려하세요.
2. 과적합 (Overfitting)
표본 크기에 비해 변수가 너무 많으면 모형이 표본 데이터에 과도하게 맞춰져 새로운 데이터에서 예측력이 떨어집니다.
| 상황 | 위험 | |------|------| | N/k > 15 | 과적합 위험 낮음 | | 10 < N/k < 15 | 주의 필요 | | N/k < 10 | 과적합 위험 높음 |
3. 변수 선택 방법
다중회귀에서 어떤 변수를 포함할지 결정하는 방법은 여러 가지입니다.
| 방법 | 설명 | 장단점 | |------|------|--------| | 이론 기반 (Enter) | 이론에 근거하여 변수 선택 | 가장 권장, 해석 명확 | | 단계적 (Stepwise) | 통계적 기준으로 자동 선택 | 편리하지만 불안정 | | 위계적 (Hierarchical) | 이론적 순서대로 블록 투입 | 변수 추가의 기여도 확인 가능 |
이론에 근거한 변수 선택이 가장 바람직하며, 단계적 방법은 탐색적 목적에만 사용하는 것이 좋습니다.
4. 상호작용 효과
예측변수 간 상호작용이 있을 수 있습니다. 예를 들어, 경험이 많은 직원에서 교육의 효과가 더 클 수 있습니다. 상호작용항(X1 x X2)을 모형에 추가하여 이를 검정할 수 있습니다.
APA 형식 보고 방법
단순회귀 보고
단순선형회귀분석 결과, 업무 경험은 생산성을 유의하게 예측하였다, F(1, 28) = 57.31, p < .001, R-squared = .672. 경험이 1년 증가할 때 생산성이 평균 3.28건 증가하였다(B = 3.28, SE = 0.45, beta = .82, p < .001).
다중회귀 보고
다중선형회귀분석 결과, 전체 모형이 유의하였다, F(3, 26) = 60.07, p < .001, R-squared = .874, adjusted R-squared = .860. 경험(B = 2.15, beta = .54, p < .001), 교육 시간(B = 1.83, beta = .40, p < .001), 직무 만족도(B = 1.25, beta = .19, p = .031) 모두 생산성을 유의하게 예측하였다. 경험의 표준화 회귀계수가 가장 커서 생산성에 대한 상대적 기여도가 가장 높았다.
자주 묻는 질문 (FAQ)
Q1: 단순회귀를 여러 번 하는 것과 다중회귀 한 번 하는 것은 같은가요?
아닙니다. 단순회귀를 변수별로 따로 실행하면 각 변수의 **총 효과(다른 변수 미통제)**를 보게 됩니다. 다중회귀는 모든 변수를 동시에 포함하여 각 변수의 **순수 효과(다른 변수 통제)**를 보여줍니다. 결과가 다를 수 있으며, 연구 질문에 따라 적합한 방법이 달라집니다.
Q2: R-제곱이 높으면 좋은 모형인가요?
R-제곱이 높다고 반드시 좋은 모형은 아닙니다. 과적합된 모형도 R-제곱이 높을 수 있습니다. 조정된 R-제곱, 잔차 분석, 교차검증 등을 함께 고려해야 합니다. 또한 사회과학에서 R-제곱이 .30이어도 의미 있는 결과일 수 있으며, 분야에 따라 기대 수준이 다릅니다.
Q3: 범주형 예측변수(예: 성별)도 회귀분석에 포함할 수 있나요?
네. 범주형 변수는 **더미 변수(dummy variable)**로 변환하여 포함합니다. 예를 들어, 성별은 남성 = 0, 여성 = 1로 코딩합니다. k개의 범주가 있으면 k-1개의 더미 변수가 필요합니다.
Q4: 표준화 회귀계수(Beta)와 비표준화 회귀계수(B)의 차이는 무엇인가요?
비표준화 계수(B)는 원래 단위로 해석됩니다(예: 경험 1년당 생산성 2.15건). 표준화 계수(Beta)는 변수의 단위를 표준편차로 변환하여 변수 간 상대적 기여도를 비교할 수 있게 합니다. 다중회귀에서 어떤 변수가 가장 중요한지 비교할 때는 Beta를 사용합니다.
Q5: 다중공선성이 있으면 어떻게 해결하나요?
다중공선성 해결 방법은 다음과 같습니다.
- VIF가 높은 변수 중 하나를 제거
- 상관이 높은 변수들을 합산하거나 평균화
- 주성분 분석(PCA)으로 차원 축소
- 능형회귀(Ridge regression) 사용
Q6: 비선형 관계가 있으면 어떻게 하나요?
잔차 플롯에서 곡선 패턴이 보이면 비선형 관계를 의심할 수 있습니다. 이 경우 변수 변환(로그, 제곱근), 다항회귀(X의 제곱항 추가), 또는 비선형 회귀 모형을 고려하세요. 산점도를 먼저 확인하여 관계의 형태를 파악하는 것이 중요합니다.
직접 해보기
StatMate에서 두 가지 회귀분석을 직접 실행해볼 수 있습니다.
동일한 종속변수에 대해 단순회귀와 다중회귀를 모두 실행하면, 변수를 추가할 때 설명력이 얼마나 증가하고 회귀계수가 어떻게 변하는지 직접 확인할 수 있습니다.