소개
회귀분석(Regression Analysis)은 하나 이상의 **독립변수(예측변수)**가 **종속변수(결과변수)**에 미치는 영향을 수학적 모형으로 표현하고, 이를 통해 예측이나 설명을 하는 통계 기법입니다. 통계학에서 가장 널리 사용되는 분석 방법 중 하나로, 사회과학, 경영학, 자연과학, 의학 등 거의 모든 분야에서 활용됩니다.
**단순선형 회귀분석(Simple Linear Regression)**은 가장 기본적인 형태로, 하나의 독립변수와 하나의 종속변수 사이의 선형 관계를 모형화합니다. 예를 들어, "광고비 지출이 매출액에 미치는 영향", "경력 연수가 연봉에 미치는 영향"과 같은 질문에 답할 수 있습니다.
회귀 모형: Y = β₀ + β₁X + ε
여기서 β₀은 절편(X = 0일 때 Y의 예측값), β₁은 기울기(X가 1단위 증가할 때 Y의 변화량), ε은 오차항입니다.
이 가이드에서는 단순선형 회귀분석의 모든 단계를 실제 예제와 함께 상세히 안내합니다. StatMate의 회귀분석 계산기를 활용하면 데이터를 입력하는 것만으로 회귀계수, 결정계수, 잔차 진단을 자동으로 수행할 수 있습니다.
회귀분석을 사용해야 하는 상황
단순선형 회귀분석은 다음 조건을 만족할 때 적합합니다.
- 독립변수 1개: 연속형 또는 이분형 변수
- 종속변수 1개: 연속형 변수
- 연구 목적: 예측 또는 영향력 추정
- 관계의 형태: 선형 관계가 예상됨
독립변수가 2개 이상이면 다중회귀분석, 종속변수가 범주형이면 로지스틱 회귀분석을 사용합니다.
1단계: 연구 가설 설정
모형의 유의성에 대한 가설
- 귀무가설(H₀): 독립변수는 종속변수에 유의한 영향을 미치지 않는다 (β₁ = 0).
- 대립가설(H₁): 독립변수는 종속변수에 유의한 영향을 미친다 (β₁ ≠ 0).
2단계: 가정 검증
회귀분석의 결과가 타당하려면 다음 가정들이 충족되어야 합니다.
핵심 가정 요약
| 가정 | 의미 | 검증 방법 | 위반 시 대처 | |------|------|----------|-------------| | 선형성 | X와 Y의 관계가 선형 | 산점도, 잔차 대 적합값 도표 | 변수 변환 또는 비선형 회귀 | | 독립성 | 잔차가 서로 독립 | Durbin-Watson 검정 | 자기회귀 모형 | | 정규성 | 잔차가 정규분포 | 잔차 Q-Q 도표, Shapiro-Wilk | 변수 변환, 강건 회귀 | | 등분산성 | 잔차의 분산이 일정 | 잔차 대 적합값 도표 | 가중최소제곱법, 변환 |
각 가정은 **잔차(Residual)**를 기반으로 검증합니다. 잔차란 실제 관측값과 회귀 모형이 예측한 값의 차이(eᵢ = Yᵢ − Ŷᵢ)입니다.
3단계: 예제 데이터 준비
한 기업에서 10개 지역의 월간 광고비(만 원)와 월간 매출액(만 원)의 관계를 분석합니다.
| 지역 | 광고비 X (만 원) | 매출액 Y (만 원) | |------|----------------|----------------| | A | 50 | 320 | | B | 80 | 480 | | C | 120 | 620 | | D | 60 | 370 | | E | 150 | 750 | | F | 40 | 280 | | G | 100 | 560 | | H | 90 | 510 | | I | 70 | 420 | | J | 130 | 680 |
기술통계량
| 변수 | 평균 | 표준편차 | 최솟값 | 최댓값 | |------|------|---------|--------|--------| | 광고비 (X) | 89.00 | 35.59 | 40 | 150 | | 매출액 (Y) | 499.00 | 155.40 | 280 | 750 |
4단계: 회귀계수 추정 (최소제곱법)
최소제곱법(OLS: Ordinary Least Squares)은 잔차의 제곱합을 최소화하는 β₀과 β₁을 추정합니다.
기울기(β₁) 계산
β₁ = Σ(Xᵢ − X̄)(Yᵢ − Ȳ) / Σ(Xᵢ − X̄)²
계산에 필요한 값
| 지역 | X | Y | X−X̄ | Y−Ȳ | (X−X̄)(Y−Ȳ) | (X−X̄)² | |------|---|---|------|------|-------------|---------| | A | 50 | 320 | −39 | −179 | 6,981 | 1,521 | | B | 80 | 480 | −9 | −19 | 171 | 81 | | C | 120 | 620 | 31 | 121 | 3,751 | 961 | | D | 60 | 370 | −29 | −129 | 3,741 | 841 | | E | 150 | 750 | 61 | 251 | 15,311 | 3,721 | | F | 40 | 280 | −49 | −219 | 10,731 | 2,401 | | G | 100 | 560 | 11 | 61 | 671 | 121 | | H | 90 | 510 | 1 | 11 | 11 | 1 | | I | 70 | 420 | −19 | −79 | 1,501 | 361 | | J | 130 | 680 | 41 | 181 | 7,421 | 1,681 | | 합계 | | | | | 50,290 | 11,690 |
기울기 계산
β₁ = 50,290 / 11,690 = 4.302
절편(β₀) 계산
β₀ = Ȳ − β₁X̄ = 499.00 − 4.302 × 89.00 = 499.00 − 382.88 = 116.12
회귀 방정식
Ŷ = 116.12 + 4.302X
해석: 광고비가 1만 원 증가할 때마다 매출액이 평균적으로 4.302만 원 증가합니다.
5단계: 모형 적합도 평가
결정계수 (R²)
R²는 종속변수의 총 변동 중 회귀 모형이 설명하는 비율입니다.
| 제곱합 | 공식 | 값 | |--------|------|-----| | SSR (회귀) | Σ(Ŷᵢ − Ȳ)² | 216,287.08 | | SSE (잔차) | Σ(Yᵢ − Ŷᵢ)² | 1,002.92 | | SST (전체) | Σ(Yᵢ − Ȳ)² | 217,290.00 |
R² = SSR / SST = 216,287.08 / 217,290.00 = 0.995
해석: 광고비가 매출액 변동의 99.5%를 설명합니다. 매우 높은 설명력입니다.
조정된 결정계수 (Adjusted R²)
adj R² = 1 − [(1 − R²)(n − 1) / (n − k − 1)]
adj R² = 1 − [(1 − 0.995)(10 − 1) / (10 − 1 − 1)] = 1 − [0.005 × 9/8] = 1 − 0.006 = 0.994
F-검정 (모형의 전체 유의성)
| 변동원 | SS | df | MS | F | p | |--------|---------|----|----|------|-------| | 회귀 | 216,287.08 | 1 | 216,287.08 | 1,725.4 | < .001 | | 잔차 | 1,002.92 | 8 | 125.37 | | | | 전체 | 217,290.00 | 9 | | | |
F(1, 8) = 1,725.4, p < .001로 회귀 모형은 통계적으로 유의합니다.
6단계: 회귀계수의 유의성 검정
기울기(β₁)의 t-검정
기울기의 표준오차: SE(β₁) = √(MSE / Σ(Xᵢ−X̄)²) = √(125.37 / 11,690) = √0.01073 = 0.1036
t = β₁ / SE(β₁) = 4.302 / 0.1036 = 41.54
df = n − 2 = 8, p < .001
95% 신뢰구간
β₁의 95% CI = β₁ ± t₀.₀₂₅(8) × SE(β₁) = 4.302 ± 2.306 × 0.1036 = 4.302 ± 0.239 = (4.063, 4.541)
해석: 광고비 1만 원 증가 시 매출액은 95% 확률로 4.063만 원에서 4.541만 원 사이에서 증가합니다.
7단계: 잔차 진단
잔차 분석은 회귀 가정이 충족되었는지 확인하는 핵심 단계입니다.
잔차 계산
| 지역 | Y (관측) | Ŷ (예측) | 잔차 (e) | 표준화 잔차 | |------|---------|---------|---------|-----------| | A | 320 | 331.22 | −11.22 | −1.05 | | B | 480 | 460.28 | 19.72 | 1.85 | | C | 620 | 632.36 | −12.36 | −1.16 | | D | 370 | 374.24 | −4.24 | −0.40 | | E | 750 | 761.42 | −11.42 | −1.07 | | F | 280 | 288.20 | −8.20 | −0.77 | | G | 560 | 546.32 | 13.68 | 1.28 | | H | 510 | 503.30 | 6.70 | 0.63 | | I | 420 | 417.26 | 2.74 | 0.26 | | J | 680 | 675.38 | 4.62 | 0.43 |
잔차 진단 체크리스트
| 진단 항목 | 확인 방법 | 이 예제 결과 | |----------|----------|-------------| | 선형성 | 잔차 vs 적합값 도표: 패턴 없음 | 통과 — 무작위 분포 | | 정규성 | 잔차 Q-Q 도표: 대각선 근처 | 통과 — 정규분포에 가까움 | | 등분산성 | 잔차 vs 적합값: 일정한 폭 | 통과 — 깔때기 모양 없음 | | 이상치 | 표준화 잔차 ±3 이내 | 통과 — 최대 1.85 |
8단계: 예측
회귀 방정식을 사용하여 새로운 X 값에 대한 Y를 예측할 수 있습니다.
예시: 광고비 110만 원일 때 예상 매출액은?
Ŷ = 116.12 + 4.302 × 110 = 116.12 + 473.22 = 589.34만 원
예측의 유형
| 예측 유형 | 의미 | 신뢰구간 폭 | |----------|------|-----------| | 평균 반응의 예측 | X = 110에서 평균 매출액의 구간 | 좁음 | | 개별 관측의 예측 | X = 110인 특정 지역의 매출 구간 | 넓음 |
개별 관측의 예측 구간이 더 넓은 이유는 개별 지역의 변동(ε)까지 고려하기 때문입니다.
외삽 주의사항
데이터 범위(40~150만 원) 밖의 값으로 예측하는 것을 **외삽(Extrapolation)**이라 하며, 신뢰할 수 없습니다. 예를 들어, 광고비 300만 원의 매출을 이 모형으로 예측하면 안 됩니다. 선형 관계가 그 범위에서도 유지된다는 보장이 없기 때문입니다.
결과 해석 방법
APA 형식 보고
단순선형 회귀분석을 실시하여 광고비가 매출액에 미치는 영향을 분석하였다. 회귀 모형은 통계적으로 유의하였으며, F(1, 8) = 1725.4, p < .001, 광고비는 매출액 변동의 99.5%를 설명하였다(R² = .995, adj. R² = .994). 광고비의 회귀계수는 유의하였으며(b = 4.302, SE = 0.104, t(8) = 41.54, p < .001), 광고비가 1만 원 증가할 때 매출액이 평균 4.302만 원 증가하는 것으로 나타났다.
보고 시 포함해야 할 요소
- 회귀 방정식: Ŷ = 116.12 + 4.302X
- R²와 adj. R²: 모형의 설명력
- F-검정: 모형의 전체 유의성
- 회귀계수(b)와 표준오차: 영향의 크기와 정밀성
- t-검정과 p-값: 계수의 유의성
- 95% 신뢰구간: 계수의 불확실성 범위
StatMate로 회귀분석 실행하기
StatMate의 회귀분석 계산기를 사용하면 간편하게 분석할 수 있습니다.
- 회귀분석 계산기 페이지에 접속합니다.
- 독립변수(X)와 종속변수(Y) 데이터를 각각 입력합니다.
- 계산 버튼을 클릭합니다.
- 결과에서 회귀계수, R², F-통계량, p-값을 확인합니다.
- 잔차 진단 도표(잔차 vs 적합값, Q-Q 도표)를 확인합니다.
- 산점도와 회귀직선을 시각적으로 확인합니다.
- APA 형식 결과를 복사하거나 PDF로 내보낼 수 있습니다.
자주 묻는 질문 (FAQ)
상관분석과 회귀분석의 차이는 무엇인가요?
상관분석은 두 변수 간 관계의 방향과 강도를 측정합니다(대칭적 관계). 회귀분석은 한 변수(독립)가 다른 변수(종속)에 미치는 영향의 크기를 추정하고 예측합니다(방향적 관계). 단순회귀에서 R² = r²이므로 두 분석은 밀접하게 관련됩니다.
R²가 높으면 모형이 좋은 건가요?
R²가 높다고 반드시 좋은 모형은 아닙니다. 다음을 함께 확인해야 합니다.
- 잔차 진단: 가정이 충족되었는지 확인
- 외적 타당도: 다른 표본에서도 유사한 결과가 나오는지
- 이론적 타당성: 모형이 이론적으로 의미가 있는지
- 과적합 가능성: 변수가 많으면 R²는 항상 증가하므로 adj. R²를 확인
잔차에 패턴이 보이면 어떻게 하나요?
잔차 도표에 체계적인 패턴(곡선, 깔때기 모양)이 보이면 가정 위반입니다.
- 곡선 패턴: 비선형 관계 — X의 제곱항 추가, 로그 변환
- 깔때기 패턴: 이분산성 — 로그 변환, 가중최소제곱법
- 자기상관 패턴: 시계열 데이터에서 흔함 — 시차 변수 추가
독립변수가 범주형이면 어떻게 하나요?
범주형 독립변수(예: 성별, 지역)는 더미 코딩으로 변환하여 회귀분석에 포함할 수 있습니다. 예를 들어, 성별(남/여)을 0과 1로 코딩하면 독립표본 t-검정과 동일한 결과를 얻습니다.
결정계수(R²)와 상관계수(r)의 관계는?
단순회귀에서 R² = r²입니다. 상관계수가 r = .70이면 R² = .49로, X가 Y 변동의 49%를 설명합니다. 이 관계는 단순회귀에서만 성립하며, 다중회귀에서 R은 다중상관계수로 별도 계산됩니다.
회귀분석에서 인과관계를 주장할 수 있나요?
관찰 연구(observational study)에서는 회귀분석만으로 인과관계를 주장할 수 없습니다. 인과적 결론을 내리려면 무작위 통제 실험(RCT) 설계, 교란 변수 통제, 이론적 근거가 뒷받침되어야 합니다. 회귀분석은 "X와 Y의 관계"를 나타내는 것이지 "X가 Y를 유발한다"고 반드시 의미하지 않습니다.