본문으로 건너뛰기
S
StatMate
블로그 목록
사용 가이드17 min read2026-02-19

회귀분석 실행 방법 — 단계별 가이드

단순선형 회귀분석을 처음부터 끝까지 수행하는 방법을 알아봅니다. 회귀 모형 설정, 계수 추정, 모형 적합도 평가, 잔차 진단까지 실제 예제와 함께 단계별로 설명합니다.

소개

회귀분석(Regression Analysis)은 하나 이상의 **독립변수(예측변수)**가 **종속변수(결과변수)**에 미치는 영향을 수학적 모형으로 표현하고, 이를 통해 예측이나 설명을 하는 통계 기법입니다. 통계학에서 가장 널리 사용되는 분석 방법 중 하나로, 사회과학, 경영학, 자연과학, 의학 등 거의 모든 분야에서 활용됩니다.

**단순선형 회귀분석(Simple Linear Regression)**은 가장 기본적인 형태로, 하나의 독립변수하나의 종속변수 사이의 선형 관계를 모형화합니다. 예를 들어, "광고비 지출이 매출액에 미치는 영향", "경력 연수가 연봉에 미치는 영향"과 같은 질문에 답할 수 있습니다.

회귀 모형: Y = β₀ + β₁X + ε

여기서 β₀은 절편(X = 0일 때 Y의 예측값), β₁은 기울기(X가 1단위 증가할 때 Y의 변화량), ε은 오차항입니다.

이 가이드에서는 단순선형 회귀분석의 모든 단계를 실제 예제와 함께 상세히 안내합니다. StatMate의 회귀분석 계산기를 활용하면 데이터를 입력하는 것만으로 회귀계수, 결정계수, 잔차 진단을 자동으로 수행할 수 있습니다.

회귀분석을 사용해야 하는 상황

단순선형 회귀분석은 다음 조건을 만족할 때 적합합니다.

  • 독립변수 1개: 연속형 또는 이분형 변수
  • 종속변수 1개: 연속형 변수
  • 연구 목적: 예측 또는 영향력 추정
  • 관계의 형태: 선형 관계가 예상됨

독립변수가 2개 이상이면 다중회귀분석, 종속변수가 범주형이면 로지스틱 회귀분석을 사용합니다.

1단계: 연구 가설 설정

모형의 유의성에 대한 가설

  • 귀무가설(H₀): 독립변수는 종속변수에 유의한 영향을 미치지 않는다 (β₁ = 0).
  • 대립가설(H₁): 독립변수는 종속변수에 유의한 영향을 미친다 (β₁ ≠ 0).

2단계: 가정 검증

회귀분석의 결과가 타당하려면 다음 가정들이 충족되어야 합니다.

핵심 가정 요약

| 가정 | 의미 | 검증 방법 | 위반 시 대처 | |------|------|----------|-------------| | 선형성 | X와 Y의 관계가 선형 | 산점도, 잔차 대 적합값 도표 | 변수 변환 또는 비선형 회귀 | | 독립성 | 잔차가 서로 독립 | Durbin-Watson 검정 | 자기회귀 모형 | | 정규성 | 잔차가 정규분포 | 잔차 Q-Q 도표, Shapiro-Wilk | 변수 변환, 강건 회귀 | | 등분산성 | 잔차의 분산이 일정 | 잔차 대 적합값 도표 | 가중최소제곱법, 변환 |

각 가정은 **잔차(Residual)**를 기반으로 검증합니다. 잔차란 실제 관측값과 회귀 모형이 예측한 값의 차이(eᵢ = Yᵢ − Ŷᵢ)입니다.

3단계: 예제 데이터 준비

한 기업에서 10개 지역의 월간 광고비(만 원)와 월간 매출액(만 원)의 관계를 분석합니다.

| 지역 | 광고비 X (만 원) | 매출액 Y (만 원) | |------|----------------|----------------| | A | 50 | 320 | | B | 80 | 480 | | C | 120 | 620 | | D | 60 | 370 | | E | 150 | 750 | | F | 40 | 280 | | G | 100 | 560 | | H | 90 | 510 | | I | 70 | 420 | | J | 130 | 680 |

기술통계량

| 변수 | 평균 | 표준편차 | 최솟값 | 최댓값 | |------|------|---------|--------|--------| | 광고비 (X) | 89.00 | 35.59 | 40 | 150 | | 매출액 (Y) | 499.00 | 155.40 | 280 | 750 |

4단계: 회귀계수 추정 (최소제곱법)

최소제곱법(OLS: Ordinary Least Squares)은 잔차의 제곱합을 최소화하는 β₀과 β₁을 추정합니다.

기울기(β₁) 계산

β₁ = Σ(Xᵢ − X̄)(Yᵢ − Ȳ) / Σ(Xᵢ − X̄)²

계산에 필요한 값

| 지역 | X | Y | X−X̄ | Y−Ȳ | (X−X̄)(Y−Ȳ) | (X−X̄)² | |------|---|---|------|------|-------------|---------| | A | 50 | 320 | −39 | −179 | 6,981 | 1,521 | | B | 80 | 480 | −9 | −19 | 171 | 81 | | C | 120 | 620 | 31 | 121 | 3,751 | 961 | | D | 60 | 370 | −29 | −129 | 3,741 | 841 | | E | 150 | 750 | 61 | 251 | 15,311 | 3,721 | | F | 40 | 280 | −49 | −219 | 10,731 | 2,401 | | G | 100 | 560 | 11 | 61 | 671 | 121 | | H | 90 | 510 | 1 | 11 | 11 | 1 | | I | 70 | 420 | −19 | −79 | 1,501 | 361 | | J | 130 | 680 | 41 | 181 | 7,421 | 1,681 | | 합계 | | | | | 50,290 | 11,690 |

기울기 계산

β₁ = 50,290 / 11,690 = 4.302

절편(β₀) 계산

β₀ = Ȳ − β₁X̄ = 499.00 − 4.302 × 89.00 = 499.00 − 382.88 = 116.12

회귀 방정식

Ŷ = 116.12 + 4.302X

해석: 광고비가 1만 원 증가할 때마다 매출액이 평균적으로 4.302만 원 증가합니다.

5단계: 모형 적합도 평가

결정계수 (R²)

R²는 종속변수의 총 변동 중 회귀 모형이 설명하는 비율입니다.

| 제곱합 | 공식 | 값 | |--------|------|-----| | SSR (회귀) | Σ(Ŷᵢ − Ȳ)² | 216,287.08 | | SSE (잔차) | Σ(Yᵢ − Ŷᵢ)² | 1,002.92 | | SST (전체) | Σ(Yᵢ − Ȳ)² | 217,290.00 |

R² = SSR / SST = 216,287.08 / 217,290.00 = 0.995

해석: 광고비가 매출액 변동의 99.5%를 설명합니다. 매우 높은 설명력입니다.

조정된 결정계수 (Adjusted R²)

adj R² = 1 − [(1 − R²)(n − 1) / (n − k − 1)]

adj R² = 1 − [(1 − 0.995)(10 − 1) / (10 − 1 − 1)] = 1 − [0.005 × 9/8] = 1 − 0.006 = 0.994

F-검정 (모형의 전체 유의성)

| 변동원 | SS | df | MS | F | p | |--------|---------|----|----|------|-------| | 회귀 | 216,287.08 | 1 | 216,287.08 | 1,725.4 | < .001 | | 잔차 | 1,002.92 | 8 | 125.37 | | | | 전체 | 217,290.00 | 9 | | | |

F(1, 8) = 1,725.4, p < .001로 회귀 모형은 통계적으로 유의합니다.

6단계: 회귀계수의 유의성 검정

기울기(β₁)의 t-검정

기울기의 표준오차: SE(β₁) = √(MSE / Σ(Xᵢ−X̄)²) = √(125.37 / 11,690) = √0.01073 = 0.1036

t = β₁ / SE(β₁) = 4.302 / 0.1036 = 41.54

df = n − 2 = 8, p < .001

95% 신뢰구간

β₁의 95% CI = β₁ ± t₀.₀₂₅(8) × SE(β₁) = 4.302 ± 2.306 × 0.1036 = 4.302 ± 0.239 = (4.063, 4.541)

해석: 광고비 1만 원 증가 시 매출액은 95% 확률로 4.063만 원에서 4.541만 원 사이에서 증가합니다.

7단계: 잔차 진단

잔차 분석은 회귀 가정이 충족되었는지 확인하는 핵심 단계입니다.

잔차 계산

| 지역 | Y (관측) | Ŷ (예측) | 잔차 (e) | 표준화 잔차 | |------|---------|---------|---------|-----------| | A | 320 | 331.22 | −11.22 | −1.05 | | B | 480 | 460.28 | 19.72 | 1.85 | | C | 620 | 632.36 | −12.36 | −1.16 | | D | 370 | 374.24 | −4.24 | −0.40 | | E | 750 | 761.42 | −11.42 | −1.07 | | F | 280 | 288.20 | −8.20 | −0.77 | | G | 560 | 546.32 | 13.68 | 1.28 | | H | 510 | 503.30 | 6.70 | 0.63 | | I | 420 | 417.26 | 2.74 | 0.26 | | J | 680 | 675.38 | 4.62 | 0.43 |

잔차 진단 체크리스트

| 진단 항목 | 확인 방법 | 이 예제 결과 | |----------|----------|-------------| | 선형성 | 잔차 vs 적합값 도표: 패턴 없음 | 통과 — 무작위 분포 | | 정규성 | 잔차 Q-Q 도표: 대각선 근처 | 통과 — 정규분포에 가까움 | | 등분산성 | 잔차 vs 적합값: 일정한 폭 | 통과 — 깔때기 모양 없음 | | 이상치 | 표준화 잔차 ±3 이내 | 통과 — 최대 1.85 |

8단계: 예측

회귀 방정식을 사용하여 새로운 X 값에 대한 Y를 예측할 수 있습니다.

예시: 광고비 110만 원일 때 예상 매출액은?

Ŷ = 116.12 + 4.302 × 110 = 116.12 + 473.22 = 589.34만 원

예측의 유형

| 예측 유형 | 의미 | 신뢰구간 폭 | |----------|------|-----------| | 평균 반응의 예측 | X = 110에서 평균 매출액의 구간 | 좁음 | | 개별 관측의 예측 | X = 110인 특정 지역의 매출 구간 | 넓음 |

개별 관측의 예측 구간이 더 넓은 이유는 개별 지역의 변동(ε)까지 고려하기 때문입니다.

외삽 주의사항

데이터 범위(40~150만 원) 밖의 값으로 예측하는 것을 **외삽(Extrapolation)**이라 하며, 신뢰할 수 없습니다. 예를 들어, 광고비 300만 원의 매출을 이 모형으로 예측하면 안 됩니다. 선형 관계가 그 범위에서도 유지된다는 보장이 없기 때문입니다.

결과 해석 방법

APA 형식 보고

단순선형 회귀분석을 실시하여 광고비가 매출액에 미치는 영향을 분석하였다. 회귀 모형은 통계적으로 유의하였으며, F(1, 8) = 1725.4, p < .001, 광고비는 매출액 변동의 99.5%를 설명하였다(R² = .995, adj. R² = .994). 광고비의 회귀계수는 유의하였으며(b = 4.302, SE = 0.104, t(8) = 41.54, p < .001), 광고비가 1만 원 증가할 때 매출액이 평균 4.302만 원 증가하는 것으로 나타났다.

보고 시 포함해야 할 요소

  1. 회귀 방정식: Ŷ = 116.12 + 4.302X
  2. R²와 adj. R²: 모형의 설명력
  3. F-검정: 모형의 전체 유의성
  4. 회귀계수(b)와 표준오차: 영향의 크기와 정밀성
  5. t-검정과 p-값: 계수의 유의성
  6. 95% 신뢰구간: 계수의 불확실성 범위

StatMate로 회귀분석 실행하기

StatMate의 회귀분석 계산기를 사용하면 간편하게 분석할 수 있습니다.

  1. 회귀분석 계산기 페이지에 접속합니다.
  2. 독립변수(X)와 종속변수(Y) 데이터를 각각 입력합니다.
  3. 계산 버튼을 클릭합니다.
  4. 결과에서 회귀계수, R², F-통계량, p-값을 확인합니다.
  5. 잔차 진단 도표(잔차 vs 적합값, Q-Q 도표)를 확인합니다.
  6. 산점도와 회귀직선을 시각적으로 확인합니다.
  7. APA 형식 결과를 복사하거나 PDF로 내보낼 수 있습니다.

자주 묻는 질문 (FAQ)

상관분석과 회귀분석의 차이는 무엇인가요?

상관분석은 두 변수 간 관계의 방향과 강도를 측정합니다(대칭적 관계). 회귀분석은 한 변수(독립)가 다른 변수(종속)에 미치는 영향의 크기를 추정하고 예측합니다(방향적 관계). 단순회귀에서 R² = r²이므로 두 분석은 밀접하게 관련됩니다.

R²가 높으면 모형이 좋은 건가요?

R²가 높다고 반드시 좋은 모형은 아닙니다. 다음을 함께 확인해야 합니다.

  1. 잔차 진단: 가정이 충족되었는지 확인
  2. 외적 타당도: 다른 표본에서도 유사한 결과가 나오는지
  3. 이론적 타당성: 모형이 이론적으로 의미가 있는지
  4. 과적합 가능성: 변수가 많으면 R²는 항상 증가하므로 adj. R²를 확인

잔차에 패턴이 보이면 어떻게 하나요?

잔차 도표에 체계적인 패턴(곡선, 깔때기 모양)이 보이면 가정 위반입니다.

  • 곡선 패턴: 비선형 관계 — X의 제곱항 추가, 로그 변환
  • 깔때기 패턴: 이분산성 — 로그 변환, 가중최소제곱법
  • 자기상관 패턴: 시계열 데이터에서 흔함 — 시차 변수 추가

독립변수가 범주형이면 어떻게 하나요?

범주형 독립변수(예: 성별, 지역)는 더미 코딩으로 변환하여 회귀분석에 포함할 수 있습니다. 예를 들어, 성별(남/여)을 0과 1로 코딩하면 독립표본 t-검정과 동일한 결과를 얻습니다.

결정계수(R²)와 상관계수(r)의 관계는?

단순회귀에서 R² = r²입니다. 상관계수가 r = .70이면 R² = .49로, X가 Y 변동의 49%를 설명합니다. 이 관계는 단순회귀에서만 성립하며, 다중회귀에서 R은 다중상관계수로 별도 계산됩니다.

회귀분석에서 인과관계를 주장할 수 있나요?

관찰 연구(observational study)에서는 회귀분석만으로 인과관계를 주장할 수 없습니다. 인과적 결론을 내리려면 무작위 통제 실험(RCT) 설계, 교란 변수 통제, 이론적 근거가 뒷받침되어야 합니다. 회귀분석은 "X와 Y의 관계"를 나타내는 것이지 "X가 Y를 유발한다"고 반드시 의미하지 않습니다.

지금 바로 계산해 보세요

StatMate의 무료 통계 계산기로 데이터를 분석하고 APA 형식 결과를 받아보세요.

계산기 시작하기

통계 분석 팁 받아보기

매주 통계 분석 팁, APA 형식 가이드, 새 계산기 업데이트를 받아보세요.

스팸 없음. 언제든 구독 취소 가능.