본문으로 건너뛰기
S
StatMate
블로그 목록
사용 가이드16 min read2026-02-19

상관분석 실행 방법 — 단계별 가이드

Pearson 상관분석과 Spearman 상관분석을 처음부터 끝까지 수행하는 방법을 알아봅니다. 상관계수 계산, 유의성 검정, 산점도 해석까지 실제 예제와 함께 단계별로 설명합니다.

소개

상관분석(Correlation Analysis)은 두 개의 연속형 변수 사이에 선형적 관련성이 존재하는지, 그리고 그 관련성의 방향과 강도가 어떠한지를 평가하는 통계 기법입니다. 예를 들어, "공부 시간이 늘어나면 성적도 올라가는가?", "운동량이 증가하면 체중이 감소하는가?"와 같은 질문에 답할 수 있습니다.

상관분석에서 사용하는 **상관계수(r)**는 −1에서 +1 사이의 값을 가지며, +1에 가까울수록 강한 양의 상관, −1에 가까울수록 강한 음의 상관, 0에 가까울수록 상관이 없음을 나타냅니다.

가장 널리 사용되는 상관계수는 Pearson 적률 상관계수Spearman 순위 상관계수입니다. 이 가이드에서는 두 방법의 차이, 사용 조건, 계산 과정을 실제 예제와 함께 상세히 안내합니다. StatMate의 상관분석 계산기를 활용하면 데이터를 입력하는 것만으로 상관계수, p-값, 신뢰구간, 산점도를 자동으로 얻을 수 있습니다.

Pearson vs Spearman: 어떤 것을 사용해야 할까?

| 기준 | Pearson (r) | Spearman (ρ) | |------|------------|--------------| | 변수 유형 | 연속형 (등간/비율 척도) | 서열형 또는 연속형 | | 관계 형태 | 선형 관계 측정 | 단조(monotonic) 관계 측정 | | 분포 가정 | 이변량 정규분포 가정 | 분포 가정 없음 (비모수) | | 이상치 민감도 | 매우 민감 | 상대적으로 강건 | | 사용 상황 | 데이터가 정규분포, 이상치 없음 | 비정규, 이상치 있음, 서열 데이터 |

선택 기준:

  • 두 변수 모두 연속형이고 정규분포를 따르며 이상치가 없으면 Pearson
  • 서열 변수가 있거나, 정규성이 위반되거나, 이상치가 있으면 Spearman

1단계: 연구 가설 설정

Pearson 상관분석 가설

  • 귀무가설(H₀): 모집단에서 두 변수의 상관계수는 0이다 (ρ = 0).
  • 대립가설(H₁): 모집단에서 두 변수의 상관계수는 0이 아니다 (ρ ≠ 0). [양측 검정]
  • 또는, ρ > 0 (양의 상관) 또는 ρ < 0 (음의 상관) [단측 검정]

2단계: 가정 검증

Pearson 상관분석의 가정

| 가정 | 검증 방법 | 위반 시 대처 | |------|----------|-------------| | 정규성 | Shapiro-Wilk 검정, Q-Q 도표 | Spearman 사용 | | 선형성 | 산점도 확인 | Spearman 또는 비선형 분석 | | 이상치 없음 | 산점도, Z-점수 확인 | 이상치 제거 또는 Spearman | | 등분산성 | 산점도에서 깔때기 형태 없음 | 변환 또는 Spearman |

산점도를 먼저 그려서 두 변수의 관계가 선형적인지, 이상치가 있는지 시각적으로 확인하는 것이 가장 중요한 첫 번째 단계입니다.

3단계: 예제 데이터 준비

10명의 학생을 대상으로 주당 공부 시간과 기말고사 점수의 관계를 조사했습니다.

| 학생 | 주당 공부 시간 (X) | 기말고사 점수 (Y) | |------|-------------------|-----------------| | 1 | 5 | 62 | | 2 | 8 | 71 | | 3 | 12 | 84 | | 4 | 15 | 88 | | 5 | 10 | 79 | | 6 | 3 | 55 | | 7 | 20 | 95 | | 8 | 7 | 68 | | 9 | 18 | 92 | | 10 | 14 | 85 |

기술통계량

| 변수 | 평균 | 표준편차 | 최솟값 | 최댓값 | |------|------|---------|--------|--------| | 공부 시간 (X) | 11.20 | 5.63 | 3 | 20 | | 기말고사 점수 (Y) | 77.90 | 13.19 | 55 | 95 |

4단계: Pearson 상관계수 계산

계산에 필요한 값

| 학생 | X | Y | X − X̄ | Y − Ȳ | (X−X̄)(Y−Ȳ) | (X−X̄)² | (Y−Ȳ)² | |------|---|---|--------|--------|-------------|---------|---------| | 1 | 5 | 62 | −6.20 | −15.90 | 98.58 | 38.44 | 252.81 | | 2 | 8 | 71 | −3.20 | −6.90 | 22.08 | 10.24 | 47.61 | | 3 | 12 | 84 | 0.80 | 6.10 | 4.88 | 0.64 | 37.21 | | 4 | 15 | 88 | 3.80 | 10.10 | 38.38 | 14.44 | 102.01 | | 5 | 10 | 79 | −1.20 | 1.10 | −1.32 | 1.44 | 1.21 | | 6 | 3 | 55 | −8.20 | −22.90 | 187.78 | 67.24 | 524.41 | | 7 | 20 | 95 | 8.80 | 17.10 | 150.48 | 77.44 | 292.41 | | 8 | 7 | 68 | −4.20 | −9.90 | 41.58 | 17.64 | 98.01 | | 9 | 18 | 92 | 6.80 | 14.10 | 95.88 | 46.24 | 198.81 | | 10 | 14 | 85 | 2.80 | 7.10 | 19.88 | 7.84 | 50.41 | | 합계 | | | | | 658.20 | 281.60 | 1604.90 |

Pearson 상관계수 공식

r = Σ(X−X̄)(Y−Ȳ) / √[Σ(X−X̄)² × Σ(Y−Ȳ)²]

r = 658.20 / √(281.60 × 1604.90) = 658.20 / √451,940.64 = 658.20 / 672.27 = 0.979

결정계수 (r²)

r² = 0.979² = 0.958

이는 공부 시간의 변동이 기말고사 점수 변동의 95.8%를 설명한다는 의미입니다.

5단계: 유의성 검정

t-검정 통계량

t = r × √(n − 2) / √(1 − r²)

t = 0.979 × √(10 − 2) / √(1 − 0.958) = 0.979 × 2.828 / 0.205 = 13.51

자유도

df = n − 2 = 10 − 2 = 8

p-값

t(8) = 13.51에 대한 p-값은 p < .001입니다.

상관계수 0.979는 통계적으로 유의합니다.

6단계: Spearman 순위 상관계수 계산

Spearman 상관계수는 원래 데이터를 순위로 변환한 후 Pearson 상관계수를 계산합니다.

순위 변환

| 학생 | X | 순위(X) | Y | 순위(Y) | d | d² | |------|---|--------|---|--------|---|-----| | 1 | 5 | 2 | 62 | 2 | 0 | 0 | | 2 | 8 | 4 | 71 | 4 | 0 | 0 | | 3 | 12 | 6 | 84 | 6 | 0 | 0 | | 4 | 15 | 8 | 88 | 8 | 0 | 0 | | 5 | 10 | 5 | 79 | 5 | 0 | 0 | | 6 | 3 | 1 | 55 | 1 | 0 | 0 | | 7 | 20 | 10 | 95 | 10 | 0 | 0 | | 8 | 7 | 3 | 68 | 3 | 0 | 0 | | 9 | 18 | 9 | 92 | 9 | 0 | 0 | | 10 | 14 | 7 | 85 | 7 | 0 | 0 |

Spearman ρ 공식 (동순위가 없을 때)

ρ = 1 − (6 × Σd²) / [n(n² − 1)]

ρ = 1 − (6 × 0) / [10(100 − 1)] = 1 − 0 = 1.000

이 예제에서는 순위가 완벽하게 일치하여 ρ = 1.000입니다. 이는 두 변수가 완벽한 단조 증가 관계에 있음을 나타냅니다.

상관계수 해석 기준

상관계수의 강도 해석

| |r| 값 범위 | 해석 | |------------|------| | .00 ~ .10 | 무시할 수 있는 상관 | | .10 ~ .30 | 약한 상관 | | .30 ~ .50 | 중간 상관 | | .50 ~ .70 | 강한 상관 | | .70 ~ .90 | 매우 강한 상관 | | .90 ~ 1.00 | 거의 완벽한 상관 |

이 예제에서 r = .979는 거의 완벽한 양의 상관에 해당합니다.

결과 해석 방법

APA 형식 보고 — Pearson

공부 시간과 기말고사 점수 사이에 통계적으로 유의한 강한 양의 상관이 관찰되었다, r(8) = .979, p < .001, r² = .958. 공부 시간이 증가할수록 기말고사 점수도 증가하는 경향이 있으며, 공부 시간은 점수 변동의 약 95.8%를 설명하였다.

APA 형식 보고 — Spearman

공부 시간과 기말고사 점수 사이에 통계적으로 유의한 완벽한 양의 단조 관계가 관찰되었다, rₛ(8) = 1.000, p < .001. 공부 시간의 순위와 점수의 순위가 완전히 일치하였다.

결과 해석 시 주의사항

  1. 상관은 인과가 아닙니다: 공부 시간과 점수에 강한 상관이 있다고 해서 "공부를 많이 하면 점수가 올라간다"라고 인과적으로 결론지을 수 없습니다. 제3의 변수(예: 동기 수준)가 둘 다에 영향을 미칠 수 있습니다.
  2. 범위 제한에 주의: 표본의 변수 범위가 제한적이면 상관계수가 실제보다 작게 나올 수 있습니다.
  3. 이상치의 영향: 극단값 하나가 상관계수를 크게 변화시킬 수 있으므로 산점도를 반드시 확인하세요.
  4. 비선형 관계 가능성: Pearson r이 0에 가깝더라도 비선형적 관계(예: U자형)가 존재할 수 있습니다.

상관행렬: 여러 변수의 상관 분석

변수가 3개 이상인 경우, 모든 변수 쌍에 대한 상관계수를 상관행렬로 정리합니다.

상관행렬 예시

| | 공부 시간 | 수면 시간 | 출석률 | 기말 점수 | |---|---------|---------|--------|---------| | 공부 시간 | 1.00 | −.42 | .65 | .98 | | 수면 시간 | −.42 | 1.00 | .31 | −.38 | | 출석률 | .65 | .31 | 1.00 | .71 | | 기말 점수 | .98 | −.38 | .71 | 1.00 |

상관행렬을 읽을 때 다중공선성에 주의하세요. 독립변수 간 상관이 .80 이상이면 회귀분석에서 문제가 될 수 있습니다.

StatMate로 상관분석 실행하기

StatMate의 상관분석 계산기를 사용하면 간편하게 분석할 수 있습니다.

  1. 상관분석 계산기 페이지에 접속합니다.
  2. 두 변수의 데이터를 각각 입력합니다 (쉼표, 공백, 또는 줄바꿈으로 구분).
  3. 분석 방법(Pearson 또는 Spearman)을 선택합니다.
  4. 계산 버튼을 클릭합니다.
  5. 상관계수(r 또는 ρ), p-값, 95% 신뢰구간을 확인합니다.
  6. 자동 생성된 산점도에서 데이터의 분포와 추세선을 시각적으로 확인합니다.
  7. APA 형식 결과를 복사하거나 PDF로 내보낼 수 있습니다.

자주 묻는 질문 (FAQ)

상관계수가 0이면 두 변수는 완전히 관계가 없는 건가요?

아닙니다. Pearson 상관계수가 0이라는 것은 선형적 관계가 없다는 의미일 뿐, 비선형적 관계(2차 함수, 사인 곡선 등)가 존재할 수 있습니다. 항상 산점도를 그려서 관계의 형태를 확인하세요.

상관분석에 필요한 최소 표본 크기는 얼마인가요?

일반적으로 최소 30쌍 이상이 권장됩니다. 표본이 너무 작으면(10쌍 미만) 상관계수가 불안정하고, 유의성 검정의 검정력이 낮습니다. 중간 크기의 상관(r = .30)을 탐지하려면 약 85쌍, 작은 상관(r = .10)을 탐지하려면 약 780쌍이 필요합니다.

상관계수와 회귀계수의 차이는 무엇인가요?

상관계수(r)는 두 변수 관계의 방향과 강도를 표준화된 값(−1 ~ +1)으로 나타냅니다. 회귀계수(b)는 X가 1단위 변할 때 Y가 얼마나 변하는지를 원래 단위로 나타냅니다. 단순 회귀에서 표준화된 회귀계수(β)는 Pearson r과 동일합니다.

편상관(Partial Correlation)이란 무엇인가요?

편상관은 제3의 변수(통제 변수)의 영향을 통계적으로 제거한 후 두 변수 간 상관을 계산하는 것입니다. 예를 들어, IQ의 영향을 통제한 후 공부 시간과 성적의 관계를 보고 싶을 때 사용합니다.

Pearson r과 Spearman ρ의 값이 많이 다르면 어떤 의미인가요?

두 값이 크게 다르면 다음 가능성을 의심해야 합니다.

  1. 이상치가 존재: Pearson은 이상치에 민감하지만 Spearman은 순위 기반이므로 강건합니다.
  2. 비선형적이지만 단조적인 관계: 예를 들어 지수적 증가 관계는 Spearman이 더 크게 나옵니다.
  3. 분포의 왜곡: 심하게 치우친 분포에서는 두 값이 차이 날 수 있습니다.

상관분석 결과를 시각화하는 방법은?

  • 산점도(Scatter Plot): 가장 기본적이고 중요한 시각화. 추세선과 함께 표시합니다.
  • 상관행렬 히트맵: 여러 변수의 상관을 색상 강도로 나타냅니다.
  • 신뢰구간 포함 산점도: 회귀선 주위에 95% 신뢰대역을 표시합니다.

지금 바로 계산해 보세요

StatMate의 무료 통계 계산기로 데이터를 분석하고 APA 형식 결과를 받아보세요.

계산기 시작하기

통계 분석 팁 받아보기

매주 통계 분석 팁, APA 형식 가이드, 새 계산기 업데이트를 받아보세요.

스팸 없음. 언제든 구독 취소 가능.