본문으로 건너뛰기
S
StatMate
블로그 목록
검정 비교17 min read2026-02-19

대응표본 T검정 vs Wilcoxon 부호순위 검정: 실용적 비교

대응표본(사전-사후) 데이터를 분석할 때 대응표본 t-검정과 Wilcoxon 부호순위 검정 중 어떤 것을 선택해야 하는지 비교합니다. 차이 점수의 정규성 검정, 효과크기, 실제 데이터 예제를 통해 실용적으로 안내합니다.

소개: 사전-사후 비교의 두 가지 접근

연구에서 동일한 대상을 두 시점 또는 두 조건에서 측정하여 변화를 확인하는 것은 매우 흔한 설계입니다. 훈련 전-후의 체력 변화, 약물 투여 전-후의 증상 변화, 같은 제품의 두 가지 버전에 대한 사용자 평가 등이 이에 해당합니다.

이러한 대응표본(paired samples) 데이터를 분석할 때 두 가지 선택지가 있습니다.

  • 대응표본 t-검정(Paired t-test): 차이 점수의 평균이 0과 다른지 검정하는 모수적 방법
  • Wilcoxon 부호순위 검정(Wilcoxon signed-rank test): 차이 점수의 순위를 이용하는 비모수적 방법

어떤 검정을 사용해야 하는지는 차이 점수(difference scores)의 분포 특성에 따라 결정됩니다.

핵심 비교 요약

| 특성 | 대응표본 t-검정 | Wilcoxon 부호순위 검정 | |------|---------------|---------------------| | 비교 대상 | 차이 점수의 평균 | 차이 점수의 부호와 순위 | | 정규성 가정 | 차이 점수가 정규분포 | 불필요 | | 데이터 유형 | 연속형 (등간/비율 척도) | 서열형 또는 연속형 | | 이상치 민감도 | 높음 | 낮음 | | 검정력 | 가정 충족 시 더 높음 | 약간 낮음 (~95%) | | 효과크기 | Cohen의 d | r (= Z / sqrt(N)) | | 중심 경향 지표 | 평균과 표준편차 | 중앙값과 사분위범위 |

대응표본 t-검정의 원리

대응표본 t-검정은 각 쌍의 **차이 점수(D = X2 - X1)**를 계산한 후, 이 차이 점수의 평균이 0과 유의하게 다른지를 검정합니다.

기본 공식:

t = D_bar / (SD_D / sqrt(n))

여기서 D_bar는 차이 점수의 평균, SD_D는 차이 점수의 표준편차, n은 쌍의 수입니다.

핵심 가정은 **차이 점수(D)**가 정규분포를 따라야 한다는 것입니다. 원래 변수 각각이 정규분포일 필요는 없으며, 차이 점수의 정규성만 확인하면 됩니다.

StatMate t-검정 계산기에서 대응표본 모드로 직접 확인해보세요.

Wilcoxon 부호순위 검정의 원리

Wilcoxon 부호순위 검정은 차이 점수의 **부호(양/음)**와 절댓값의 순위를 결합하여 분석합니다.

절차:

  1. 각 쌍의 차이 점수(D)를 계산
  2. 차이가 0인 쌍은 제외
  3. 차이의 절댓값에 순위를 매김
  4. 양의 차이와 음의 차이의 순위 합을 각각 계산
  5. 더 작은 순위 합(T)이 검정 통계량

만약 처리 효과가 없다면, 양의 순위 합과 음의 순위 합이 비슷할 것입니다. 한쪽으로 치우치면 유의한 차이가 있다고 판단합니다.

StatMate Wilcoxon 부호순위 검정 계산기에서 직접 확인해보세요.

예제 데이터: 스트레스 관리 프로그램 효과

15명의 직장인을 대상으로 4주간의 스트레스 관리 프로그램 효과를 평가합니다. 프로그램 전후에 지각된 스트레스 척도(PSS, 0~40점)를 측정했습니다.

| 참가자 | 사전 (X1) | 사후 (X2) | 차이 (D = X2 - X1) | |--------|----------|----------|-------------------| | 1 | 28 | 22 | -6 | | 2 | 32 | 25 | -7 | | 3 | 25 | 23 | -2 | | 4 | 30 | 21 | -9 | | 5 | 27 | 24 | -3 | | 6 | 35 | 28 | -7 | | 7 | 22 | 20 | -2 | | 8 | 31 | 26 | -5 | | 9 | 29 | 22 | -7 | | 10 | 26 | 23 | -3 | | 11 | 33 | 27 | -6 | | 12 | 24 | 21 | -3 | | 13 | 28 | 24 | -4 | | 14 | 30 | 25 | -5 | | 15 | 34 | 29 | -5 |

기술통계

| 시점 | 평균 (M) | 표준편차 (SD) | 중앙값 (Mdn) | |------|---------|--------------|-------------| | 사전 | 28.93 | 3.69 | 29.00 | | 사후 | 24.00 | 2.73 | 24.00 | | 차이 (D) | -4.93 | 2.09 | -5.00 |

가정 검증: 차이 점수의 정규성

Shapiro-Wilk 검정 (차이 점수):

| W | p 값 | 판정 | |---|------|------| | 0.945 | .449 | 정규성 충족 |

차이 점수의 정규성이 충족되므로 대응표본 t-검정이 적합합니다.

분석 결과 비교

대응표본 t-검정 결과

| 통계량 | 값 | |--------|-----| | t | -9.14 | | 자유도 (df) | 14 | | p 값 | < .001 | | 평균차 | -4.93 | | 95% 신뢰구간 | [-6.09, -3.78] | | Cohen의 d | -2.36 |

Wilcoxon 부호순위 검정 결과

| 통계량 | 값 | |--------|-----| | T (양의 순위 합) | 0.00 | | Z | -3.41 | | p 값 | < .001 | | r (효과크기) | -.88 |

결과 비교

두 검정 모두 p < .001로 스트레스 관리 프로그램 후 유의한 스트레스 감소를 확인했습니다. 모든 참가자의 스트레스 점수가 감소했으므로(모든 차이가 음수), 양의 순위 합(T)이 0이 되었습니다.

t-검정은 평균 차이(-4.93)와 신뢰구간을 직접 제공하여 "스트레스가 평균 약 5점 감소했다"는 해석이 가능합니다. Wilcoxon은 이러한 직접적인 평균 추정을 제공하지 않습니다.

가정 위반 시: 이상치가 있는 경우

이제 참가자 4번의 차이 점수가 -9가 아니라 -25(극단적 이상치)라고 가정합시다.

이상치 포함 시 기술통계 변화

| 통계량 | 이상치 없음 | 이상치 포함 | |--------|-----------|-----------| | 평균차 | -4.93 | -6.00 | | 표준편차 | 2.09 | 5.41 | | 중앙값차 | -5.00 | -5.00 | | Shapiro-Wilk p | .449 | .001 |

이상치가 추가되면 평균이 크게 변하고, 표준편차가 급증하며, 정규성이 위반됩니다.

이상치 포함 시 검정 결과

| 검정 | 통계량 | p 값 | 효과크기 | |------|--------|------|---------| | 대응표본 t-검정 | t = -4.30 | < .001 | d = -1.11 | | Wilcoxon 부호순위 | T = 0.00, Z = -3.41 | < .001 | r = -.88 |

t-검정의 t 값이 -9.14에서 -4.30으로 크게 줄었고, Cohen's d도 -2.36에서 -1.11로 절반 이하가 되었습니다. 반면 Wilcoxon의 결과는 이상치의 크기가 아닌 순위만 사용하므로 거의 동일합니다.

이 예시는 이상치가 있을 때 비모수 검정이 더 안정적인 결과를 제공한다는 것을 보여줍니다.

검정 선택 의사결정 기준

대응표본 t-검정을 선택하는 경우

  • 차이 점수가 정규분포를 따름 (Shapiro-Wilk p > .05)
  • 극단적 이상치가 없음
  • 등간/비율 척도 데이터
  • 평균 차이와 신뢰구간이 필요한 경우
  • 표본 크기가 충분히 큼 (n >= 30이면 정규성 완화)

Wilcoxon 부호순위 검정을 선택하는 경우

  • 차이 점수가 정규분포를 따르지 않음
  • 극단적 이상치가 존재
  • 서열 척도 데이터 (리커트 척도 등)
  • 소표본 (n < 15)에서 정규성 확인이 어려운 경우
  • 분포가 심하게 비대칭인 경우

의사결정 흐름

  1. 차이 점수(D)를 계산합니다.
  2. 차이 점수의 정규성을 검정합니다 (Shapiro-Wilk).
  3. Q-Q 플롯과 히스토그램으로 시각적 확인을 합니다.
  4. 이상치 여부를 확인합니다.
  5. 위 결과에 따라 검정을 선택합니다.

효과크기 해석 비교

Cohen의 d (대응표본 t-검정)

| d 값 | 해석 | |------|------| | 0.20 | 작은 효과 | | 0.50 | 중간 효과 | | 0.80 | 큰 효과 |

본 예제의 d = -2.36은 매우 큰 효과로, 프로그램이 스트레스를 표준편차의 2.36배만큼 감소시켰다는 의미입니다.

r (Wilcoxon 효과크기)

| r 값 | 해석 | |------|------| | 0.10 | 작은 효과 | | 0.30 | 중간 효과 | | 0.50 | 큰 효과 |

본 예제의 r = -.88은 매우 큰 효과를 나타냅니다.

APA 형식 보고 방법

대응표본 t-검정 보고

대응표본 t-검정 결과, 스트레스 관리 프로그램 후 지각된 스트레스 점수가 유의하게 감소하였다, t(14) = -9.14, p < .001, d = -2.36. 사전검사(M = 28.93, SD = 3.69)에서 사후검사(M = 24.00, SD = 2.73)로 평균 4.93점 감소하였으며, 95% 신뢰구간은 [-6.09, -3.78]이었다.

Wilcoxon 부호순위 검정 보고

Wilcoxon 부호순위 검정 결과, 스트레스 관리 프로그램 후 지각된 스트레스 점수가 유의하게 감소하였다, T = 0.00, Z = -3.41, p < .001, r = -.88. 사전검사(Mdn = 29.00)에서 사후검사(Mdn = 24.00)로 중앙값이 감소하였다.

실무에서의 추가 고려사항

1. 표본 크기와 검정력

대응표본 설계는 개인차를 통제하므로 독립표본보다 검정력이 높습니다. 하지만 충분한 표본 크기는 여전히 중요합니다.

| 기대 효과크기 (d) | 필요 표본 크기 (쌍) | 검정력 | |------------------|-------------------|--------| | 0.20 (작은) | 199 | .80 | | 0.50 (중간) | 34 | .80 | | 0.80 (큰) | 15 | .80 |

2. 동점(Ties) 처리

Wilcoxon 검정에서 차이가 0인 쌍(동점)은 분석에서 제외됩니다. 동점이 많으면 유효 표본 크기가 줄어들어 검정력이 감소할 수 있습니다.

3. 일방향 vs 양방향 검정

두 검정 모두 단측(one-tailed)과 양측(two-tailed) 검정이 가능합니다. 프로그램이 스트레스를 "감소시킬 것"이라는 방향적 가설이 명확하다면 단측검정을 사용할 수 있지만, 양측검정이 더 보수적이고 일반적입니다.

4. 두 검정 결과가 다를 때

대응표본 t-검정은 유의하지만 Wilcoxon은 유의하지 않은 경우(또는 반대), 데이터를 자세히 검토해야 합니다. 이상치가 t-검정 결과를 왜곡하고 있거나, 반대로 Wilcoxon이 순위 변환으로 인해 정보를 잃었을 수 있습니다. 데이터 특성에 더 부합하는 검정의 결과를 주로 보고합니다.

자주 묻는 질문 (FAQ)

Q1: 사전-사후 차이가 모두 같은 방향이면 어떤 검정이 더 좋나요?

모든 차이가 같은 방향(예: 모두 감소)이면 부호검정(Sign test)도 유의한 결과를 줄 가능성이 높습니다. 하지만 Wilcoxon이 차이의 크기(순위)도 고려하므로 부호검정보다 검정력이 높습니다. 대응표본 t-검정은 가정이 충족되면 가장 높은 검정력을 가집니다.

Q2: 리커트 5점 척도의 사전-사후 비교에는 어떤 검정을 쓰나요?

리커트 5점 척도는 엄밀히 서열 척도이므로 Wilcoxon 부호순위 검정이 이론적으로 적합합니다. 그러나 척도 범위가 넓은 경우(예: 7점 이상)에는 연속형으로 간주하고 대응표본 t-검정을 적용하는 연구자도 많습니다.

Q3: 대응표본이 아니라 독립표본이면 어떻게 하나요?

독립표본(서로 다른 참가자)이면 대응표본 t-검정 대신 독립표본 t-검정, Wilcoxon 대신 Mann-Whitney U 검정을 사용해야 합니다. 대응표본 검정을 독립표본에 적용하거나 그 반대로 적용하면 결과가 부정확합니다.

Q4: 세 시점 이상(사전-중간-사후)을 비교하려면?

세 시점 이상이면 대응표본 t-검정이 아닌 **반복측정 분산분석(Repeated Measures ANOVA)**을, Wilcoxon이 아닌 Friedman 검정을 사용해야 합니다. t-검정이나 Wilcoxon을 여러 번 반복하면 1종 오류가 증가합니다.

Q5: Wilcoxon 부호순위 검정과 Wilcoxon 순위합 검정은 같은 건가요?

아닙니다. **Wilcoxon 부호순위 검정(signed-rank test)**은 대응표본용이고, **Wilcoxon 순위합 검정(rank-sum test)**은 독립표본용입니다. Wilcoxon 순위합 검정은 Mann-Whitney U 검정과 수학적으로 동등합니다. 이름이 비슷하여 혼동하기 쉬우므로 주의하세요.

Q6: 차이 점수에 0이 많으면 어떻게 하나요?

차이가 0인 쌍은 Wilcoxon 검정에서 제외되므로, 0이 많으면 유효 표본이 크게 줄어듭니다. 이 경우 **부호검정(Sign test)**이 더 적합할 수 있습니다. 부호검정은 차이의 크기를 무시하고 방향(증가/감소)만으로 검정하므로, 0을 "변화 없음"으로 처리하기에 더 직접적입니다.

직접 해보기

StatMate에서 두 검정을 직접 실행해볼 수 있습니다.

사전-사후 데이터를 입력하면 차이 점수의 정규성 검정 결과도 함께 확인할 수 있어, 어떤 검정이 적합한지 바로 판단할 수 있습니다.

지금 바로 계산해 보세요

StatMate의 무료 통계 계산기로 데이터를 분석하고 APA 형식 결과를 받아보세요.

계산기 시작하기

통계 분석 팁 받아보기

매주 통계 분석 팁, APA 형식 가이드, 새 계산기 업데이트를 받아보세요.

스팸 없음. 언제든 구독 취소 가능.