T검정 vs Mann-Whitney U: 어떤 검정을 사용해야 할까?

소개: 두 집단 비교의 두 가지 길

연구에서 가장 흔한 분석 상황 중 하나는 두 독립 집단의 차이를 비교하는 것입니다. 실험집단과 통제집단의 점수 차이, 남성과 여성의 반응 시간 차이 등이 대표적인 예입니다.

이때 선택할 수 있는 두 가지 검정이 있습니다.

독립표본 t-검정: 두 집단의 평균을 비교하는 모수적 검정
Mann-Whitney U 검정: 두 집단의 순위 분포를 비교하는 비모수적 검정

어떤 검정을 선택해야 하는지는 취향이나 관습이 아니라, 데이터의 특성에 따라 결정됩니다. 이 글에서는 두 검정의 원리, 가정, 장단점을 체계적으로 비교하고, 동일한 데이터에 두 검정을 모두 적용하여 결과를 비교합니다.

핵심 비교 요약

| 특성 | 독립표본 t-검정 | Mann-Whitney U 검정 | |------|---------------|-------------------| | 비교 대상 | 평균 (Mean) | 순위 분포 (Rank distribution) | | 데이터 유형 | 연속형 (등간/비율 척도) | 서열형 또는 연속형 | | 정규성 가정 | 필요 | 불필요 | | 등분산 가정 | 필요 (Welch 보정으로 완화) | 유사한 분포 형태 권장 | | 이상치 민감도 | 높음 | 낮음 | | 검정력 | 가정 충족 시 더 높음 | 가정 충족 시 약간 낮음 | | 효과크기 | Cohen의 d | 순위 이연상관 r | | 표본 크기 권장 | 집단당 n >= 30 (강건) | 소표본에서도 사용 가능 |

독립표본 t-검정의 원리

t-검정은 두 집단의 평균 차이를 표준오차로 나눈 t 통계량을 계산합니다.

기본 공식:

t = (M1 - M2) / SE(M1 - M2)

여기서 M1, M2는 각 집단의 평균이고, SE는 평균 차이의 표준오차입니다. t 값이 클수록 두 집단 간 차이가 우연에 의한 것이 아닐 확률이 높습니다.

StatMate t-검정 계산기에서 직접 확인해보세요.

t-검정의 가정

독립성: 두 집단의 관측치가 서로 독립적
정규성: 각 집단의 종속변수가 정규분포를 따름
등분산성: 두 집단의 분산이 동일 (Welch의 t-검정으로 완화 가능)
등간/비율 척도: 종속변수가 연속형

Mann-Whitney U 검정의 원리

Mann-Whitney U 검정은 두 집단의 데이터를 합쳐서 순위를 매긴 후, 한 집단의 순위가 체계적으로 높은지 낮은지를 평가합니다.

핵심 논리: 두 집단이 동일한 모집단에서 왔다면, 순위가 두 집단에 골고루 섞여 있을 것입니다. 만약 한 집단의 값이 일관되게 높다면, 해당 집단의 순위 합이 기대값보다 유의하게 커집니다.

StatMate Mann-Whitney U 계산기에서 직접 확인해보세요.

Mann-Whitney U의 가정

독립성: 두 집단의 관측치가 서로 독립적
서열 척도 이상: 데이터가 최소한 순서를 매길 수 있어야 함
유사한 분포 형태: 중앙값 비교를 위해서는 두 집단의 분포 형태가 유사해야 함

정규성 가정이 불필요하다는 것이 가장 큰 차이점입니다.

예제 데이터: 두 교수법의 성적 비교

새로운 교수법(실험집단)과 기존 교수법(통제집단)의 효과를 비교합니다. 각 집단 15명의 학생에게 동일한 시험을 실시했습니다.

| 순서 | 실험집단 | 통제집단 | |------|---------|---------| | 1 | 78 | 72 | | 2 | 85 | 68 | | 3 | 82 | 75 | | 4 | 90 | 70 | | 5 | 76 | 65 | | 6 | 88 | 74 | | 7 | 84 | 69 | | 8 | 79 | 71 | | 9 | 91 | 73 | | 10 | 86 | 67 | | 11 | 83 | 76 | | 12 | 80 | 66 | | 13 | 87 | 70 | | 14 | 77 | 72 | | 15 | 81 | 68 |

기술통계

| 집단 | N | 평균 | 표준편차 | 중앙값 | |------|---|------|---------|--------| | 실험집단 | 15 | 83.13 | 4.63 | 83.00 | | 통제집단 | 15 | 70.40 | 3.31 | 70.00 |

가정 검증

정규성 (Shapiro-Wilk):

| 집단 | W | p 값 | 판정 | |------|---|------|------| | 실험집단 | 0.955 | .608 | 정규성 충족 | | 통제집단 | 0.963 | .732 | 정규성 충족 |

등분산성 (Levene):

| F | p 값 | 판정 | |---|------|------| | 1.82 | .188 | 등분산 가정 충족 |

이 데이터는 t-검정의 모든 가정을 충족하므로 t-검정이 적합합니다. 하지만 교육 목적으로 두 검정을 모두 실행해보겠습니다.

분석 결과 비교

독립표본 t-검정 결과

| 통계량 | 값 | |--------|-----| | t | 8.71 | | 자유도 (df) | 28 | | p 값 | < .001 | | 평균차 | 12.73 | | 95% 신뢰구간 | [9.74, 15.73] | | Cohen의 d | 3.18 |

Mann-Whitney U 결과

| 통계량 | 값 | |--------|-----| | U | 6.50 | | Z | -4.53 | | p 값 | < .001 | | 순위 이연상관 r | .94 |

결과 해석 비교

두 검정 모두 p < .001로 유의한 차이를 보여줍니다. 이 경우 가정이 충족되었으므로 결론이 동일합니다. 하지만 몇 가지 차이가 있습니다.

비교 대상: t-검정은 평균 차이(12.73점)를 직접 보고할 수 있지만, Mann-Whitney U는 순위에 기반하므로 평균 차이를 직접 제공하지 않습니다.
효과크기: t-검정의 Cohen's d = 3.18은 해석이 직관적이며(표준편차의 3.18배 차이), Mann-Whitney의 r = .94도 큰 효과를 나타냅니다.
신뢰구간: t-검정은 평균 차이의 95% 신뢰구간을 제공하여 차이의 범위를 추정할 수 있습니다.

가정이 위반될 때: 이상치의 영향

이제 실험집단의 데이터에 극단값(이상치)이 하나 포함된 경우를 살펴봅시다. 1번 참가자의 점수가 78이 아니라 28이라고 가정합니다.

이상치 포함 시 기술통계

| 집단 | 평균 | 중앙값 | |------|------|--------| | 실험집단 (이상치 포함) | 79.80 | 83.00 | | 통제집단 | 70.40 | 70.00 |

평균이 83.13에서 79.80으로 하락했지만, 중앙값은 83.00으로 변하지 않았습니다.

이상치 포함 시 검정 결과

| 검정 | 통계량 | p 값 | 효과크기 | |------|--------|------|---------| | t-검정 | t = 4.22 | < .001 | d = 1.54 | | Mann-Whitney U | U = 14.50 | < .001 | r = .87 |

두 검정 모두 여전히 유의하지만, t-검정의 효과크기가 d = 3.18에서 d = 1.54로 절반 이하로 줄었습니다. 반면 Mann-Whitney U의 효과크기는 r = .94에서 r = .87로 소폭만 감소했습니다. 이것이 바로 **비모수 검정이 이상치에 강건(robust)**하다고 하는 이유입니다.

검정 선택 의사결정 트리

다음 단계를 순서대로 따라가면 적합한 검정을 선택할 수 있습니다.

1단계: 데이터 유형 확인

서열 척도(리커트, 순위 등)라면 → Mann-Whitney U
연속형(등간/비율 척도)이라면 → 2단계로

2단계: 표본 크기 확인

집단당 n < 15이면 → 정규성 검정이 검정력 부족, Mann-Whitney U 고려
집단당 n >= 15이면 → 3단계로

3단계: 정규성 검정

Shapiro-Wilk p > .05이면 → 정규성 충족, t-검정 적합
Shapiro-Wilk p < .05이면 → 4단계로

4단계: 표본 크기와 정규성 위반 정도 평가

집단당 n >= 30이면 → 중심극한정리에 의해 t-검정 여전히 강건
집단당 n < 30이고 정규성 위반이면 → Mann-Whitney U

5단계: 이상치 확인

극단적 이상치가 있다면 → Mann-Whitney U 고려
이상치가 없다면 → 위 결과에 따라 선택

흔한 실수와 주의사항

실수 1: 무조건 비모수 검정이 안전하다는 생각

비모수 검정은 가정이 적어 "안전한 선택"처럼 보이지만, 가정이 충족될 때 모수 검정(t-검정)이 더 높은 **검정력(statistical power)**을 가집니다. 즉, 실제로 차이가 있을 때 이를 발견할 확률이 높습니다. 불필요하게 비모수 검정을 사용하면 유의한 결과를 놓칠 수 있습니다.

실수 2: 정규성 검정에만 의존

Shapiro-Wilk 검정은 대표본에서 사소한 비정규성에도 유의하게 나올 수 있습니다. **시각적 방법(Q-Q 플롯, 히스토그램)**을 함께 활용하고, 왜도와 첨도 값을 확인하는 것이 바람직합니다.

실수 3: Mann-Whitney U를 중앙값 검정으로만 이해

Mann-Whitney U는 정확히 말하면 두 집단의 순위 분포가 동일한지를 검정합니다. 중앙값 비교로 해석하려면 두 집단의 분포 형태가 유사해야 합니다. 분포 형태가 다르면 중앙값이 아닌 순위의 확률적 우위(stochastic dominance)를 비교하는 것입니다.

실수 4: 효과크기를 보고하지 않음

p 값만으로는 차이의 실질적 크기를 알 수 없습니다. t-검정에서는 Cohen's d, Mann-Whitney U에서는 순위 이연상관 r을 반드시 보고하세요.

| 효과크기 | 작은 효과 | 중간 효과 | 큰 효과 | |---------|----------|----------|---------| | Cohen's d | 0.20 | 0.50 | 0.80 | | r (순위 이연상관) | 0.10 | 0.30 | 0.50 |

두 검정을 모두 실행해야 하는 경우

다음과 같은 상황에서는 두 검정을 모두 보고하는 것이 유용합니다.

가정 충족 여부가 경계선인 경우
논문 심사자가 두 가지 결과를 모두 요구하는 경우
두 검정의 결론이 일치하면 결과의 강건성(robustness)을 보여줄 수 있음

두 검정의 결론이 다른 경우에는, 데이터 특성(이상치 유무, 분포 형태)을 면밀히 검토하고 가정에 더 적합한 검정의 결과를 주로 보고합니다.

자주 묻는 질문 (FAQ)

Q1: t-검정의 정규성 가정이 위반되면 결과가 완전히 무효인가요?

아닙니다. t-검정은 정규성 위반에 대해 상당히 **강건(robust)**합니다. 특히 표본 크기가 클수록(집단당 30 이상) 중심극한정리에 의해 정규성 위반의 영향이 줄어듭니다. 다만 소표본에서 심한 비정규성(강한 편향이나 극단적 이상치)이 있으면 결과가 왜곡될 수 있습니다.

Q2: Welch의 t-검정과 Student의 t-검정 중 어느 것을 사용해야 하나요?

현대 통계학에서는 Welch의 t-검정을 기본으로 사용하는 것을 권장합니다. Welch 검정은 등분산 가정이 충족될 때도 Student t-검정과 거의 동일한 결과를 내면서, 등분산이 위반될 때도 정확한 결과를 제공합니다.

Q3: 표본 크기가 두 집단에서 다르면 어떤 검정이 더 좋은가요?

표본 크기가 크게 다른 경우(예: n1 = 50, n2 = 10), t-검정은 분산이 큰 집단의 표본이 작을 때 왜곡될 수 있습니다. Mann-Whitney U는 표본 크기 불균형에 상대적으로 덜 민감합니다. Welch의 t-검정도 좋은 대안입니다.

Q4: 리커트 5점 척도 데이터에는 어떤 검정을 사용하나요?

리커트 5점 척도는 엄밀히 서열 척도이므로 Mann-Whitney U가 이론적으로 적합합니다. 그러나 실무에서는 리커트 척도를 연속형으로 간주하고 t-검정을 적용하는 연구자도 많습니다. 보수적으로 접근하거나, 척도의 범위가 좁다면(5점) Mann-Whitney U를 사용하세요.

Q5: 두 검정의 p 값이 서로 크게 다르면 어떻게 해야 하나요?

p 값이 크게 다르면 대부분 데이터에 이상치, 심한 비대칭, 또는 분산 차이 등의 문제가 있습니다. 이 경우 원시 데이터를 다시 검토하고, 어떤 검정의 가정에 더 부합하는지 판단한 후 해당 검정의 결과를 주로 보고합니다.

Q6: 단측검정(one-tailed)을 사용할 수 있나요?

두 검정 모두 단측검정과 양측검정이 가능합니다. 단, 단측검정은 방향에 대한 사전 가설이 명확할 때만 사용해야 합니다. 데이터를 본 후에 방향을 결정하는 것은 적절하지 않습니다.

직접 해보기

StatMate에서 두 검정을 모두 직접 실행해볼 수 있습니다.

독립표본 t-검정 계산기 — 평균 비교, Cohen's d, 신뢰구간
Mann-Whitney U 계산기 — 순위 비교, 효과크기 r, APA 보고

동일한 데이터로 두 검정의 결과를 비교하면서, 어떤 상황에서 결론이 달라지는지 직접 확인해보세요.