본문으로 건너뛰기
S
StatMate
블로그 목록
사용 가이드18 min read2026-02-19

Mann-Whitney U 검정 실행 방법 — 단계별 가이드

Mann-Whitney U 검정을 처음부터 끝까지 수행하는 방법을 알아봅니다. 순위 산출, U-통계량 계산, 효과 크기 산출, 결과 해석까지 실제 예제와 함께 단계별로 설명합니다.

소개

Mann-Whitney U 검정(Wilcoxon 순위합 검정이라고도 함)은 두 독립 집단의 분포가 통계적으로 유의하게 다른지를 검정하는 비모수(nonparametric) 통계 기법입니다. 독립표본 t-검정의 비모수 대안으로, 데이터가 정규분포를 따르지 않거나, 서열 척도이거나, 이상치가 있을 때 사용합니다.

독립표본 t-검정이 두 집단의 평균을 비교하는 것과 달리, Mann-Whitney U 검정은 데이터를 순위로 변환하여 두 집단의 순위 분포를 비교합니다. 따라서 정규분포 가정이 필요 없으며, 극단적인 이상치에 영향을 덜 받습니다.

이 가이드에서는 Mann-Whitney U 검정의 모든 단계를 실제 예제와 함께 상세히 안내합니다. StatMate의 Mann-Whitney U 검정 계산기를 활용하면 데이터를 입력하는 것만으로 U-통계량, p-값, 효과 크기를 자동으로 얻을 수 있습니다.

Mann-Whitney U 검정을 사용해야 하는 상황

다음 중 하나 이상에 해당하면 독립표본 t-검정 대신 Mann-Whitney U 검정을 사용합니다.

| 상황 | 설명 | |------|------| | 정규성 위반 | Shapiro-Wilk 검정에서 p < .05이고 표본이 작을 때 | | 서열 척도 데이터 | 리커트 척도, 만족도 등급 등 | | 이상치 존재 | 극단값이 결과를 왜곡할 우려가 있을 때 | | 소표본 | 각 집단 15명 미만으로 정규성 확인이 어려울 때 | | 비대칭 분포 | 심하게 치우친 분포 |

t-검정과 Mann-Whitney의 비교

| 기준 | 독립표본 t-검정 | Mann-Whitney U | |------|---------------|---------------| | 분포 가정 | 정규분포 필요 | 분포 가정 없음 | | 비교 대상 | 평균 | 순위 (중앙값) | | 데이터 유형 | 연속형 (등간/비율) | 연속형 또는 서열형 | | 이상치 민감도 | 민감 | 강건 | | 검정력 (정규 시) | 높음 | 약간 낮음 (약 95%) |

데이터가 정규분포를 따르면 t-검정이 더 검정력이 높습니다. 하지만 정규성이 위반되면 Mann-Whitney가 더 정확한 결과를 줍니다.

1단계: 연구 가설 설정

가설 구성

  • 귀무가설(H₀): 두 집단의 모집단 분포는 동일하다. (두 집단에서 무작위로 뽑은 관측치가 다른 집단의 관측치보다 클 확률이 50%이다.)
  • 대립가설(H₁): 두 집단의 모집단 분포는 동일하지 않다. [양측 검정]

Mann-Whitney 검정의 가설은 엄밀히 말하면 "두 집단의 분포가 같다"이지만, 실무에서는 흔히 두 집단의 중앙값 비교로 해석합니다. 이 해석이 정확하려면 두 집단의 분포 형태(모양)가 유사해야 합니다.

2단계: 가정 검증

Mann-Whitney U 검정은 비모수 검정이지만 다음 조건은 필요합니다.

| 가정 | 설명 | 검증 방법 | |------|------|----------| | 독립 표본 | 두 집단이 서로 독립 | 연구 설계 확인 | | 독립 관측 | 각 관측치가 독립 | 연구 설계 확인 | | 서열 이상의 측정 | 최소 서열 척도 | 변수 유형 확인 | | 유사한 분포 형태 | 중앙값 비교 시 필요 | 히스토그램, 상자그림 |

마지막 가정에 대해: 두 집단의 분포 모양이 다르면(예: 한 집단은 대칭, 다른 집단은 비대칭) Mann-Whitney 결과를 "중앙값의 차이"로 해석할 수 없고, "한 집단의 값이 다른 집단보다 확률적으로 큰 경향"이라고 해석해야 합니다.

3단계: 예제 데이터 준비

새로운 진통제(실험군)와 위약(대조군)의 통증 감소 효과를 비교하는 임상 연구입니다. 통증 감소 점수(0~10)를 측정했습니다.

실험군 (진통제, n₁ = 10)

| 참가자 | 통증 감소 점수 | |--------|-------------| | 1 | 7 | | 2 | 5 | | 3 | 8 | | 4 | 6 | | 5 | 9 | | 6 | 4 | | 7 | 7 | | 8 | 8 | | 9 | 6 | | 10 | 5 |

대조군 (위약, n₂ = 10)

| 참가자 | 통증 감소 점수 | |--------|-------------| | 1 | 3 | | 2 | 4 | | 3 | 2 | | 4 | 5 | | 5 | 3 | | 6 | 1 | | 7 | 4 | | 8 | 2 | | 9 | 3 | | 10 | 5 |

기술통계량

| 집단 | N | 중앙값 | 평균 | 표준편차 | 최솟값 | 최댓값 | |------|---|--------|------|---------|--------|--------| | 실험군 | 10 | 6.5 | 6.50 | 1.58 | 4 | 9 | | 대조군 | 10 | 3.0 | 3.20 | 1.23 | 1 | 5 |

4단계: 순위 산출

Mann-Whitney 검정은 두 집단의 데이터를 합친 후 전체 순위를 매깁니다.

전체 데이터 순위 매기기

모든 관측값을 오름차순으로 정렬하고 순위를 부여합니다. 동일한 값(동순위)에는 평균 순위를 부여합니다.

| 순위 | 값 | 집단 | 비고 | |------|---|------|------| | 1 | 1 | 대조군 | | | 2.5 | 2 | 대조군 | 동순위 (2개) | | 2.5 | 2 | 대조군 | 동순위 (2개) | | 5 | 3 | 대조군 | 동순위 (3개) | | 5 | 3 | 대조군 | 동순위 (3개) | | 5 | 3 | 대조군 | 동순위 (3개) | | 8 | 4 | 실험군 | 동순위 (3개) | | 8 | 4 | 대조군 | 동순위 (3개) | | 8 | 4 | 대조군 | 동순위 (3개) | | 11 | 5 | 실험군 | 동순위 (4개) | | 11 | 5 | 실험군 | 동순위 (4개) | | 11 | 5 | 대조군 | 동순위 (4개) | | 11 | 5 | 대조군 | 동순위 (4개) | | 14.5 | 6 | 실험군 | 동순위 (2개) | | 14.5 | 6 | 실험군 | 동순위 (2개) | | 17 | 7 | 실험군 | 동순위 (2개) | | 17 | 7 | 실험군 | 동순위 (2개) | | 18.5 | 8 | 실험군 | 동순위 (2개) | | 18.5 | 8 | 실험군 | 동순위 (2개) | | 20 | 9 | 실험군 | |

순위합 계산

  • 실험군 순위합 (R₁): 8 + 11 + 11 + 14.5 + 14.5 + 17 + 17 + 18.5 + 18.5 + 20 = 150.0
  • 대조군 순위합 (R₂): 1 + 2.5 + 2.5 + 5 + 5 + 5 + 8 + 8 + 11 + 11 = 59.0

검증: R₁ + R₂ = 150.0 + 59.0 = 209.0 (N(N+1)/2 = 20×21/2 = 210과 근사 일치)

5단계: U-통계량 계산

U-통계량 공식

U₁ = n₁n₂ + n₁(n₁+1)/2 − R₁

U₂ = n₁n₂ + n₂(n₂+1)/2 − R₂

계산

U₁ = 10 × 10 + 10 × 11/2 − 150.0 = 100 + 55 − 150.0 = 5.0

U₂ = 10 × 10 + 10 × 11/2 − 59.0 = 100 + 55 − 59.0 = 96.0

검증: U₁ + U₂ = 5.0 + 96.0 = 101 (약간의 반올림 차이는 동순위 처리로 발생)

U = min(U₁, U₂) = 5.0

U-통계량의 의미

U₁ = 5.0은 대조군의 각 관측치가 실험군의 관측치보다 큰 횟수입니다. U₂ = 96.0은 실험군의 각 관측치가 대조군보다 큰 횟수입니다. 실험군이 대조군보다 통증 감소가 훨씬 크다는 것을 나타냅니다.

6단계: 유의성 검정

정규 근사 (대표본)

표본이 충분히 크면(각 집단 > 20) Z-근사를 사용합니다.

기대값: μU = n₁n₂/2 = 100/2 = 50

표준편차: σU = √(n₁n₂(n₁+n₂+1)/12) = √(10×10×21/12) = √175 = 13.23

Z = (U − μU) / σU = (5.0 − 50) / 13.23 = −45.0 / 13.23 = −3.40

p-값

Z = −3.40에 대한 양측 p-값은 p < .001입니다.

소표본에서는 정확 검정(exact test)을 사용하는 것이 더 정확합니다. StatMate는 정확 검정과 정규 근사 모두를 제공합니다.

7단계: 효과 크기 계산

순위-이직렬 상관 (r)

비모수 검정에서 효과 크기는 주로 r = Z/√N을 사용합니다.

r = Z / √N = −3.40 / √20 = −3.40 / 4.47 = −0.761

효과 크기 해석 기준

| |r| 값 | 효과 크기 | |---------|----------| | .10 | 작은 효과 | | .30 | 중간 효과 | | .50 이상 | 큰 효과 |

r = −.761은 큰 효과에 해당합니다.

공통언어 효과 크기 (CLES)

Common Language Effect Size는 보다 직관적인 해석을 제공합니다.

CLES = U₂ / (n₁ × n₂) = 96.0 / (10 × 10) = 0.96 (96%)

해석: 실험군에서 무작위로 한 명, 대조군에서 무작위로 한 명을 뽑았을 때, 실험군 참가자의 통증 감소가 더 클 확률이 96%입니다.

결과 해석 방법

APA 형식 보고

Mann-Whitney U 검정 결과, 실험군(진통제)의 통증 감소 점수(Mdn = 6.50)가 대조군(위약)의 통증 감소 점수(Mdn = 3.00)보다 통계적으로 유의하게 높았다, U = 5.0, Z = −3.40, p < .001, r = −.761. 이는 큰 효과 크기에 해당한다.

결과 해석의 핵심 요소

  1. U-통계량: U = 5.0 — 대조군 값이 실험군보다 큰 쌍의 수가 5쌍에 불과
  2. Z-값과 p-값: Z = −3.40, p < .001 — 두 집단의 차이가 통계적으로 유의
  3. 효과 크기: r = −.761 — 큰 효과
  4. 중앙값 비교: 실험군 Mdn = 6.50, 대조군 Mdn = 3.00

비유의적 결과인 경우

Mann-Whitney U 검정 결과, 실험군(Mdn = 4.50)과 대조군(Mdn = 4.00)의 통증 감소 점수에 통계적으로 유의한 차이가 관찰되지 않았다, U = 42.0, Z = −0.57, p = .572, r = −.127. 진통제와 위약 간 통증 감소 효과의 차이는 통계적으로 유의하지 않았다.

동순위 처리

실제 데이터에서는 동일한 값(동순위, ties)이 빈번하게 발생합니다.

동순위 처리 방법

| 상황 | 처리 방법 | 예시 | |------|----------|------| | 2개의 동일값 | 평균 순위 부여 | 순위 3, 4 → 둘 다 3.5 | | 3개의 동일값 | 평균 순위 부여 | 순위 5, 6, 7 → 모두 6.0 | | 많은 동순위 | 연속성 보정 적용 | Z-검정 시 보정항 추가 |

동순위가 많으면 Z-검정의 표준오차에 보정항을 적용합니다. StatMate의 Mann-Whitney U 검정 계산기는 동순위 보정을 자동으로 처리합니다.

StatMate로 Mann-Whitney U 검정 실행하기

StatMate의 Mann-Whitney U 검정 계산기를 사용하면 간편하게 분석할 수 있습니다.

  1. Mann-Whitney U 검정 계산기 페이지에 접속합니다.
  2. 두 집단의 이름을 입력합니다.
  3. 각 집단의 데이터를 입력합니다 (쉼표, 공백, 또는 줄바꿈으로 구분).
  4. 계산 버튼을 클릭합니다.
  5. U-통계량, Z-값, p-값, 효과 크기를 확인합니다.
  6. 순위 분포를 시각적으로 확인하는 상자그림도 자동으로 제공됩니다.
  7. APA 형식 결과를 복사하거나 PDF로 내보낼 수 있습니다.

t-검정 대신 Mann-Whitney를 선택하는 의사결정 흐름

다음 순서로 판단합니다.

  1. 종속변수가 서열 척도인가? → 예: Mann-Whitney 사용
  2. 표본 크기가 각 집단 30명 이상인가? → 예: t-검정 사용 가능 (중심극한정리)
  3. 정규성 검정을 통과하는가? → 예: t-검정, 아니오: Mann-Whitney
  4. 심한 이상치가 있는가? → 예: Mann-Whitney, 아니오: t-검정
  5. 등분산이 위반되는가? → Welch t-검정 또는 Mann-Whitney

자주 묻는 질문 (FAQ)

Mann-Whitney U 검정과 Wilcoxon 순위합 검정은 같은 건가요?

네, 동일한 검정입니다. Mann-Whitney U 검정은 U-통계량을 사용하고, Wilcoxon 순위합 검정은 순위합(W)을 사용하지만 수학적으로 같은 결과를 산출합니다. 다만, Wilcoxon 부호순위 검정(대응표본용)과는 다른 검정이므로 혼동하지 마세요.

표본 크기가 다른 두 집단에도 사용할 수 있나요?

네, Mann-Whitney U 검정은 두 집단의 표본 크기가 다를 때도 정상적으로 작동합니다. 이는 t-검정과 마찬가지입니다. 다만 검정력은 두 집단의 크기가 비슷할 때 가장 높습니다.

정규분포를 따르는 데이터에 Mann-Whitney를 쓰면 안 되나요?

사용할 수 있지만, 정규분포를 따르는 데이터에서는 t-검정이 약 5% 더 높은 검정력을 가집니다. 따라서 정규성이 확인되면 t-검정이 더 효율적입니다. Mann-Whitney는 정규성이 위반될 때 최적의 선택입니다.

세 집단 이상을 비교하려면 어떻게 하나요?

Mann-Whitney는 두 집단만 비교할 수 있습니다. 세 집단 이상의 비모수 비교에는 Kruskal-Wallis H 검정을 사용합니다. Kruskal-Wallis가 유의하면 사후 검정으로 Dunn 검정을 실시하여 구체적인 쌍별 차이를 확인합니다.

효과 크기 r과 Cohen's d는 어떻게 변환하나요?

비모수 검정의 r과 모수 검정의 d는 다음 공식으로 근사 변환할 수 있습니다.

d = 2r / √(1 − r²)

이 예제에서: d = 2 × 0.761 / √(1 − 0.579) = 1.522 / 0.649 = 2.345

이는 매우 큰 효과에 해당합니다.

단측 검정은 언제 사용하나요?

이론적으로 한 집단이 반드시 다른 집단보다 크거나 작을 것이라는 명확한 근거가 있을 때 단측 검정을 사용합니다. 예를 들어, "진통제는 위약보다 반드시 효과가 좋을 것"이라는 선행 연구 근거가 충분하면 단측 검정이 정당합니다. 단측 검정의 p-값은 양측의 절반이므로 검정력이 높아지지만, 반대 방향의 차이를 탐지할 수 없습니다.

지금 바로 계산해 보세요

StatMate의 무료 통계 계산기로 데이터를 분석하고 APA 형식 결과를 받아보세요.

계산기 시작하기

통계 분석 팁 받아보기

매주 통계 분석 팁, APA 형식 가이드, 새 계산기 업데이트를 받아보세요.

스팸 없음. 언제든 구독 취소 가능.