Is Mann-Whitney U the same as the Wilcoxon rank-sum test?

Yes. The Mann-Whitney U test and the Wilcoxon rank-sum test are mathematically equivalent — they produce identical p-values and test the same null hypothesis. The naming difference is historical. Do not confuse the Wilcoxon rank-sum test (for independent groups) with the Wilcoxon signed-rank test (for paired samples).

Should I report one-tailed or two-tailed p-values for Mann-Whitney U?

Use two-tailed p-values unless you specified a directional hypothesis before data collection. APA 7th edition recommends two-tailed tests as the default. If you use a one-tailed test, state this explicitly and justify why a directional prediction was warranted.

What is the minimum sample size for a Mann-Whitney U test?

The test can be performed with as few as 4 observations per group, but power will be very low. For adequate power (80%) to detect a medium effect (r = .30), aim for at least 20-30 observations per group. Use an a priori power analysis to determine the sample size needed for your specific research context.

Can I report both means and medians alongside the Mann-Whitney U result?

You may report means for additional context, but the primary descriptive statistics must be medians and interquartile ranges. If you include means, clarify that the Mann-Whitney U test does not evaluate mean differences and that the means are provided for descriptive completeness only.

How do I handle ties when reporting Mann-Whitney U results?

Most statistical software applies a tie correction to the z-score automatically. If ties are extensive (more than 15-20% of observations), mention the correction in your report. For small samples with many ties, prefer exact p-values over the asymptotic approximation, as ties affect the accuracy of the normal approximation more than the exact permutation distribution.

Mann-Whitney U 검정 APA 7판 보고법 — 효과크기, Z-점수 & 예시

Mann-Whitney U 검정이 중요한 이유

Mann-Whitney U 검정은 독립표본 t-검정의 가장 널리 사용되는 비모수적 대안입니다. Henry B. Mann과 Donald R. Whitney(1947)의 이름을 딴 이 검정은, 데이터가 정규분포를 따른다는 가정 없이, 두 독립 집단 중 하나가 다른 집단보다 더 큰 값을 산출하는 경향이 있는지를 평가합니다.

이것이 중요한 세 가지 실질적 이유가 있습니다. 첫째, 실제 연구 데이터는 모수적 검정이 요구하는 정규성 가정을 자주 위반합니다. 환자 만족도 평정, 통증 심각도 점수, 행동 빈도 횟수, 리커트 척도 문항은 t-검정이 가정하는 대칭적 종형 분포를 거의 산출하지 않습니다. 둘째, 사회과학, 교육학, 보건 연구의 많은 결과변수는 평균과 표준편차가 의미 없는 서열 척도로 측정됩니다. 셋째, 소규모 임상연구와 파일럿 실험은 중심극한정리가 모수적 접근을 구제하기에 충분한 표본 크기가 부족한 경우가 많습니다.

Mann-Whitney U 검정은 원시 데이터를 순위로 변환한 후 분석하여 이 모든 상황을 처리합니다. 집단 평균을 비교하는 대신, 한 집단의 관측값이 다른 집단의 관측값보다 체계적으로 더 크거나 작은지를 검정합니다. 이 순위 기반 접근은 이상치, 편포된 분포, 비등간 측정 척도에 강건합니다.

인기에도 불구하고, Mann-Whitney U 검정은 출판된 연구에서 가장 자주 잘못 보고되는 통계량 중 하나입니다. 흔한 오류로는 중앙값 대신 평균 보고, 효과크기 누락, Wilcoxon 부호순위 검정과의 혼동, 정확 p값과 근사 p값의 미구분 등이 있습니다. 이 가이드는 Mann-Whitney U 검정 결과를 APA 7판 형식으로 보고하기 위한 완전한 템플릿을 제공합니다.

Mann-Whitney U vs 독립표본 t-검정: 선택 기준

비정규 분포

Shapiro-Wilk 검정에서 p < .05이거나 Q-Q 도표에서 정규성으로부터의 상당한 이탈이 나타나면, Mann-Whitney U 검정이 적절한 선택입니다. t-검정은 각 집단 내에서 대략적으로 정규적인 분포를 가정합니다. 이 가정이 위반되면(특히 편포 또는 다봉 분포에서) t-검정은 오도적 p값과 증가된 제1종 오류율을 산출할 수 있습니다.

흔한 오해는 t-검정이 비정규성에 "강건하다"는 것입니다. 표본이 크고 균등할 때(n > 30) 중등도의 정규성 이탈은 제한적 영향을 미치지만, 심각한 편포, 무거운 꼬리, 바닥/천장 효과는 표본 크기와 관계없이 결과를 왜곡할 수 있습니다.

서열 데이터

종속변수가 서열 척도로 측정된 경우 — 리커트 문항(1-5 동의 척도), 통증 심각도 평정(없음/경증/중등도/중증), 교육 수준 등 — Mann-Whitney U 검정이 올바른 선택입니다. 서열 데이터에서는 척도 점간 간격이 동일하다고 보장되지 않으므로 평균과 표준편차가 의미 없습니다. Mann-Whitney U 검정은 전적으로 순위로 작동하므로, 의미 있게 순서화할 수 있는 모든 데이터에 적합합니다.

편포 분포를 가진 소표본

집단 크기가 작고(집단당 n < 15-20) 분포 형태가 알려지지 않았거나 명확히 비정규적이면, Mann-Whitney U 검정이 t-검정보다 더 신뢰할 수 있는 추론을 제공합니다. 소표본에서는 정규성을 통계적으로 검증하기 어렵고(Shapiro-Wilk 검정의 검정력이 낮음), 단일 이상치가 평균에 극적으로 영향을 미쳐 표준오차를 부풀릴 수 있습니다.

결정 순서도

두 검정 중 선택하기 위한 결정 과정:

종속변수가 서열인가? 예 → Mann-Whitney U
종속변수가 연속인가? 3단계로 진행.
Shapiro-Wilk 검정이 한쪽 집단이라도 비정규성(p < .05)을 나타내는가? 예 → Mann-Whitney U
정당화하거나 제거할 수 없는 심각한 이상치가 있는가? 예 → Mann-Whitney U
분포 형태를 모르는 상태에서 집단당 n < 15인가? 예 → Mann-Whitney U
위의 어느 것도 해당하지 않는가? → 독립표본 t-검정(더 높은 통계적 검정력)

가정이 충족되면 t-검정의 통계적 검정력이 더 높습니다. 정규분포 데이터에서 Mann-Whitney U의 점근적 상대 효율은 약 0.955이므로, 동일한 검정력을 달성하려면 약 5% 더 많은 관측값이 필요합니다. 그러나 분포가 편포되거나 이상치로 오염되면 Mann-Whitney U가 상당히 더 높은 검정력을 가질 수 있습니다.

Mann-Whitney U의 기본 APA 형식

APA 7판은 모든 추론적 검정에 검정 통계량, 자유도 또는 표본 정보, p값, 효과크기 측정치를 포함하도록 요구합니다. Mann-Whitney U 검정의 표준 보고 템플릿:

U = X, z = X.XX, p = .XXX, r = .XX

각 구성요소의 역할:

U: Mann-Whitney U 통계량 — 순위합에 기반한 핵심 검정 통계량
z: 표준화 z-점수 — 효과크기 계산에 필요하며 표준 정규 척도에서 해석 가능
p: 확률 값 — 소수점 이하 세 자리까지 보고하거나, 매우 작은 값은 p < .001
r: 효과크기 — 일반적으로 순위이연상관 또는 r = z / sqrt(N)

검정 통계량 외에, 항상 중앙값(Mdn)과 사분위범위(IQR)를 사용한 기술통계를 보고하십시오. 평균과 표준편차가 아닙니다. Mann-Whitney U 검정은 평균이 아닌 순위 분포를 평가하므로, 중앙값이 적절한 중심 경향 측정치입니다.

Mann-Whitney U 보고: 단계별 안내

연구 시나리오

연구자가 마음챙김 기반 중재가 입원 환자의 만족도를 향상시키는지 조사합니다. 만족도 설문은 7점 리커트 척도(1 = 매우 불만족 ~ 7 = 매우 만족)를 사용합니다. 15명의 환자가 마음챙김 중재(치료군)를, 15명이 표준 치료(대조군)를 받았습니다. 만족도가 서열 척도로 측정되고 소표본이므로, 연구자는 Mann-Whitney U 검정을 선택합니다.

1단계: 중앙값과 IQR을 포함한 기술통계 보고

추론적 결과 전에 항상 집단별 기술통계를 제시합니다. Mann-Whitney U 검정에서는 중앙값과 사분위범위를 보고합니다:

| 집단 | n | Mdn | IQR | |------|-----|-------|-----| | 마음챙김 | 15 | 6.00 | 5.00-7.00 | | 표준 치료 | 15 | 4.00 | 3.00-5.00 |

본문에서:

마음챙김 집단 환자가 표준 치료 집단에 비해 더 높은 만족도를 보고하였다(Mdn = 6.00, IQR = 5.00-7.00 vs. Mdn = 4.00, IQR = 3.00-5.00).

2단계: 유의한 결과 보고

Mann-Whitney U 검정 결과, 마음챙김 집단(Mdn = 6.00)의 환자 만족도가 표준 치료 집단(Mdn = 4.00)보다 유의하게 높은 것으로 나타났다, U = 42.50, z = -3.12, p = .002, r_rb = .62.

3단계: 비유의한 결과 보고

동일한 연구에서 비유의한 결과가 나왔다면:

Mann-Whitney U 검정 결과, 마음챙김 집단(Mdn = 5.00)과 표준 치료 집단(Mdn = 4.00) 간 환자 만족도에 통계적으로 유의한 차이가 나타나지 않았다, U = 89.00, z = -1.21, p = .226, r_rb = .21. 작은 효과크기는 마음챙김 중재가 만족도에 의미 있는 차이를 산출하지 않았음을 시사한다.

완전한 작성 예시

결과

마음챙김 중재 집단(n = 15)과 표준 치료 집단(n = 15) 간 환자 만족도 평정을 Mann-Whitney U 검정으로 비교하였다. Shapiro-Wilk 검정 결과, 표준 치료 집단에서 만족도 평정이 정규성으로부터 유의하게 이탈한 것으로 나타나(W = 0.88, p = .047), 비모수 검정의 사용이 정당화되었다. 마음챙김 집단(Mdn = 6.00, IQR = 5.00-7.00)이 표준 치료 집단(Mdn = 4.00, IQR = 3.00-5.00)보다 유의하게 높은 만족도를 보고하였다, U = 42.50, z = -3.12, p = .002, r_rb = .62. 큰 효과크기는 두 집단 간 만족도에 상당한 차이가 있음을 나타낸다.

효과크기: 순위이연상관

APA 7판은 모든 추론적 검정에 효과크기를 요구합니다. Mann-Whitney U 검정의 경우, 순위이연상관(r_rb)이 직접적이고 직관적인 해석을 가지므로 선호됩니다.

계산

순위이연상관은 U 통계량에서 직접 계산됩니다:

r_rb = 1 - (2U) / (n₁ × n₂)

이 공식은 -1에서 +1 사이의 값을 산출합니다. 양수 값은 집단 1이 더 큰 값을 산출하는 경향을, 음수 값은 집단 2가 더 큰 값을 산출하는 경향을 나타냅니다. 크기는 두 순위 분포 간의 분리 정도를 알려줍니다.

z-점수를 사용한 대안적 계산:

r = z / sqrt(N)

여기서 N은 양 집단의 전체 표본 크기입니다. 이 방법은 z-점수만 가용할 때 더 간단하지만, 동률 순위가 있을 때 r_rb와 약간 다를 수 있습니다.

해석 기준

순위이연상관은 Cohen(1988)에서 적용한 표준 효과크기 기준을 따릅니다:

| r_rb | 해석 | 실질적 의미 | |-------------------|------|-----------| | .10 | 작은 효과 | 집단 간 실질적 차이 최소 | | .30 | 중간 효과 | 실질적으로 의미 있을 수 있는 눈에 띄는 차이 | | .50 | 큰 효과 | 명확한 실질적 유의성을 가진 상당한 차이 |

예시에서 r_rb = .62는 .50 기준을 초과하여 큰 효과를 나타냅니다.

확률적 해석

순위이연상관은 확률적 해석도 가능합니다. 공통 언어 효과크기(CLES)로 변환할 수 있으며, 이는 한 집단에서 무선적으로 선택된 관측값이 다른 집단의 관측값을 초과할 확률을 나타냅니다:

CLES = (r_rb + 1) / 2

r_rb = .62의 경우, CLES = .81이므로, 마음챙김 집단에서 무선적으로 선택된 환자가 표준 치료 집단에서 무선적으로 선택된 환자보다 더 높은 만족도를 보고할 확률이 81%입니다.

효과크기의 신뢰구간

APA 7판은 가용한 경우 신뢰구간 보고를 권장합니다. 순위이연상관의 신뢰구간은 부트스트랩으로 계산할 수 있습니다:

U = 42.50, z = -3.12, p = .002, r_rb = .62, 95% CI [.28, .82]

신뢰구간을 포함하면 효과크기 추정의 정밀도를 전달하고 독자가 진정한 효과의 그럴듯한 범위를 평가할 수 있습니다.

정확 vs 근사 p값

Mann-Whitney U 검정의 통계 소프트웨어는 일반적으로 두 가지 유형의 p값을 제공하며, 올바른 것을 선택하는 것이 정확한 보고에 중요합니다.

정확 p값 사용 시기

정확 p값은 귀무가설 하에서 순위 배정의 모든 가능한 순열을 열거하여 계산됩니다. 관찰된 것만큼(또는 그 이상) 극단적인 U 통계량을 관찰할 실제 확률을 분포적 근사 없이 제공합니다.

다음과 같은 경우 정확 p값을 사용합니다:

소표본(집단당 n < 20): 정규 근사가 소표본에서 신뢰할 수 없습니다. 정확 p값이 이 범위에서 금본위입니다.
많은 동률 값: 동률이 광범위하면 중간 크기의 표본에서도 근사가 부정확할 수 있습니다.
보수적 보고가 중요한 경우: 임상시험, 규제 제출, 제1종 오류 통제가 중요한 연구.

정확 p값을 명시적으로 보고합니다:

정확 Mann-Whitney U 검정 결과, 집단 간 점수에 유의한 차이가 나타났다, U = 18.00, 정확 p = .014, r_rb = .52.

근사 p값 사용 시기

근사 p값은 정규분포(z-점수)를 정확 순열 분포에 대한 근사로 사용합니다. 이 근사는 표본 크기가 증가할수록 개선됩니다.

다음과 같은 경우 근사 p값을 사용합니다:

대표본(집단당 n >= 20): 정규 근사가 매우 정확하며 정확 계산이 불필요합니다.
계산적 제약: 매우 큰 표본의 정확 p값은 계산적으로 집약적일 수 있지만, 현대 소프트웨어는 이를 잘 처리합니다.

근사 p값의 경우 항상 z-점수를 보고합니다:

U = 156.50, z = -3.24, p = .001, r = .46

흔한 실수와 주의사항

실수 1: 중앙값 대신 평균 보고

Mann-Whitney U 보고에서 가장 만연한 오류는 평균과 표준편차를 기술통계로 제시하는 것입니다. Mann-Whitney U 검정은 순위로 작동하므로, 중앙값이 적절한 중심 경향 측정치이고 사분위범위가 적절한 산포 측정치입니다.

부적절:

치료군(M = 5.67, SD = 1.45)이 대조군(M = 3.89, SD = 1.72)보다 높은 점수를 보였다, U = 42.50, p = .002.

적절:

치료군(Mdn = 6.00, IQR = 5.00-7.00)이 대조군(Mdn = 4.00, IQR = 3.00-5.00)보다 높은 점수를 보였다, U = 42.50, z = -3.12, p = .002, r_rb = .62.

추가적 맥락을 위해 중앙값과 함께 평균을 보고할 수 있지만, Mann-Whitney U 검정이 평균 차이가 아닌 순위 분포를 평가한다는 점을 항상 명확히 하십시오.

실수 2: 효과크기 미보고

효과크기 없이 U와 p만 보고하는 것은 APA 7판에서 불완전합니다. 모든 추론적 검정에는 효과크기 측정치가 수반되어야 합니다.

불완전: U = 42.50, z = -3.12, p = .002 완전: U = 42.50, z = -3.12, p = .002, r_rb = .62

실수 3: t-검정이 적절한데 Mann-Whitney U 사용

일부 연구자는 분포적 가정을 피하는 것이 항상 더 좋다고 생각하여 비모수 검정을 "안전한" 선택으로 기본 사용합니다. 이는 부정확합니다. 데이터가 연속적이고, 대략 정규분포이며, 집단 간 분산이 유사한 경우, 독립표본 t-검정이 더 높은 통계적 검정력을 가집니다. 불필요하게 Mann-Whitney U 검정을 사용하면 실제 효과를 검출할 검정력을 약 5% 포기합니다.

항상 검정 선택을 정당화하십시오:

Shapiro-Wilk 검정 결과, 대조군에서 유의한 비정규성이 나타났다, W = 0.84, p = .003. 따라서 독립표본 t-검정 대신 Mann-Whitney U 검정을 사용하였다.

실수 4: Mann-Whitney U와 Wilcoxon 부호순위 혼동

Mann-Whitney U 검정과 Wilcoxon 부호순위 검정은 모두 비모수적이지만, 완전히 다른 연구 설계에 사용됩니다:

| 검정 | 설계 | 모수적 대안 | |------|------|-----------| | Mann-Whitney U | 두 독립 집단 | 독립표본 t-검정 | | Wilcoxon 부호순위 | 대응/반복 측정 | 대응표본 t-검정 |

각 집단에 다른 참가자가 있으면(피험자 간) Mann-Whitney U를 사용합니다. 동일한 참가자가 두 번 측정되거나 관측값이 자연적으로 대응되면(피험자 내) Wilcoxon 부호순위 검정을 사용합니다.

실수 5: Z-점수 누락

U 통계량만으로는 해석이 어렵습니다. 그 크기가 표본 크기에 따라 달라지기 때문입니다. 집단당 n = 10일 때의 U = 150은 집단당 n = 50일 때와 완전히 다른 의미를 가집니다. z-점수는 U를 표준화하며 효과크기 r을 계산하는 데 필요합니다. 보고에 항상 U와 z 모두를 포함하십시오.

실수 6: 정확 vs 근사 미명시

소표본에서는 정확 p값과 근사 p값이 의미 있게 다를 수 있습니다. 독자는 유의성 검정의 정확도를 평가하기 위해 어떤 것을 보고하는지 알아야 합니다. 정확 p값을 사용할 때는 이를 명시적으로 기술하십시오(예: "정확 p = .023"). 근사 p값의 경우 z-점수를 포함하면 이를 암시적으로 알리지만, 명시적으로 밝히는 것이 더 좋은 관행입니다.

실수 7: 분포 형태에 대한 가정 무시

Mann-Whitney U 검정은 정규성을 가정하지 않지만, 결과를 중앙값 차이로 해석하려면 양 집단의 분포 형태가 유사해야 합니다. 분포의 형태가 다른 경우(예: 하나는 우편포이고 다른 하나는 대칭), 검정은 중앙값 차이가 아닌 확률적 우세를 평가합니다. 이 경우 중앙값 대신 평균 순위를 보고하거나, 분포적 차이를 보고에 언급하십시오.

APA 표 형식

여러 Mann-Whitney U 비교나 여러 결과변수를 보고할 때, APA 형식의 표가 본문 내 기술보다 효율적입니다:

표 1

치료 조건별 환자 결과에 대한 Mann-Whitney U 검정 결과

| 결과 | 마음챙김 Mdn (IQR) | 표준 치료 Mdn (IQR) | U | z | p | r_rb | |------|---------------------|---------------------|-----|-----|-----|-------------------| | 만족도 (1-7) | 6.00 (5.00-7.00) | 4.00 (3.00-5.00) | 42.50 | -3.12 | .002 | .62 | | 통증 (0-10) | 3.00 (2.00-4.00) | 5.00 (3.00-7.00) | 51.00 | -2.78 | .005 | .55 | | 불안 (0-10) | 4.00 (3.00-6.00) | 5.00 (3.50-6.50) | 92.00 | -0.98 | .329 | .18 |

주. N = 30 (집단당 15명). 효과크기는 순위이연상관. 유의성은 양측.

계산의 정확성

U 통계량, z-점수, 정확 p값, 효과크기를 올바르게 구하려면 — 특히 동률 순위와 소표본에서 — 세심한 계산이 필요합니다. 수작업 계산은 번거롭고 오류가 발생하기 쉽습니다.

무료 Mann-Whitney U 검정 계산기가 APA 7판 보고에 필요한 모든 구성요소를 계산합니다:

자동 동률 보정이 적용된 U 통계량
정확 및 근사 p값 모두
해석이 포함된 순위이연상관 효과크기
각 집단의 중앙값과 사분위범위
복사 가능한 APA 결과 문장

데이터를 입력하고 계산을 클릭한 후 서식화된 결과를 논문에 바로 복사하십시오. 계산기는 두 집단의 시각적 비교를 위한 출판 품질의 상자 도표도 생성합니다.

자주 묻는 질문

Mann-Whitney U와 Wilcoxon 순위합 검정은 같은 건가요?

네. Mann-Whitney U 검정과 Wilcoxon 순위합 검정은 수학적으로 동등합니다 — 동일한 p값을 산출하고 동일한 귀무가설을 검정합니다. 명칭의 차이는 역사적인 것입니다. Wilcoxon 순위합 검정(독립 집단용)과 Wilcoxon 부호순위 검정(대응표본용)을 혼동하지 마십시오.

단측 또는 양측 p값을 보고해야 하나요?

데이터 수집 전에 방향적 가설을 명시하지 않았다면 양측 p값을 사용하십시오. APA 7판은 기본으로 양측 검정을 권장합니다. 단측 검정을 사용하는 경우, 방향적 예측이 정당화되는 이유를 명시적으로 밝히십시오.

Mann-Whitney U 검정의 최소 표본 크기는 얼마인가요?

집단당 4개 관측값으로도 검정을 수행할 수 있지만, 검정력이 매우 낮습니다. 중간 효과(r = .30)를 검출하기 위한 적절한 검정력(80%)을 위해, 집단당 최소 20-30개 관측값을 목표로 하십시오. 사전 검정력 분석으로 특정 연구 맥락에 필요한 표본 크기를 결정하십시오.

Mann-Whitney U 결과와 함께 평균과 중앙값을 모두 보고할 수 있나요?

추가적 맥락을 위해 평균을 보고할 수 있지만, 주요 기술통계는 반드시 중앙값과 사분위범위여야 합니다. 평균을 포함하는 경우, Mann-Whitney U 검정이 평균 차이를 평가하지 않으며 평균은 기술적 완전성을 위해 제공된다는 점을 명확히 하십시오.

동률이 있을 때 Mann-Whitney U 결과를 어떻게 처리하나요?

대부분의 통계 소프트웨어가 z-점수에 동률 보정을 자동으로 적용합니다. 동률이 광범위한 경우(관측값의 15-20% 이상), 보고에서 보정을 언급하십시오: "동률 보정이 적용된 Mann-Whitney U 검정을 사용하였다." 동률이 많은 소표본의 경우, 동률이 정규 근사의 정확도에 더 많은 영향을 미치므로 근사보다 정확 p값을 선호하십시오.

직접 데이터로 시도해 보세요

Mann-Whitney U 검정 결과를 완벽한 APA 7판 형식으로 보고할 준비가 되셨나요? 무료 Mann-Whitney U 검정 계산기로 U 통계량, z-점수, 효과크기를 계산하고 복사-붙여넣기 APA 문장을 받으십시오 — 수작업 계산이 필요 없습니다.