What is the difference between the Wilcoxon signed-rank test and the Wilcoxon rank-sum test?

The Wilcoxon signed-rank test is for paired (related) samples, such as pre-test and post-test measurements from the same participants. The Wilcoxon rank-sum test (also called the Mann-Whitney U test) is for two independent groups. Despite sharing the Wilcoxon name, they test different hypotheses: the signed-rank test evaluates whether the median of paired differences is zero, while the rank-sum test evaluates whether one group tends to have larger values than the other.

Can I use the Wilcoxon signed-rank test with Likert scale data?

Yes. The Wilcoxon signed-rank test is appropriate for ordinal data, including individual Likert-type items. Because it operates on ranks rather than raw values, it does not require the equal-interval assumption that the paired t-test needs. However, if you have a composite scale computed from multiple Likert items (which approximates a continuous distribution), a paired t-test may be acceptable if differences are approximately normal.

What sample size do I need for the Wilcoxon signed-rank test?

There is no strict minimum, but at least 5-6 pairs are needed for the exact test to produce a significant result at alpha = .05. For adequate power to detect a medium effect (r = .30), aim for at least 25-30 pairs. The Z approximation becomes reliable with approximately 20 or more pairs. Always conduct a power analysis for your specific effect size and desired power level.

Should I report the exact or asymptotic p-value?

For small samples (fewer than approximately 20-25 pairs), report the exact p-value because the normal approximation may not be accurate. For larger samples, the asymptotic (Z-based) p-value is acceptable and is what most software outputs by default. If your software provides both, report the exact value for small samples and note which method was used.

How do I handle zero differences (ties with zero)?

Pairs with zero differences contribute no information about the direction of change and are excluded from the analysis by most software. Report the number of excluded pairs. The effective sample size for computing the effect size should reflect the number of non-zero pairs, though practices vary across sources.

Can I use the Wilcoxon test for more than two time points?

Not directly. The Wilcoxon signed-rank test compares exactly two related conditions. For three or more time points, use the Friedman test as the omnibus test, followed by pairwise Wilcoxon signed-rank tests with Bonferroni correction as post-hoc comparisons. Alternatively, conduct pairwise comparisons directly with an adjusted significance level.

What is the Hodges-Lehmann estimator and should I report it?

The Hodges-Lehmann estimator is the nonparametric equivalent of the mean difference. For paired data, it equals the median of all Walsh averages of the difference scores. Reporting it with a confidence interval is recommended because it provides a robust point estimate of the typical shift between conditions, supplementing the median difference and effect size with a measure of precision.

Is the Wilcoxon test assumption-free?

No. While the Wilcoxon signed-rank test does not assume normality of differences, it does assume that the paired differences are independent of each other, the differences are measured on at least an ordinal scale, and the distribution of differences is symmetric around the median (though this assumption is debated and the test is fairly robust to mild asymmetry). Violations of independence are more problematic than violations of symmetry.

Wilcoxon 부호순위 검정 APA 7판 보고법 — 효과크기 & 예시

Wilcoxon 부호순위 검정의 올바른 보고가 중요한 이유

Wilcoxon 부호순위 검정은 대응표본 t-검정의 가장 널리 사용되는 비모수적 대안입니다. Frank Wilcoxon이 1945년에 개발한 이 검정은, 두 관련 측정값 간의 차이 분포가 영 주위에 대칭인지를 평가하며, 그 차이가 정규분포를 따를 것을 요구하지 않습니다.

임상시험, 교육적 중재, 행동 연구에서 널리 채택되었음에도, Wilcoxon 부호순위 검정은 출판된 문헌에서 가장 비일관적으로 보고되는 통계량 중 하나입니다. 흔한 오류로는 중앙값 대신 평균 보고, 효과크기 완전 누락, 부호순위 검정과 순위합 검정의 혼동, 정확 p값과 근사 p값의 미구분 등이 있습니다.

APA 7판은 모든 추론적 검정에 검정 통계량, p값, 효과크기 측정치를 포함하도록 요구합니다. Wilcoxon 부호순위 검정에서 이 요건을 충족하려면 여러 표기 관례, 정확 방법과 근사 방법의 선택, 적절한 효과크기 계산을 이해해야 합니다. 이 가이드는 모든 구성요소에 대한 완전한 템플릿을 제공합니다.

StatMate의 Wilcoxon 부호순위 계산기로 직접 시도해 보십시오.

Wilcoxon vs. 대응표본 t-검정: 선택 기준

대응표본 t-검정은 대응 관측값 간의 차이가 정규분포를 따른다고 가정합니다. 이 가정이 위배되면 Wilcoxon 부호순위 검정이 올바른 대안입니다. 다음 중 하나에 해당하면 사용합니다:

서열 종속변수. 리커트형 문항, 통증 심각도 순위, 만족도 평정 등 서열 척도. 서열 데이터에서는 평균이 의미 없습니다.
비정규 대응 차이. Shapiro-Wilk 검정에서 차이 점수가 p < .05이거나, Q-Q 도표에서 무거운 꼬리, 편포, 이상치가 드러나는 경우.
소규모 표본. 20-25쌍 미만이면 중심극한정리가 평균 차이의 표집분포를 충분히 정규화하지 못할 수 있습니다.
바닥 또는 천장 효과. 점수가 측정 범위의 극단에 집중되어 분포를 왜곡하는 경우.

완전한 정규성 하에서 대응표본 t-검정이 약간 더 높은 검정력을 가지며, 점근적 상대 효율은 약 95.5%입니다. 그러나 정규성이 위반되면 Wilcoxon이 이상치나 편포에 의해 왜곡되지 않으므로 t-검정을 종종 능가합니다.

APA 정당화 템플릿

Wilcoxon 검정을 선택할 때 결과 섹션에서 선택을 간단히 정당화합니다:

Wilcoxon 부호순위 검정은 Shapiro-Wilk 검정에서 대응 차이의 분포가 정규성으로부터 유의하게 이탈한 것으로 나타나(W = 0.89, p = .003), 히스토그램의 시각적 검사에서 양의 편포와 두 개의 극단적 이상치가 나타났기 때문에 사용하였다.

| 결정 요인 | 대응표본 t-검정 | Wilcoxon | |----------|---------------|---------| | 차이가 정규분포 | 적합 | -- | | 차이가 편포/무거운 꼬리 | -- | 적합 | | 서열 측정 척도 | -- | 적합 | | 연속 등간/비율 척도 | 적합 | -- | | 차이에 이상치 존재 | -- | 적합 | | 표본 > 30쌍, 경미한 비정규 | 적합(강건) | 둘 다 가능 | | 표본 < 20쌍, 정규성 불확실 | -- | 적합 |

검정 통계량: T, W, Z 이해하기

Wilcoxon 보고에서 가장 혼란스러운 측면 중 하나는 소프트웨어와 교과서에 따른 비일관적 표기입니다.

T(또는 W): 부호순위의 합

| 기호 | 관례 | 사용처 | |------|------|--------| | T | 양의(또는 작은) 순위합 | 많은 통계 교과서 | | W | 부호순위의 합 | R(wilcox.test), 일부 교과서 | | T+ | 특정적으로 양의 순위합 | Siegel & Castellan 표기 |

소표본(일반적으로 n < 20)의 경우, Wilcoxon 분포에서 정확 p값을 계산할 수 있으므로 정확 검정 통계량 T(또는 W)를 보고합니다.

Z: 표준화 근사

대표본의 경우 소프트웨어가 순위합을 정규 근사를 사용하여 Z 통계량으로 변환합니다. 이 Z가 출판된 연구에서 가장 흔히 보고되는 통계량입니다.

APA 보고 템플릿

소표본(정확 검정)

Wilcoxon 부호순위 검정 결과, 중재 후 점수(Mdn = 4.50)가 중재 전 점수(Mdn = 3.00)보다 유의하게 높은 것으로 나타났다, T = 45, p = .012, r = .48.

대표본(Z 근사)

Wilcoxon 부호순위 검정 결과, 기저선(Mdn = 7.00, IQR = 5.00-8.00)에서 추적(Mdn = 4.00, IQR = 3.00-6.00)으로의 통증 평정에 통계적으로 유의한 변화가 나타났다, Z = -3.41, p < .001, r = .54.

필수 구성요소 체크리스트

모든 Wilcoxon APA 보고에 포함되어야 할 것:

첫 번째 언급 시 전체 검정 명칭(Wilcoxon 부호순위 검정).
기술통계: 각 조건의 중앙값과 사분위범위(평균이 아님).
검정 통계량: 표본 크기와 소프트웨어에 따라 T, W, 또는 Z.
정확한 p값(또는 매우 작은 값의 경우 p < .001).
효과크기: 순위이연상관(r).
차이의 방향을 명시적으로 기술.

효과크기: 순위이연상관(r)

p값만 보고하면 차이가 통계적으로 유의한지만 알 수 있고, 실질적으로 의미 있는지는 알 수 없습니다. Wilcoxon 부호순위 검정의 표준 효과크기는 순위이연상관으로 r로 표기합니다.

방법 1: Z 통계량에서

가장 널리 사용되는 공식:

r = Z / sqrt(N)

여기서 N은 대응 관측값의 총 수입니다.

예시: Z = -3.41이고 N = 40쌍인 경우:

r = |-3.41| / sqrt(40) = 3.41 / 6.32 = 0.54

방법 2: 순위합에서

Z가 가용하지 않을 때:

r = (R+ - R-) / (R+ + R-)

*R+*는 양의 차이에 대한 순위합, *R-*는 음의 차이에 대한 순위합입니다.

효과크기 해석

Cohen의 관례적 기준:

| r 값 | 해석 | |--------|------| | .10 | 작은 효과 | | .30 | 중간 효과 | | .50 | 큰 효과 |

항상 맥락에서 효과크기를 해석하십시오. 임상 연구에서 r = .20은 임상적으로 의미 있는 변화를 나타낼 수 있습니다. 교육 연구에서 r = .40은 강력한 중재 효과일 수 있습니다.

단계별 보고 예시: 사전-사후 중재(N = 20)

시나리오

건강심리학자가 6주간 인지행동치료 불면증 프로그램(CBT-I) 전후 20명 환자의 수면의 질(1-10 서열 척도)을 측정합니다.

1단계: 기술통계

중재 전 수면의 질의 중앙값은 4.00(IQR = 3.00-5.00), 중재 후 중앙값은 7.00(IQR = 5.75-8.00)이었다.

2단계: 비모수 선택 정당화

수면의 질이 서열 척도로 측정되었고 Shapiro-Wilk 검정에서 대응 차이의 분포가 정규성으로부터 유의하게 이탈한 것으로 나타나(W = 0.88, p = .021), 대응표본 t 검정 대신 Wilcoxon 부호순위 검정을 사용하였다.

3단계: 검정 결과

Wilcoxon 부호순위 검정 결과, CBT-I 후 수면의 질 점수(Mdn = 7.00, IQR = 5.75-8.00)가 기저선(Mdn = 4.00, IQR = 3.00-5.00)에 비해 유의하게 높은 것으로 나타났다, Z = -3.72, p < .001, r = .83. 이는 큰 효과를 나타낸다.

4단계: 맥락적 세부사항 추가

20명의 참가자 중 17명이 수면의 질 점수의 증가를, 2명이 감소를, 1명이 변화 없음을 보였다. 큰 효과크기(r = .83)는 CBT-I가 자기 보고 수면의 질에 상당한 개선을 가져왔음을 나타낸다.

완전한 APA 문단

6주간 CBT-I 프로그램이 자기 보고 수면의 질에 미치는 효과를 평가하기 위해 Wilcoxon 부호순위 검정을 사용하였다(N = 20). 수면의 질이 서열 척도로 측정되었고 대응 차이가 정규분포를 따르지 않았으므로(Shapiro-Wilk W = 0.88, p = .021) 비모수 검정을 선택하였다. 중재 전 수면의 질의 중앙값은 4.00(IQR = 3.00-5.00), 중재 후 중앙값은 7.00(IQR = 5.75-8.00)이었다. Wilcoxon 부호순위 검정 결과, 수면의 질에 통계적으로 유의한 개선이 나타났다, Z = -3.72, p < .001, r = .83. 20명의 참가자 중 17명이 개선, 2명이 감소, 1명이 변화 없음을 보였다. 효과크기는 중재의 큰 실질적 효과를 나타낸다.

비유의한 결과 보고

비유의한 결과도 동일한 수준의 세부사항으로 보고합니다:

훈련 워크숍 전(Mdn = 5.00, IQR = 4.00-6.00)과 후(Mdn = 5.00, IQR = 4.00-7.00)의 자기효능감 평정을 비교하기 위해 Wilcoxon 부호순위 검정을 실시하였다. 검정 결과, 통계적으로 유의한 변화가 나타나지 않았다, Z = -1.34, p = .180, r = .21. 작은 효과크기는 워크숍이 참가자의 자기효능감 신념에 최소한의 영향을 미쳤음을 시사한다.

핵심 원칙:

정확한 p값을 보고합니다("p = n.s."나 "p > .05"로 쓰지 않음).
효과크기를 여전히 포함하고 해석합니다.
관찰된 추세의 방향을 기술합니다.
중재가 "효과가 없었다"는 언어를 피합니다. 검정이 유의한 효과를 검출하지 못했다고 기술합니다.

정확 vs. 근사 p값: 사용 시기

소표본(일반적으로 n < 20-25쌍)의 경우 정규 근사가 정확하지 않을 수 있으므로 정확 p값을 보고합니다. 대표본의 경우 근사(Z 기반) p값이 적합합니다.

소표본(정확 검정):

T = 12, p_정확 = .023

대표본(Z 근사):

Z = -2.87, p = .004

소프트웨어가 두 값을 모두 제공하면, 소표본에는 정확 값을 사용하고 방법을 명시합니다:

소표본(N = 15)으로 인해 정확 유의성을 사용한 Wilcoxon 부호순위 검정을 실시하였다.

신뢰구간: Hodges-Lehmann 추정량

APA 7판은 점점 더 신뢰구간을 권장합니다. Wilcoxon 검정에서 관련 신뢰구간은 평균 차이의 비모수적 유사체인 Hodges-Lehmann 추정량 주위에 구성됩니다.

APA에서의 신뢰구간 보고

Wilcoxon 부호순위 검정 결과, 기저선(Mdn = 7.00)에서 치료 후(Mdn = 4.00)로의 통증 점수에 통계적으로 유의한 감소가 나타났다, Z = -3.41, p < .001, r = .54. 중앙값 차이의 Hodges-Lehmann 추정량은 -2.50, 95% CI [-3.50, -1.75]였다.

동률과 영 차이 처리

대응 차이가 영인 경우, 이 관측값은 일반적으로 분석에서 제외되어 유효 표본 크기가 줄어듭니다. 동률 수를 보고합니다:

40쌍 중 3쌍이 영 차이를 보여 제외되었으며, 분석에 37쌍이 포함되었다.

여러 쌍이 동일한 비영 절대 차이를 공유하면 평균 순위가 부여됩니다. 동률이 광범위한 경우(관측값의 15-20% 이상) 이를 언급합니다:

비영 차이의 22%에서 동률 순위가 나타났다. 분석은 동률 관측값에 평균 순위를 사용하고 Z 근사에 연속성 보정을 적용하였다.

Wilcoxon 보고의 흔한 실수

1. 중앙값 대신 평균 보고

가장 빈번한 오류입니다. Wilcoxon 검정은 순위로 작동하므로, 중앙값과 IQR이 적절한 기술통계입니다.

2. 부호순위와 순위합 혼동

Wilcoxon 부호순위 검정은 대응 표본용입니다. Wilcoxon 순위합 검정(Mann-Whitney U)은 독립 집단용입니다. 첫 번째 언급 시 항상 전체 명칭을 명시합니다.

3. 잘못된 효과크기 계산

r = Z/sqrt(N) 계산 시 쌍의 수(N = 30) 대신 총 개인 수(N = 60)를 사용하는 오류.
순위이연상관 r 대신 Cohen's d 보고.
크기를 해석할 때 Z의 절대값을 사용하지 않는 오류.

4. 동률과 영 차이 무시

영 차이 제외 쌍을 보고하고 동률이 광범위한 경우 인정합니다.

5. 정확 vs 근사 구분 누락

소표본(n < 20-25)에는 정확 p값을, 대표본에는 Z 기반 근사 p값을 사용합니다. 항상 사용한 방법을 명시합니다.

6. 효과크기 누락

APA 7판은 모든 추론적 검정에 효과크기를 요구합니다. 순위이연상관 r이 Wilcoxon 부호순위 검정의 표준 측정치입니다.

Wilcoxon APA 체크리스트

논문 제출 전, Wilcoxon 결과 섹션에 다음이 포함되어 있는지 확인합니다:

첫 번째 언급 시 전체 검정 명칭(Wilcoxon 부호순위 검정)
표본 크기(N 또는 쌍의 수)
각 조건의 중앙값(평균이 아님)
각 조건의 사분위범위(IQR)
명확히 표시된 검정 통계량(T, W, 또는 Z)
정확한 p값(또는 p < .001)
효과크기: 순위이연상관(r)
효과크기 해석(작은, 중간, 큰)
차이의 방향을 명시적으로 기술
비모수 검정 선택의 정당화
동률이 많은 경우 다루기
Hodges-Lehmann 추정량에 대한 신뢰구간(해당되는 경우)
개선, 감소, 변화 없음을 보인 참가자 수

자주 묻는 질문

Wilcoxon 부호순위 검정과 Wilcoxon 순위합 검정의 차이는 무엇인가요?

Wilcoxon 부호순위 검정은 대응(관련) 표본용으로, 동일한 참가자의 사전-사후 측정 등입니다. Wilcoxon 순위합 검정(Mann-Whitney U 검정)은 두 독립 집단용입니다. 부호순위 검정은 대응 차이의 중앙값이 영인지를 평가하고, 순위합 검정은 한 집단이 더 큰 값을 가지는 경향이 있는지를 평가합니다.

리커트 척도 데이터에 Wilcoxon 부호순위 검정을 사용할 수 있나요?

네. Wilcoxon 부호순위 검정은 순위로 작동하므로 개별 리커트형 문항을 포함한 서열 데이터에 적합합니다. 다만, 여러 리커트 문항의 합성 척도가 연속 분포를 근사하는 경우, 차이가 대략 정규적이면 대응표본 t-검정도 허용될 수 있습니다.

Wilcoxon 부호순위 검정에 필요한 표본 크기는 얼마인가요?

정확 검정이 alpha = .05에서 유의한 결과를 산출하려면 최소 5-6쌍이 필요합니다. 중간 효과(r = .30)를 검출하기 위한 적절한 검정력을 위해 25-30쌍을 목표로 합니다. Z 근사는 약 20쌍 이상에서 신뢰할 수 있게 됩니다.

정확 p값과 근사 p값 중 어떤 것을 보고해야 하나요?

소표본(20-25쌍 미만)에는 정확 p값을, 대표본에는 근사 Z 기반 p값을 보고합니다. 소프트웨어가 두 값을 모두 제공하면 소표본에는 정확 값을 사용하고 방법을 명시합니다.

두 개 이상의 시점에 Wilcoxon 검정을 사용할 수 있나요?

직접적으로는 불가합니다. 세 개 이상의 관련 조건에는 Friedman 검정을 옴니버스 검정으로 사용하고, Bonferroni 보정을 적용한 쌍별 Wilcoxon 부호순위 검정을 사후 비교로 사용합니다.

Wilcoxon 검정은 가정이 없나요?

아닙니다. (1) 대응 차이가 서로 독립적이어야 하고, (2) 차이가 최소한 서열 척도로 측정되어야 하며, (3) 차이의 분포가 중앙값 주위에 대칭이어야 합니다. 경미한 비대칭에는 상당히 강건하지만, 독립성 위반은 문제가 됩니다.

StatMate의 무료 Wilcoxon 계산기

Wilcoxon 결과를 수작업으로 서식화하는 것은 번거롭고 오류가 발생하기 쉽습니다. StatMate의 Wilcoxon 부호순위 계산기가 전체 과정을 자동화합니다:

즉시 APA 출력. 대응 데이터를 입력하면 Z, p, r 값이 APA 7판 기준으로 서식화된 출판 준비 결과 문단을 받습니다.
자동 효과크기. 순위이연상관이 계산되고 해석됩니다.
가정 검토. 대응 차이에 대한 Shapiro-Wilk 정규성 검정과 명확한 합격/불합격 지표.
시각적 출력. 변화의 방향과 크기를 보여주는 대응 차이 차트.
원클릭 내보내기. 클립보드 복사, PDF 내보내기, APA 형식 Word 문서 생성(Pro).

찾아볼 공식도, 해독할 표기도, 재확인할 서식도 없습니다.

Wilcoxon 계산기 열기