Is Mann-Whitney U the same as the Wilcoxon rank-sum test?

Yes. The Mann-Whitney U test and the Wilcoxon rank-sum test are mathematically equivalent — they produce identical p-values and test the same null hypothesis. The naming difference is historical. Do not confuse the Wilcoxon rank-sum test (for independent groups) with the Wilcoxon signed-rank test (for paired samples).

Should I report one-tailed or two-tailed p-values for Mann-Whitney U?

Use two-tailed p-values unless you specified a directional hypothesis before data collection. APA 7th edition recommends two-tailed tests as the default. If you use a one-tailed test, state this explicitly and justify why a directional prediction was warranted.

What is the minimum sample size for a Mann-Whitney U test?

The test can be performed with as few as 4 observations per group, but power will be very low. For adequate power (80%) to detect a medium effect (r = .30), aim for at least 20-30 observations per group. Use an a priori power analysis to determine the sample size needed for your specific research context.

Can I report both means and medians alongside the Mann-Whitney U result?

You may report means for additional context, but the primary descriptive statistics must be medians and interquartile ranges. If you include means, clarify that the Mann-Whitney U test does not evaluate mean differences and that the means are provided for descriptive completeness only.

How do I handle ties when reporting Mann-Whitney U results?

Most statistical software applies a tie correction to the z-score automatically. If ties are extensive (more than 15-20% of observations), mention the correction in your report. For small samples with many ties, prefer exact p-values over the asymptotic approximation, as ties affect the accuracy of the normal approximation more than the exact permutation distribution.

Mann-Whitney U検定をAPA第7版で報告する方法 — 効果量・Z得点・報告例

Mann-Whitney U検定が重要な理由

Mann-Whitney U検定は、対応のないt検定の最も広く使用されるノンパラメトリック代替法です。Henry B. MannとDonald R. Whitney（1947）にちなんで名づけられたこの検定は、2つの独立群の一方が他方よりも大きな値を産出する傾向があるかどうかを、データが正規分布に従うという仮定なしに評価します。

これが重要な理由は3つあります。第一に、実際の研究データはパラメトリック検定が要求する正規性の仮定に頻繁に違反します。患者満足度評定、痛みの重症度スコア、行動頻度のカウント、リッカート尺度の項目は、t検定が仮定する対称的なベル型の分布を産出することが稀です。第二に、社会科学、教育、健康研究の多くの結果変数は、平均値と標準偏差が意味を持たない順序尺度で測定されています。第三に、小規模な臨床研究やパイロット実験は、中心極限定理がパラメトリック手法を救済するのに必要なサンプルサイズに達しないことが多いです。

Mann-Whitney U検定は、分析前に生データを順位に変換することで、これらすべての状況に対処します。群の平均値を比較する代わりに、一方の群の観測値が他方の群の観測値よりも系統的に大きいか小さいかを検定します。この順位ベースのアプローチにより、検定は外れ値、歪んだ分布、非等間隔測定尺度に対して頑健になります。

その人気にもかかわらず、Mann-Whitney U検定は出版された研究で最も頻繁に誤って報告される統計量の一つです。よくあるエラーには、中央値ではなく平均値の報告、効果量の省略、Wilcoxon符号順位検定との混同、正確p値と漸近p値のどちらを使用したかの明記忘れなどがあります。本ガイドでは、ステップバイステップの手順とコピー＆ペースト可能な例を用いた、APA第7版形式でのMann-Whitney U検定結果の決定版テンプレートを提供します。

Mann-Whitney U検定と対応のないt検定の使い分け

非正規分布

Shapiro-Wilk検定で p < .05が得られるか、Q-Qプロットが正規性からの実質的な逸脱を示す場合、Mann-Whitney U検定が適切な選択です。t検定は各群内の分布がほぼ正規であることを仮定しています。

よくある誤解は、t検定が非正規性に「頑健」であるというものです。サンプルサイズが大きく等しい場合（各群 n > 30）には非正規性の中程度の逸脱の影響は限定的ですが、重度の歪度、重い裾、床/天井効果はサンプルサイズに関係なく結果を歪める可能性があります。

順序データ

従属変数がリッカート項目（1-5の同意尺度）、痛みの重症度評定（なし/軽度/中等度/重度）、教育達成度などの順序尺度で測定されている場合、Mann-Whitney U検定が正しい選択です。

小さいサンプルで歪んだ分布

群のサイズが小さく（各群 n < 15-20）、分布の形状が不明または明らかに非正規の場合、Mann-Whitney U検定はt検定よりも信頼性の高い推論を提供します。

判断フローチャート

従属変数は順序ですか？ はい → Mann-Whitney U
従属変数は連続ですか？ ステップ3へ進む
Shapiro-Wilk検定がいずれかの群で非正規性を示しますか（p < .05）？ はい → Mann-Whitney U
正当化も除外もできない重度の外れ値がありますか？ はい → Mann-Whitney U
各群の n < 15で分布形状が不明ですか？ はい → Mann-Whitney U
上記のいずれにも該当しない？ → 対応のないt検定（より高い統計的検出力）

Mann-Whitney Uの基本APA形式

APA第7版は、すべての推測統計検定に検定統計量、自由度またはサンプル情報、p値、効果量の測定を含めることを要求しています。Mann-Whitney U検定の標準的な報告テンプレートは以下の通りです：

U = X, z = X.XX, p = .XXX, r = .XX

各要素の役割：

U：順位和に基づく検定統計量
z：標準化z得点 — 効果量の計算に必要
p：p値 — 小数点以下3桁、非常に小さい値には p < .001
r：効果量 — 通常は順位双列相関または r = z / sqrt(N)

検定統計量に加えて、平均値と標準偏差ではなく中央値（Mdn）と四分位範囲（IQR）を用いた記述統計量を常に報告してください。

Mann-Whitney Uの報告：ステップバイステップ

研究シナリオ

研究者がマインドフルネスに基づく介入が入院患者の満足度を改善するかどうかを調査します。満足度質問票は7件法のリッカート尺度を使用します。15名の患者がマインドフルネス介入（処置群）を受け、15名が標準的なケア（対照群）を受けました。満足度は順序尺度で測定され小標本であるため、研究者はMann-Whitney U検定を選択しました。

ステップ1：中央値とIQRによる記述統計量の報告

| 群 | n | Mdn | IQR | |----|-----|-------|-----| | マインドフルネス | 15 | 6.00 | 5.00-7.00 | | 標準ケア | 15 | 4.00 | 3.00-5.00 |

マインドフルネス群の患者はより高い満足度を報告した（Mdn = 6.00, IQR = 5.00-7.00）。標準ケア群との比較（Mdn = 4.00, IQR = 3.00-5.00）。

ステップ2：有意な結果の報告

Mann-Whitney U検定により、マインドフルネス群（Mdn = 6.00）の患者満足度は標準ケア群（Mdn = 4.00）よりも有意に高いことが示された, U = 42.50, z = -3.12, p = .002, r_rb = .62.

ステップ3：非有意な結果の報告

Mann-Whitney U検定により、マインドフルネス群（Mdn = 5.00）と標準ケア群（Mdn = 4.00）の間で患者満足度に統計的に有意な差は認められなかった, U = 89.00, z = -1.21, p = .226, r_rb = .21. 小さい効果量は、マインドフルネス介入が満足度において意味のある差を産出しなかったことを示唆している。

完全な記述

結果

マインドフルネス介入群（n = 15）と標準ケア群（n = 15）の間で患者満足度評定をMann-Whitney U検定を用いて比較した。Shapiro-Wilk検定により、標準ケア群の満足度評定は正規性から有意に逸脱していることが示され（W = 0.88, p = .047）、ノンパラメトリック検定の使用が正当化された。マインドフルネス群は標準ケア群よりも有意に高い満足度を報告した（Mdn = 6.00, IQR = 5.00-7.00 vs. Mdn = 4.00, IQR = 3.00-5.00）, U = 42.50, z = -3.12, p = .002, r_rb = .62. 大きい効果量は、2群間の満足度における実質的な差を示している。

効果量：順位双列相関

APA第7版は、すべての推測統計検定に効果量を伴うことを要求しています。Mann-Whitney U検定では、順位双列相関（r_rb）が推奨される指標です。

算出方法

順位双列相関はU統計量から直接計算されます：

r_rb = 1 - (2U) / (n₁ × n₂)

この式は-1から+1の値を産出します。正の値は群1がより大きな値を産出する傾向があることを示し、負の値は群2がより大きな値を産出する傾向があることを示します。

z得点を用いた代替計算：

r = z / sqrt(N)

ここで N は両群を合わせた総サンプルサイズです。

解釈の基準

| r_rb | 解釈 | 実践的意味 | |-------------------|------|----------| | .10 | 小さい効果 | 群間の実践的差異が最小限 | | .30 | 中程度の効果 | 実践的に意味のある目立つ差 | | .50 | 大きい効果 | 明確な実践的有意性を持つ実質的な差 |

本例では、r_rb = .62は.50の閾値を超え、大きい効果を示しています。

確率的解釈

順位双列相関は共通言語効果量（CLES）に変換することもできます：

CLES = (r_rb + 1) / 2

r_rb = .62の場合、CLES = .81であり、マインドフルネス群からランダムに選ばれた患者が標準ケア群からランダムに選ばれた患者よりも高い満足度を報告する確率が81%であることを意味します。

正確p値と漸近p値

正確p値を使用する場合

正確p値は、帰無仮説のもとでの順位割り当てのすべての可能な順列を列挙して計算されます。以下の場合に使用してください：

小標本（各群 n < 20）
多くの同順位値
保守的な報告が重要な場合

An exact Mann-Whitney U test indicated that scores differed significantly between groups, U = 18.00, exact p = .014, r_rb = .52.

漸近p値を使用する場合

漸近p値は、正確な順列分布への近似として正規分布（z得点）を使用します。以下の場合に使用してください：

大標本（各群 n >= 20）

U = 156.50, z = -3.24, p = .001, r = .46

よくある間違いと回避方法

間違い1：中央値ではなく平均値を報告する

Mann-Whitney U検定報告で最も多いエラーです。検定が順位で操作するため、中央値が適切な中心傾向の指標であり、四分位範囲が適切な散布度の指標です。

不正確：

処置群（M = 5.67, SD = 1.45）は対照群（M = 3.89, SD = 1.72）よりも高い得点であった

正確：

処置群（Mdn = 6.00, IQR = 5.00-7.00）は対照群（Mdn = 4.00, IQR = 3.00-5.00）よりも高い得点であった

間違い2：効果量を報告しない

APA第7版では、U と p のみの報告は不完全です。すべての推測統計検定には効果量の測定を伴う必要があります。

間違い3：t検定が適切な場合にMann-Whitneyを使用する

データが連続でほぼ正規分布し群間で類似の分散を持つ場合、対応のないt検定の方が高い統計的検出力を持ちます。常に検定の選択を正当化してください。

間違い4：Mann-Whitney UとWilcoxon符号順位検定を混同する

| 検定 | デザイン | パラメトリック等価法 | |------|--------|-----------------| | Mann-Whitney U | 2つの独立した群 | 対応のないt検定 | | Wilcoxon符号順位 | 対応のある/反復測定 | 対応のあるt検定 |

間違い5：Z得点を省略する

U統計量だけでは、その大きさがサンプルサイズに依存するため、解釈が困難です。z得点はUを標準化し、効果量 r の算出に必要です。

間違い6：正確か漸近かを明記しない

小標本では、正確p値と漸近p値は意味のある差を生じる可能性があります。読者がどちらを報告しているかを知る必要があります。

APA表形式

複数のMann-Whitney U比較を報告する場合、APA形式の表がインラインテキストよりも効率的です：

表1

処置条件別の患者アウトカムに対するMann-Whitney U検定結果

| アウトカム | マインドフルネス Mdn (IQR) | 標準ケア Mdn (IQR) | U | z | p | r_rb | |----------|---------------------------|---------------------|-----|-----|-----|-------------------| | 満足度 (1-7) | 6.00 (5.00-7.00) | 4.00 (3.00-5.00) | 42.50 | -3.12 | .002 | .62 | | 痛み (0-10) | 3.00 (2.00-4.00) | 5.00 (3.00-7.00) | 51.00 | -2.78 | .005 | .55 | | 不安 (0-10) | 4.00 (3.00-6.00) | 5.00 (3.50-6.50) | 92.00 | -0.98 | .329 | .18 |

注. N = 30（各群15名）。効果量は順位双列相関。有意性は両側。

よくある質問

Mann-Whitney UはWilcoxon順位和検定と同じですか？

はい。Mann-Whitney U検定とWilcoxon順位和検定は数学的に等価であり、同一のp値を産出し、同じ帰無仮説を検定します。名称の違いは歴史的なものです。Wilcoxon順位和検定（独立群用）とWilcoxon符号順位検定（対応のある標本用）を混同しないでください。

片側と両側のどちらのp値を報告すべきですか？

データ収集前に方向性のある仮説を指定しない限り、両側p値を使用してください。APA第7版はデフォルトとして両側検定を推奨しています。

Mann-Whitney U検定の最小サンプルサイズは？

各群4観測で検定を実施できますが、検出力は非常に低くなります。中程度の効果（r = .30）を検出するための十分な検出力（80%）には、各群少なくとも20〜30の観測を目標にしてください。

同順位はどう扱いますか？

ほとんどの統計ソフトウェアはz得点に同順位修正を自動的に適用します。同順位が広範（観測値の15〜20%以上）な場合、報告に修正を記載してください。小標本で多くの同順位がある場合、漸近近似よりも正確p値を推奨します。

StatMateの無料Mann-Whitney U検定計算ツール

Mann-Whitney U検定計算ツールで、APA第7版報告に必要なすべての要素を計算できます：

自動同順位修正付きのU統計量
正確p値と漸近p値の両方
解釈付きの順位双列相関効果量
各群の中央値と四分位範囲
コピー可能なAPA結果文

データを入力してクリックするだけで、フォーマット済みの結果を原稿に直接コピーできます。計算ツールは2群の視覚的比較のための出版品質のボックスプロットも生成します。