パラメトリック検定の限界
t検定や分散分析(ANOVA)などのパラメトリック検定は、推測統計学の中核的な手法です。強力で、十分に理解されており、広く教育されています。しかし、これらは正規分布、間隔尺度または比率尺度、等分散性、観測値の独立性という一連の仮定に基づいています。データがこれらの仮定を1つ以上違反する場合、ノンパラメトリック検定は分布に関する仮定を最小限に抑えた頑健な代替手段を提供します。
本ガイドでは、ノンパラメトリック検定について研究者が知っておくべきすべてを網羅します:ノンパラメトリック検定が真に必要な場面、正しい検定の選び方、APA形式での結果報告法、そして最もよくある誤りの回避法まで。順序尺度の調査データを分析する場合、小標本を扱う場合、あるいは強い歪みのある分布を処理する場合のいずれにおいても、本ガイドが統計的アプローチに関する適切な意思決定の助けとなるでしょう。
ノンパラメトリック検定を使うべき場面
ノンパラメトリック検定の選択は軽率に下すべき判断ではなく、過度な慎重さからデフォルトの選択肢とすべきでもありません。重要な問いは、データが完全に正規分布しているかどうかではなく――現実のデータが完全に正規分布していることはありません――仮定の違反がパラメトリック検定の結果を無効にするほど深刻かどうかです。
ノンパラメトリック検定を選択する主な理由
1. 順序尺度データ。 従属変数がリッカート尺度、痛みの重症度評価、教育水準などの順序尺度で測定されている場合、回答カテゴリ間の間隔が必ずしも等しくないため、パラメトリック検定は不適切です。4点の評価が必ずしも2点の評価の2倍を意味するわけではありません。ノンパラメトリック検定は生の値ではなく順位に基づいて機能するため、順序データに適しています。
2. 正規性の深刻な違反。 パラメトリック検定は一般的に正規性からの中程度の逸脱に対して頑健ですが(特に大標本の場合)、強い歪み、重い裾、または多峰分布はp値と信頼区間を歪める可能性があります。Shapiro-Wilk検定と視覚的検査(ヒストグラム、Q-Qプロット)を併用して正規性を評価してください。分布が明らかに非正規で、データ変換(対数、平方根、逆数)でも問題が解決しない場合、ノンパラメトリック検定が妥当です。
3. 小標本。 1群あたりの観測数が15~20未満の場合、中心極限定理による保護効果は小さく、標本平均の標本分布が正規分布に近似しない可能性があります。このような場合、パラメトリック検定統計量の妥当性が疑問視され、ノンパラメトリック検定がより安全な代替手段を提供します。
4. 除外できない外れ値。 極端な値は平均と分散に不均衡な影響を与え、パラメトリック検定統計量を膨張または収縮させます。外れ値が測定誤差ではなく真正なデータポイントであり、正当に除外できない場合、順位に基づくノンパラメトリック検定はその影響に対してはるかに鈍感です。
5. 順位または選好データ。 参加者が項目を順位づけしたり、選好を判断したり、本質的に順序的なデータを生成する場合、ノンパラメトリック検定が自然な選択です。
意思決定基準:実用的チェックリスト
ノンパラメトリック検定をデフォルトにする前に、以下のチェックリストを確認してください:
- 従属変数は少なくとも間隔尺度か? そうでなければ(順序データ)、ノンパラメトリックを使用します。
- Shapiro-Wilk検定を実行します。p < .05か? その場合、視覚的に検査します。
- ヒストグラムとQ-Qプロットを確認します。正規性からの逸脱は深刻か?
- データ変換(対数、平方根)で分布を正規化できるか?
- 中心極限定理が適用されるほど標本サイズは十分か(1群あたりn > 30)?
- 平均に実質的な影響を与える極端な外れ値があるか?
複数の危険信号に「はい」と答え、変換が効果的でない場合は、ノンパラメトリック代替手段を使用してください。軽微な違反が1つだけ存在し、標本が合理的に大きい場合は、パラメトリック検定がまだ有効である可能性が高いです。
ノンパラメトリック検定対応表(完全版)
以下の表は、代表的なパラメトリック検定とそれに対応するノンパラメトリック検定、および適切な効果量を整理したものです:
| 研究デザイン | パラメトリック検定 | ノンパラメトリック代替 | 効果量 | |---|---|---|---| | 独立2群 | 対応のないt検定 | Mann-Whitney U検定 | r = Z / sqrt(N) | | 対応2群 | 対応のあるt検定 | Wilcoxon符号順位検定 | r = Z / sqrt(N) | | 独立3群以上 | 一元配置分散分析 | Kruskal-Wallis H検定 | eta-squared (H) | | 反復測定3条件以上 | 反復測定分散分析 | Friedman検定 | Kendall's W | | 二変量の関連(連続) | Pearson相関 (r) | Spearman順位相関 (rho) | rho自体 | | 2x2分割表(小標本) | カイ二乗検定 | Fisher正確確率検定 | オッズ比、phi |
これらの対応関係を理解することは、正しい検定を選択するために不可欠です。パラメトリック版とノンパラメトリック版は同じ研究上の問いに対処しますが、仮定と分析するデータの種類が異なります。
Mann-Whitney U検定
使用場面
Mann-Whitney U検定(Wilcoxon順位和検定とも呼ばれる)は、従属変数が順序的であるか、連続変数が正規性の仮定に深刻に違反する場合に、2つの独立した群を比較します。順位分布を比較して、一方の群がもう一方より大きな値を持つ傾向があるかを検定します。
仮定
一般に「仮定がない」と表現されますが、Mann-Whitney U検定にも仮定はあります:
- 観測値は群間および群内で独立でなければなりません。
- 従属変数は少なくとも順序尺度でなければなりません。
- 2群の分布は同じ形状を持つ必要があります(中央値の比較として解釈するためには)。形状が異なる場合、検定は中心傾向ではなく確率的優位を比較します。
APA報告形式
Mann-Whitney U検定の標準的なAPA形式は以下の通りです:
Mann-Whitney U検定の結果、実験群の満足度スコア(Mdn = 4.50)は統制群(Mdn = 3.00)よりも有意に高かった, U = 45.00, z = -2.52, p = .012, r = .38。
含めるべき主要な要素:
- 各群の中央値(および四分位範囲)、平均ではない
- U統計量
- z近似(特に大標本の場合)
- 正確なp値
- 効果量、一般的にr = Z / sqrt(N)
効果量の解釈
Mann-Whitney U検定の効果量rは、Pearsonのrと同じ基準に従います:
| r値 | 解釈 | |---|---| | .10 | 小さい効果 | | .30 | 中程度の効果 | | .50 | 大きい効果 |
z統計量を総標本サイズの平方根で割ってrを計算します:r = |Z| / sqrt(N)。これは群間の差の大きさの標準化された測度を提供します。
Wilcoxon符号順位検定
使用場面
Wilcoxon符号順位検定は、対応のあるt検定のノンパラメトリック代替です。2つの関連する測定値(例:事前・事後テスト、または2つの対応条件)があり、差分スコアの分布が正規性に違反する場合に使用します。対間の中央値の差がゼロと有意に異なるかどうかを検定します。
仕組み
この検定は対応する観測値間の差に基づいて機能します:
- 各ペアの差を計算します。
- 絶対差の順位をつけます(ゼロの差は除外)。
- 元の差の符号を各順位に割り当てます。
- 正の順位と負の順位をそれぞれ合計します。
- 検定統計量Tは、これら2つの合計の小さい方です。
APA報告形式
Wilcoxon符号順位検定の結果、疼痛スコアは介入前(Mdn = 65.00)から介入後(Mdn = 78.00)にかけて有意に増加した, T = 12.00, z = -2.98, p = .003, r = .52。
主要な要素:
- 両条件の中央値
- T統計量(頻度の少ない符号の順位和)
- z近似
- 正確または漸近的p値
- 効果量 r = |Z| / sqrt(N)、ここでNはゼロでない差の数
効果量
Mann-Whitney U検定で使用されるものと同じr指標が適用されます。上記の例のr = .52は大きい効果を表します。統計的有意性だけでは発見の実質的な重要性を伝えないため、常に効果量を報告する必要があります。非常に大きな標本では、取るに足らないほど小さな差でも統計的に有意になり得ます。
特別な考慮事項
- 同順位: 複数の差分スコアが同じ絶対値を持つ場合、それらが占めるはずだった順位の平均が割り当てられます。ほとんどのソフトウェアがこれを自動的に処理します。
- 差がゼロの場合: 事前・事後のスコアが同一のペアは分析から除外され、有効標本サイズが減少します。
- 正確 vs 漸近的p値: 小標本(n < 25)では、正規近似に頼るよりも正確p値を要求してください。
Kruskal-Wallis H検定
使用場面
Kruskal-Wallis H検定は、一元配置分散分析のノンパラメトリック代替です。順序的または非正規の連続従属変数で3群以上の独立群を比較する際に使用します。分散分析と同様に、すべての群が同じ母集団から抽出されたという帰無仮説を検定しますが、平均ではなく順位に基づいて機能します。
仮定
- 観測値は群間および群内で独立でなければなりません。
- 従属変数は少なくとも順序尺度でなければなりません。
- すべての群の分布が同じ形状を持つ必要があります(中央値比較の解釈のためには)。
APA報告形式
Kruskal-Wallis H検定の結果、3つの治療条件間で患者満足度に統計的に有意な差が認められた, H(2) = 12.45, p = .002, eta^2^~H~ = .15。
主要な要素:
- 自由度(群数 - 1)付きのH統計量
- p値
- 効果量:H統計量のeta-squared、eta^2_H = (H - k + 1) / (N - k)で計算、kは群数
Dunn検定による事後比較
有意なKruskal-Wallis結果は、少なくとも1つの群が異なることを示しますが、どの群が異なるかは示しません。Bonferroni補正(またはHolm補正)を適用したDunn検定で具体的なペアワイズの差を特定します。
事後検定の報告例:
Bonferroni補正を適用したDunn事後検定の結果、A群(Mdn = 8.50)はC群(Mdn = 5.00)よりも有意に高かったが(p = .001)、B群(Mdn = 7.00)との間に有意差は認められなかった(p = .142)。
効果量の解釈
| eta-squared (H) | 解釈 | |---|---| | .01 | 小さい効果 | | .06 | 中程度の効果 | | .14 | 大きい効果 |
これらの閾値は、分散分析で使用されるものと同じCohenのeta-squaredベンチマークに従います。
Friedman検定
使用場面
Friedman検定は、反復測定分散分析のノンパラメトリック代替です。同一の参加者が3条件(または時点)以上で測定され、データが順序的であるか正規性に違反する場合に使用します。条件間の分布が同一であるかを検定します。
仕組み
Friedman検定は、各参加者のスコアを条件間で順位づけします(被験者内順位づけ)。次に、平均順位が条件間で有意に異なるかを検定します。このアプローチは、各参加者内で順位をつけることで個人差を統制します。
APA報告形式
Friedman検定の結果、4つの時点にわたる症状重症度に統計的に有意な差が認められた, chi^2^(3) = 18.60, p < .001, W = .62。
主要な要素:
- 自由度(条件数 - 1)付きのカイ二乗統計量
- p値
- 効果量としてのKendall's W(0から1の範囲)
事後比較
Friedman検定が有意な場合、Nemenyi検定またはBonferroni補正を適用したWilcoxon符号順位検定でペアワイズ比較を実施します。Nemenyi検定はFriedman検定後の事後比較のために特別に設計されており、ファミリーワイズエラー率を制御します。
事後検定の報告例:
Bonferroni補正を適用したWilcoxon符号順位事後検定(補正後alpha = .008)の結果、ベースラインと第8週(p = .002)およびベースラインと第12週(p < .001)の間で有意な改善が認められたが、第4週と第8週の間では有意ではなかった(p = .089)。
効果量:Kendall's W
| W値 | 解釈 | |---|---| | .10 | 小さい効果(弱い一致) | | .30 | 中程度の効果(中程度の一致) | | .50 | 大きい効果(強い一致) |
Kendall's Wは一致度の指標としても解釈できます:W = .62は、被験者内順位間の最大可能一致の62%が条件間に存在することを意味します。
Spearman順位相関
使用場面
Spearman順位相関係数(rho、r_sと表記)は、2つの変数間の単調関係の強さと方向を測定します。以下の場合に使用します:
- 一方または両方の変数が順序尺度である場合
- 変数間の関係が単調であるが必ずしも線形ではない場合
- 連続変数が正規性に違反する場合
- Pearsonのrを歪める可能性のある有意な外れ値がある場合
Pearsonのrとの違い
Pearsonのrは、少なくとも間隔尺度で概ね正規分布の2つの連続変数間の線形関係を測定します。Spearmanのrhoは、まず両変数を順位づけし、次に順位に対してPearsonのrを計算します。これにより:
- 外れ値に対して頑健になります(順位が極端な値を圧縮するため)。
- 順序データに適しています。
- 線形関係だけでなく、あらゆる単調関係に敏感になります。
ただし、Pearsonのrの仮定がすべて満たされている場合、Pearsonのrの方が検出力が高く、優先されるべきです。
APA報告形式
経験年数と職務満足度の間に強い正の単調関係が認められた, r~s~(48) = .72, p < .001。
主要な要素:
- Spearman相関であることを明示(r_s、rではない)
- 括弧内に自由度(N - 2)を報告
- 相関係数
- p値
- オプションで決定係数(r_sの二乗)
解釈
Spearmanのrhoは、Pearsonのrと同じスケールを使用します:
| |r_s|値 | 解釈 | |---|---| | .10–.29 | 小さい/弱い | | .30–.49 | 中程度 | | .50–1.00 | 大きい/強い |
Pearsonのrとの比較
| 特徴 | Pearsonのr | Spearmanのrho | |---|---|---| | データ水準 | 間隔/比率 | 順序以上 | | 関係の種類 | 線形 | 単調 | | 分布の仮定 | 二変量正規 | なし | | 外れ値への感度 | 高い | 低い | | 統計的検出力 | 高い(仮定充足時) | 低い |
ノンパラメトリック検定の検出力と限界
検出力のトレードオフ
ノンパラメトリック検定の最も重要な限界は、パラメトリック検定の仮定が完全に満たされている場合に、対応するパラメトリック検定と比較して統計的検出力が低いことです。検出力とは、真の効果が存在する場合にそれを検出する確率を指します。
正規分布データの場合:
- Mann-Whitney U検定は対応のないt検定の検出力の約95%を持ちます(漸近相対効率 = 0.955)。
- Wilcoxon符号順位検定は対応のあるt検定の検出力の約95%を持ちます。
- Kruskal-Wallis検定は分散分析と比較して同様の相対効率を持ちます。
これは、データが真に正規分布であれば、ノンパラメトリック検定で同じ検出力を達成するためにやや大きな標本が必要であることを意味します。ただし、データが非正規の場合、パラメトリック検定の仮定が違反されるため、ノンパラメトリック検定の方が実際には検出力が高くなることがあります。
標本サイズの考慮事項
ノンパラメトリック検定はやや低い検出力を持つため、同じ効果を検出するためにより大きな標本が必要になる場合があります。大まかな目安として、ノンパラメトリック検定の使用を予定している場合、計画した標本サイズを約5~15%増加させてください。G*Powerなどのソフトウェアでノンパラメトリック検定の正式な検出力分析が可能です。
推奨最小標本サイズ:
- Mann-Whitney U:正規近似が適切であるためには1群あたり少なくとも10~15名。
- Wilcoxon符号順位:少なくとも10~15ペア。
- Kruskal-Wallis:1群あたり少なくとも5名(多いほど良い)。
- Friedman:条件全体で少なくとも10~15名の参加者。
ノンパラメトリック検定にできないこと
- 多要因デザインへの拡張が容易ではありません。二元配置分散分析やANCOVAの直接的なノンパラメトリック代替はありません。
- 特定の分布パラメータ(平均、分散)を検定するのではなく、順位分布を検定します。
- パラメトリック検定よりもデータに関する情報が少なくなります(順位は大きさの情報を失います)。
- 中央値の信頼区間は平均の信頼区間よりも精度が低くなります。
よくある誤りを避けるために
誤り1:不必要にノンパラメトリック検定を使用する
最も頻繁な誤りは、違反が軽微で標本が大きいにもかかわらず、非正規性の最初の兆候でノンパラメトリック検定に切り替えることです。パラメトリック検定、特にt検定と分散分析は、正規性の中程度の違反に対して非常に頑健です。特に:
- 群間の標本サイズが等しい場合
- 総標本サイズが30~40を超える場合
- 分布が単峰で軽度の歪みのみの場合
「安全のために」ノンパラメトリック検定を実行することは、意味のある利益なく統計的検出力を犠牲にします。
誤り2:中央値ではなく平均を報告する
ノンパラメトリック検定を使用する場合、平均ではなく順位分布についての主張をしています。Mann-Whitney U検定とともに平均と標準偏差を報告することは内部的に矛盾しています。代わりに中央値と四分位範囲(IQR)を報告してください:
- 不適切:M = 4.25, SD = 1.32
- 適切:Mdn = 4.50, IQR = 3.00–5.25
両方の報告を許容する査読者もいますが、主要な記述統計量は中央値とIQRであるべきです。
誤り3:効果量の省略
多くの研究者がノンパラメトリック検定で検定統計量とp値のみを報告し、効果量を完全に省略しています。これは重大な省略です。APAスタイルとほとんどのジャーナルガイドラインは、すべての統計検定に効果量を要求しています。各ノンパラメトリック検定には適切な効果量指標があります:
- Mann-Whitney UとWilcoxon:r = |Z| / sqrt(N)
- Kruskal-Wallis:eta-squared (H)
- Friedman:Kendall's W
- Spearman:rho自体が効果量の役割を果たす
誤り4:事後検定を実施しない
Kruskal-WallisやFriedmanのようなオムニバス検定で有意な結果が得られた場合、それは少なくとも1つの群または条件が異なることを示すのみです。どの特定の群が異なるかを特定するために、適切な事後比較(Kruskal-WallisにはDunn検定、FriedmanにはNemenyiまたは補正付きWilcoxon)を必ず実施する必要があります。
誤り5:順序データを連続データとして扱う
研究者は時として、データが「間隔尺度に十分近い」と主張してリッカート尺度データ(例:1~5点の評定)にパラメトリック検定を適用します。この慣行には議論がありますが、個々のリッカート項目(合成尺度ではない)が従属変数の場合、ノンパラメトリック検定がより適切です。複数の項目の合計や平均である合成リッカート尺度は、中心極限定理により正規分布に近づく傾向があり、パラメトリック分析を正当化できます。
誤り6:分布形状の仮定を無視する
Mann-Whitney U検定はよく中央値を比較すると説明されますが、これは2つの分布が同じ形状(単にシフトしただけ)を持つ場合にのみ正確です。分布が異なる形状(例:一方は左に歪み、もう一方は右に歪んでいる)の場合、検定は中央値ではなく確率的優位を比較します。結果を中央値の比較として解釈する前に、ヒストグラムや密度プロットで分布の形状を確認してください。
パラメトリックとノンパラメトリックの選択のための実践的ワークフロー
データを分析する際は、以下の意思決定ツリーに従ってください:
- 測定尺度を確認します。 順序ならノンパラメトリックを使用します。間隔/比率ならステップ2に進みます。
- 正規性を評価します。 Shapiro-Wilk検定を実行し、Q-Qプロットとヒストグラムを作成します。p > .05でプロットが妥当なら、パラメトリックを使用します。p < .05ならステップ3に進みます。
- 深刻度を評価します。 正規性からの逸脱は深刻か(強い歪み、外れ値、二峰)? それとも軽微か? 1群あたりn > 30で軽微な違反であれば、パラメトリック検定がまだ有効です。
- 変換を試みます。 対数、平方根、逆数変換は多くの分布を正規化できます。変換が効果的なら、変換したデータにパラメトリック検定を使用します。
- 標本サイズを考慮します。 非常に小さな標本(1群あたりn < 15)では、中程度の非正規性でもノンパラメトリック検定が妥当です。
- 判断を下します。 違反が深刻で、変換が失敗し、標本が小さい場合、適切なノンパラメトリック検定を使用します。そうでなければ、パラメトリック検定で十分な可能性が高いです。
ご自身で試してみましょう
StatMateでは、すべての主要なノンパラメトリック検定に対応した無料の計算ツールを提供しており、APA形式の結果、効果量、事後比較が含まれています:
- Mann-Whitney U検定計算ツール — 自動効果量計算で2つの独立群を比較
- Wilcoxon符号順位検定計算ツール — 正確および漸近的p値で対応データを分析
- Kruskal-Wallis H検定計算ツール — Dunn事後検定で3群以上を比較
- Friedman検定計算ツール — Nemenyi事後比較で反復測定データを分析
各計算ツールは、論文に直接コピーできる完全なAPA形式の出力と、適切な効果量および詳細な解釈ガイダンスを提供します。
よくある質問
ノンパラメトリック検定は大標本でも使えますか?
はい、ノンパラメトリック検定はどの標本サイズでも使用できます。ただし、大標本(1群あたりn > 30)では、中心極限定理により非正規データでもパラメトリック検定統計量が有効であることが多いです。このような場合、パラメトリック検定の方がやや高い統計的検出力を持つため、一般的に好まれます。主な例外は順序データで、順序データでは標本サイズに関係なくノンパラメトリック検定が適切です。
パラメトリックとノンパラメトリックの両方を実行して有意な方だけ報告してもよいですか?
いいえ。これはp-hackingの一形態です。結果を確認する前に、データの特性と仮定に基づいてどの検定を使用するか決定すべきです。感度分析として両方の検定を実行する場合、両方の結果を報告し、一致または不一致を記述してください。有意な結果を出す検定だけを選択的に報告しないでください。
ノンパラメトリック検定で同順位はどう扱いますか?
同順位(同一の値)は、特に順序データでよく見られます。ほとんどのノンパラメトリック検定は、同順位の値がもし占めるはずだった順位の平均を割り当てて処理します。例えば、2つの値が3位と4位で同順位の場合、両方に3.5の順位が割り当てられます。現代の統計ソフトウェアは同順位を自動的に処理します。同順位が広範な場合(データの15~20%以上)、補正係数を使用するか、漸近的近似ではなく正確p値を報告することを検討してください。
Mann-Whitney Uでz近似と正確p値のどちらを報告すべきですか?
小標本(総Nが40未満)では、正規近似が正確でない可能性があるため、正確p値が好まれます。大標本では、z近似が標準的で計算上も実用的です。多くのジャーナルと査読者は、効果量の計算(r = Z / sqrt(N))を容易にするためにUとともにz統計量を報告することを好みます。可能であれば両方報告してください:U = 45.00, z = -2.52, p = .012。
ノンパラメトリック検定で交互作用効果を検出できますか?
Kruskal-WallisやFriedman検定のような標準的なノンパラメトリック検定は一要因デザイン用に設計されており、交互作用効果を直接検定することはできません。交互作用項のある要因デザインには、二元配置分散分析の広く認められたノンパラメトリック代替がありません。選択肢としてはScheirer-Ray-Hare検定(制約あり)や整列順位変換(ART)分散分析があります。実際には、多くの研究者が非正規データでも分散分析の頑健性に依拠して要因デザインにパラメトリック分散分析を使用しています。
Mann-Whitney U検定とWilcoxon順位和検定の違いは何ですか?
これらは同一の検定です。Mann-Whitney U検定とWilcoxon順位和検定は数学的に等価であり、常に同じp値を算出します。違いは歴史的なものです:MannとWhitneyが一方の定式化を開発し、Wilcoxonが独立にもう一方を開発しました。教科書やソフトウェアによって一方の名前を使うもの、他方を使うもの、「Mann-Whitney-Wilcoxon」を使うものがあります。Wilcoxon順位和検定(独立標本用)とWilcoxon符号順位検定(対応標本用)を混同しないでください――これらは異なる検定です。
Pearsonのr ではなくSpearmanのrhoをいつ使うべきですか?
一方または両方の変数が順序的な場合、変数間の関係が単調であるが線形ではない場合、有意な外れ値がある場合、または二変量正規性の仮定が違反される場合にSpearmanのrhoを使用します。両変数が連続的で概ね正規分布しており、散布図で関係が線形に見える場合は、Pearsonのrの方が統計的検出力が高いため好まれます。リッカート尺度データ、順位、パーセンタイルスコアには、Spearmanのrhoが適切な選択です。
ノンパラメトリック検定の標本サイズはどう決めますか?
ノンパラメトリック検定の検出力分析には、予想される効果量、望ましい検出力(通常.80)、有意水準(通常.05)の指定が必要です。G*Powerなどのソフトウェアで、Mann-Whitney U検定、Wilcoxon符号順位検定、その他のノンパラメトリック検定の標本サイズを計算できます。一般的な目安として、ノンパラメトリック検定の低い漸近相対効率を考慮し、パラメトリックの標本サイズ推定値を5~15%増加させてください。例えば、t検定が中程度の効果を検出するために1群あたりn = 64が必要な場合、Mann-Whitney U検定にはおおよそ1群あたりn = 67~74が必要です。