t検定 vs マン・ホイットニーU検定 -- どちらをいつ使うべきか

根本的な問い

2つの独立した群があり、それらに差があるかどうかを知りたい場合、最も一般的な選択肢は対応のないt検定とマン・ホイットニーU検定です。どちらを選ぶかは好みの問題ではなく、データの特性、サンプルサイズ、研究目的に依存します。

このガイドでは、毎回正しい判断ができるよう、体系的な比較を提供します。

比較一覧表

| 特徴 | 対応のないt検定 | マン・ホイットニーU検定 | |------|----------------|---------------------| | 比較対象 | 平均値 | 順位分布 | | 必要なデータ型 | 連続変数（間隔/比率尺度） | 順序尺度以上 | | 正規性の仮定 | あり | なし | | 等分散の仮定 | あり（Welch補正で対応可） | 類似した分布形状（中央値比較の場合） | | 外れ値への感度 | 高い | 低い | | 統計的検出力 | より高い（仮定が満たされた場合） | やや低い | | サンプルサイズの目安 | 1群あたりn >= 30（頑健） | 任意のサイズ；n >= 5が望ましい | | 効果量 | Cohenのd | 順位双列相関r |

各検定の仕組み

対応のないt検定

t検定は2つの群の平均値の差を計算し、その差の標準誤差で割ります。得られたt統計量は、観測された差がゼロから何標準誤差離れているかを測定します。

公式（簡略版）：

t = (平均1 - 平均2) / SE(差)

この検定は、平均値の差の標本分布が近似的に正規分布であることを仮定します。これは、データ自体が正規分布である場合、またはサンプルサイズが十分に大きく中心極限定理が適用される場合に成り立ちます。

対応のないt検定計算ツールでお試しください。

マン・ホイットニーU検定

マン・ホイットニーU検定は両群を合わせ、すべての観測値を最小から最大まで順位付けし、一方の群の順位が他方より体系的に高いか低いかを確認します。

基本的なロジック： 2つの群が同じ分布から来ている場合、順位は均等に混ざっているはずです。一方の群の値が一貫して高い場合、その群の順位は不均衡に大きくなり、有意なU統計量が得られます。

マン・ホイットニーU検定計算ツールでお試しください。

仮定：ここから判断が始まる

これらの検定を選択する際の最も重要な要素は、データがt検定の仮定を満たしているかどうかです。

t検定の仮定

独立性： 観測値は群内および群間で独立している。
正規性： 従属変数が各群で近似的に正規分布している。
等分散性： 2群の分散が類似している（Welch補正で対応可能）。
間隔または比率尺度： 従属変数が、値間の差が意味を持ち等しい尺度で測定されている。

マン・ホイットニーの仮定

独立性： t検定と同じ。
順序尺度以上： データが少なくとも順位付け可能である。
類似した分布形状： 結果を中央値の比較として解釈する場合、両群の分布形状（歪度と散らばり）が類似している必要がある。

マン・ホイットニーの仮定はより少なく弱いです。これこそが、t検定の仮定が満たされない場合の代替手段としてこの検定が存在する理由です。

t検定を使うべき場合

以下のすべてが当てはまる場合にt検定を選択します：

データが連続変数で間隔尺度または比率尺度で測定されている

テストの点数、反応時間、血圧測定値、体重、金額はすべてt検定に適しています。

正規性が妥当に満たされている

以下の方法で正規性を確認します：

視覚的検査： ヒストグラムとQ-Qプロットがおおよそ対称的なベル型の分布を示すべきです。
Shapiro-Wilk検定： 非有意な結果（p > 0.05）は正規性の仮定を支持します。

重要なポイント：t検定は、1群あたりのサンプルサイズが30以上の場合、中程度の正規性の違反に対して頑健です。大きなサンプルでは、中心極限定理のおかげで、中程度に歪んだデータでも信頼できるt検定の結果が得られます。

極端な外れ値がない

平均値は外れ値に敏感です。1つの極端な値が平均を大きく移動させ、t統計量を膨張または収縮させる可能性があります。外れ値がある場合、データエラーなのか真の極端な値なのかを検討してから検定を選択してください。

最大の統計的検出力が必要

仮定が満たされている場合、t検定はマン・ホイットニーU検定よりも検出力が高く、真の差を検出する可能性が高くなります。検出力の優位性は通常約5%です（マン・ホイットニーのt検定に対する漸近相対効率は約0.955）。

マン・ホイットニーU検定を使うべき場合

以下のいずれかが当てはまる場合にマン・ホイットニーを選択します：

データが順序尺度である

リッカート尺度の評定、重症度のランキング、または値間の間隔が等しいことが保証されない変数。満足度評定の4対5は、1対2と同じ心理的差を表していない可能性があります。

正規性が明確に違反されており、サンプルが小さい

Shapiro-Wilk検定が有意（p < 0.05）で、サンプルサイズが30未満の場合、t検定は信頼できない結果を生む可能性があります。マン・ホイットニーは正規性を必要としません。

外れ値が存在し、除去できない

マン・ホイットニーは順位を使用するため、極端な外れ値は単に最大の値と同じ影響しかありません。どちらも最高順位を受け取ります。これにより、検定は自然に頑健になります。

分布が強く歪んでいる

所得データ、反応時間データ、多くの生物学的測定値は自然に歪んでいます。歪みが激しく、変換が適切でない場合、マン・ホイットニーがより安全な選択です。

並行比較の例

同じデータセットに両方の検定を適用し、結果を比較してみましょう。

データセット

ある企業が2つの研修方法をテストし、研修後の従業員のパフォーマンススコア（0-100）を測定します。

方法A： 78, 82, 85, 88, 76, 91, 84, 79, 87, 83, 80, 86

方法B： 72, 68, 75, 80, 65, 77, 71, 74, 69, 73, 76, 70

t検定の結果

| 統計量 | 値 | |--------|------| | 平均（方法A） | 83.25 | | 平均（方法B） | 72.50 | | 平均差 | 10.75 | | t統計量 | 5.32 | | df | 22 | | p値 | 0.000023 | | Cohenのd | 2.17 |

マン・ホイットニーU検定の結果

| 統計量 | 値 | |--------|------| | 中央値（方法A） | 83.5 | | 中央値（方法B） | 72.5 | | U統計量 | 10.0 | | zスコア | -3.58 | | p値 | 0.0003 | | 順位双列相関r | 0.861 |

結果の比較

両方の検定が同じ結論に達しました：方法Aが有意に高いスコアを生み出しています。しかし、注目すべき点があります：

t検定のp値がより小さい（0.000023 vs 0.0003）。これは、データが正規で問題がない場合のt検定のより高い検出力を反映しています。
両方の効果量が大きな効果を示しているが、異なるスケールを使用しています（d = 2.17 vs r = 0.861）。
t検定は平均値を報告（83.25 vs 72.50）し、マン・ホイットニーは中央値を報告（83.5 vs 72.5）します。

この場合、データがほぼ正規で外れ値がないため、t検定がデータからより多くの情報を抽出できる、より良い選択です。

外れ値を追加してみる

方法Aに1つの異常なスコアがあったとします：91を150に置き換えます（おそらくデータ入力エラー）。

修正後の方法A： 78, 82, 85, 88, 76, 150, 84, 79, 87, 83, 80, 86

| 検定 | p値 | 効果量 | |------|---------|-------------| | t検定 | 0.011 | d = 1.29 | | マン・ホイットニーU | 0.0003 | r = 0.861 |

外れ値がt検定を大幅に弱めました（pは0.000023から0.011に、dは2.17から1.29に低下）。方法Aの平均と標準偏差の両方が膨張したためです。マン・ホイットニーの結果はほとんど変化しませんでした。外れ値を順位付けすると単に最上位に配置されるだけで、値が91でも150でも最高順位を受け取るからです。

判断フレームワーク

以下のフローチャート形式のアプローチを使用します：

ステップ1：データ型は何ですか？

順序データ → マン・ホイットニーを使用。
連続データ → ステップ2へ。

ステップ2：サンプルサイズを確認。

1群あたりn >= 30 → t検定は非正規性に頑健。ステップ3へ。
1群あたりn < 30 → ステップ3へ（正規性がより重要）。

ステップ3：正規性を確認。

正規または近似正規 → ステップ4へ。
明らかに非正規 → マン・ホイットニーを使用。

ステップ4：外れ値を確認。

極端な外れ値なし → t検定を使用。
極端な外れ値あり → マン・ホイットニーを使用（または外れ値を正当な理由で除去してt検定を使用）。

検出力の比較

統計的検出力とは、真の効果が存在する場合にそれを検出する確率です。理想的な条件下では：

t検定は指定された検出力（例：0.80）を達成します。
マン・ホイットニーはt検定の検出力の約95.5%を達成します（漸近相対効率 = 3/pi、約0.955）。

これは、t検定で80%の検出力に1群あたり64人の参加者が必要な場合、マン・ホイットニーで同じ検出力を達成するには約67人が必要であることを意味します。差は小さく、実際にはしばしば無視できる程度です。

しかし、データが非正規の場合、マン・ホイットニーはt検定よりも実際にはより検出力が高い場合があります。裾の重い分布や汚染正規分布では、マン・ホイットニーは同じ効果を検出するためにt検定よりも少ない参加者で済む場合があります。

効果量の比較

| 指標 | 検定 | スケール | ベンチマーク | |------|------|---------|------------| | Cohenのd | t検定 | -無限大～+無限大 | 0.2 小、0.5 中、0.8 大 | | 順位双列相関r | マン・ホイットニー | -1～+1 | 0.1 小、0.3 中、0.5 大 |

両方の効果量は群間差の大きさを定量化しますが、直接比較はできません。Cohenのdは差を標準偏差単位で表し、順位双列相関rは一方の群からランダムに選んだ値が他方の群からランダムに選んだ値を超える確率を表します。

査読者が期待すること

学術出版において、査読者は一般的に以下を期待します：

検定選択の正当性として、仮定の確認結果（正規性検定、外れ値の検査）を報告する。
データの特性に対して適切な検定を報告する。
両方の検定を実行して有利な結果を報告しない（これはp-hackingの一形態です）。
可能であれば、分析計画で検定を事前に指定する。

一般的で擁護しやすいアプローチは：まず正規性の確認を行い、その結果に基づいて検定を選択する。仮定の確認結果を報告し、検定の選択理由を説明する、というものです。

よくある質問

両方の検定を実行して、p値が小さい方を報告できますか？

いいえ。これはp-hackingの一形態であり、偽陽性率を膨張させます。データの特性に基づいて1つの検定を選択し、結果にかかわらずその結果を報告してください。

2つの検定が異なる結論を出した場合はどうすればよいですか？

境界的なデータで起こり得ます。t検定が有意でマン・ホイットニーが非有意（またはその逆）の場合、通常は効果が検出閾値に近いことを示しています。データに最も適切な検定の結果を報告し、不一致を考察で言及してください。

リッカート尺度のデータにt検定は適切ですか？

これは議論の的です。一部の研究者はリッカートデータを間隔尺度として扱いt検定を使用し、他の研究者は順序尺度であると主張しマン・ホイットニーを使用します。7件法以上で、データがおおよそ正規の場合、t検定はしばしば許容されます。3件法や5件法の尺度では、一般的にマン・ホイットニーがより安全です。

マン・ホイットニーの代わりにデータを変換すべきですか？

対数変換や平方根変換は歪んだデータを正規化し、t検定の使用を可能にします。これは有効なアプローチですが、比較対象が変わります（例：算術平均ではなく幾何平均）。変換がその分野で実質的に意味がある場合、良い選択肢となり得ます。

マン・ホイットニーは等しいサンプルサイズを必要としますか？

いいえ。マン・ホイットニーU検定は不均等な群サイズでも機能します。ただし、極端に不均等なサイズ（例：10 vs 100）は検定の感度に影響を与える可能性があります。可能な限りおおよそ均等な群を目指してください。

StatMateで両方を試す

StatMateを使えば、自分のデータで2つのアプローチを簡単に比較できます。t検定計算ツールとマン・ホイットニーU検定計算ツールに値を入力して、結果がどう比較されるか確認してください。両方の計算ツールには仮定の確認、効果量、APA形式の出力が含まれています。