はじめに
同じ被験者を2つの条件下で、または2つの時点で測定する場合、対応のあるデータになります。古典的なアプローチは対応のあるt検定で、差の平均をゼロと比較します。しかし、差が正規分布しない場合はどうでしょうか?そこで、ノンパラメトリックの代替手段であるウィルコクソン符号順位検定が登場します。
どちらの検定も同じ研究上の問いに答えます:2つの関連する測定値の間に体系的な差があるかどうか。しかし、仮定、比較対象、外れ値への感度において異なります。
本記事では、同じデータセットに対して両方の検定を行い、仮定の確認方法を示し、明確な判断ルールを提供します。対応のあるt検定計算ツールで分析を実行したり、StatMateの他の比較ツールも利用できます。
比較一覧表
| 特徴 | 対応のあるt検定 | ウィルコクソン符号順位検定 | |------------------------|-----------------------------------|--------------------------------------| | 種類 | パラメトリック | ノンパラメトリック | | データの要件 | 連続変数(間隔/比率尺度) | 少なくとも順序尺度 | | 検定対象 | 平均差 = 0 | 差の分布がゼロに対して対称 | | 正規性の仮定 | あり(差に対して) | なし | | 外れ値への感度 | 高い | 低い(順位を使用) | | 検出力(正規の場合) | より高い | 対応のあるt検定の約95% | | 検出力(非正規の場合) | 低い可能性がある | しばしばより高い | | 効果量 | Cohenのd | 順位双列相関r | | 出力 | t統計量、p値 | W(またはT)統計量、p値 | | 必要なサンプルサイズ | 15~20組以上を推奨 | 6組以上(小標本でも可) |
対応のあるt検定を使うべき場合
以下の場合に対応のあるt検定を選択します:
-
ペア間の差が近似的に正規分布している。 これが重要な仮定です。生のスコアが正規であるかどうかではなく、差のスコアについてです。
-
サンプルサイズが十分に大きい(n > 25~30)。 対応のあるt検定は、中心極限定理により、大きなサンプルでは非正規性に対して頑健です。
-
差に深刻な外れ値がない。 1つの極端な差が平均に大きく影響し、t統計量を膨張または収縮させる可能性があります。
-
平均差の大きさに関心がある。 対応のあるt検定は平均的な変化の直接的な推定値を提供し、臨床的または実践的に意味があることが多いです。
ウィルコクソン符号順位検定を使うべき場合
以下の場合にウィルコクソンを選択します:
-
差が正規分布しておらず、サンプルが小さい(n < 25~30)。歪んだ分布や裾の重い差の分布はウィルコクソンが有利です。
-
差に外れ値が存在し、除去できない。
-
データが順序尺度である。 例えば、治療前後の0~10の痛みの評定。
-
非常に小さなサンプル(6組程度)があり、正規性の検定が信頼できない場合。
例題データセット
ある理学療法士が、手首手術後の15人の患者に対する6週間のリハビリテーションプログラムの前後で、握力(kg)を測定します。
| 患者 | 前 | 後 | 差(後 - 前) | |------|------|------|--------------| | 1 | 28.5 | 34.2 | 5.7 | | 2 | 32.1 | 37.8 | 5.7 | | 3 | 25.3 | 30.1 | 4.8 | | 4 | 30.7 | 36.5 | 5.8 | | 5 | 22.0 | 26.9 | 4.9 | | 6 | 35.4 | 41.2 | 5.8 | | 7 | 27.8 | 32.0 | 4.2 | | 8 | 31.5 | 38.3 | 6.8 | | 9 | 29.0 | 33.7 | 4.7 | | 10 | 26.2 | 31.8 | 5.6 | | 11 | 33.9 | 39.5 | 5.6 | | 12 | 24.7 | 29.4 | 4.7 | | 13 | 28.3 | 34.9 | 6.6 | | 14 | 30.0 | 35.1 | 5.1 | | 15 | 27.1 | 32.6 | 5.5 |
記述統計
| 指標 | 値 | |------------------------|-------| | 平均差 | 5.43 | | 差の標準偏差 | 0.72 | | 中央値差 | 5.60 | | 最小差 | 4.20 | | 最大差 | 6.80 | | n(組数) | 15 |
すべての差が正で、全患者が改善したことを示しています。平均改善量は5.43 kgです。
ステップ1:仮定の確認
差の正規性
15の差のスコアにShapiro-Wilk検定を適用します:
| 検定 | 統計量 | p値 | |-------------|---------|--------| | Shapiro-Wilk | 0.957 | 0.643 |
p値は0.643(0.05を大きく上回る)であり、正規性は棄却されません。差は正規分布しているようです。
外れ値の確認
1.5 x IQRルールを使用して差の外れ値を検査します:
| 統計量 | 値 | |---------|------| | Q1 | 4.80 | | Q3 | 5.75 | | IQR | 0.95 | | 下限フェンス | 4.80 - 1.425 = 3.375 | | 上限フェンス | 5.75 + 1.425 = 7.175 |
すべての差が3.375と7.175の間にあります。外れ値はありません。
結論: 対応のあるt検定の両方の仮定が満たされています。実際には、これは対応のあるt検定がより検出力が高く適切な選択であることを意味します。比較のために両方の検定を実行します。
対応のあるt検定の実行
仮説
- H0:握力の平均差(後 - 前)は0に等しい(mu_d = 0)。
- H1:握力の平均差は0に等しくない(mu_d != 0)。
計算
t = (平均差 - 0) / (SD / sqrt(n))
t = 5.43 / (0.72 / sqrt(15))
t = 5.43 / (0.72 / 3.873)
t = 5.43 / 0.186
t = 29.19
自由度:df = n - 1 = 14
結果
| 統計量 | 値 | |----------------|----------| | t | 29.19 | | df | 14 | | p値(両側) | < 0.001 | | 平均差 | 5.43 kg | | 95% CI | [5.03, 5.83] | | Cohenのd | 7.54 |
解釈: リハビリテーションプログラムは握力の統計的に有意な増加をもたらしました, t(14) = 29.19, p < .001。平均して握力は5.43 kg増加しました(95% CI [5.03, 5.83])。Cohen's d = 7.54は非常に大きな効果を示しています。
ウィルコクソン符号順位検定の実行
手順
- 差を計算する(すでに完了)。
- ゼロの差を除去する(この場合はなし)。
- 差の絶対値を最小から最大に順位付けする。
- 各順位に元の差の符号を割り当てる。
- 正の順位の合計(W+)と負の順位の合計(W-)を計算する。
順位付け
| 患者 | 差 | |差| | 順位 | 符号付き順位 | |------|------|-------|------|------------| | 7 | 4.2 | 4.2 | 1 | +1 | | 9 | 4.7 | 4.7 | 2.5 | +2.5 | | 12 | 4.7 | 4.7 | 2.5 | +2.5 | | 3 | 4.8 | 4.8 | 4 | +4 | | 5 | 4.9 | 4.9 | 5 | +5 | | 14 | 5.1 | 5.1 | 6 | +6 | | 15 | 5.5 | 5.5 | 7 | +7 | | 10 | 5.6 | 5.6 | 8.5 | +8.5 | | 11 | 5.6 | 5.6 | 8.5 | +8.5 | | 1 | 5.7 | 5.7 | 10.5 | +10.5 | | 2 | 5.7 | 5.7 | 10.5 | +10.5 | | 4 | 5.8 | 5.8 | 12.5 | +12.5 | | 6 | 5.8 | 5.8 | 12.5 | +12.5 | | 13 | 6.6 | 6.6 | 14 | +14 | | 8 | 6.8 | 6.8 | 15 | +15 |
検定結果
| 統計量 | 値 | |-------------------|----------| | W+(正の順位合計) | 120.0 | | W-(負の順位合計) | 0.0 | | W(検定統計量) | 120.0 | | p値(両側) | < 0.001 | | 順位双列相関r | 1.000 |
解釈: ウィルコクソン符号順位検定により、リハビリテーション後の握力の統計的に有意な増加が確認されました, W = 120.0, p < .001。順位双列相関1.000は、すべての患者が改善したこと(すべての順位が正)を示しています。
並行比較
| 側面 | 対応のあるt検定 | ウィルコクソン符号順位検定 | |-------------------|------------------------|--------------------------| | 検定統計量 | t(14) = 29.19 | W = 120.0 | | p値 | < 0.001 | < 0.001 | | 効果量 | Cohen's d = 7.54 | r = 1.000 | | 代表値 | 平均差 = 5.43 kg | 中央値差 = 5.60 kg | | 信頼区間 | [5.03, 5.83] | 標準的ではない(ブートストラップ) | | 結論 | 有意な改善 | 有意な改善 |
両方の検定が強く一致しています。対応のあるt検定は平均差の信頼区間を含むより情報量の多い結果を提供し、ウィルコクソンは正規性を必要とせずに結果を確認します。
検定結果が乖離するシナリオ
選択が重要になる場合を説明するために、外れ値を含む別のデータセットを考えます。患者8の差が6.8ではなく25.0だったとします(データ入力エラーか真の極端な応答者の可能性):
| 統計量 | 対応のあるt検定(外れ値あり) | ウィルコクソン(外れ値あり) | |-----------------------|---------------------------|--------------------------| | 平均差 | 6.65 | (大きさの影響なし) | | t統計量 | 5.30 | W = 120.0 | | p値 | < 0.001 | < 0.001 | | 外れ値なし時:t | 29.19 | W = 105.0 |
対応のあるt検定のt統計量は29.19から5.30に劇的に低下しています。外れ値が標準偏差を膨張させるためです。ウィルコクソン検定は順位を使用するため、ほとんど影響を受けません。境界的なケースでは、これがt検定の有意性を変える一方、ウィルコクソンは頑健なままです。
判断フレームワーク
以下の順序で質問してください:
1. データは少なくとも順序尺度で、対応がありますか?
- いいえ:これらの検定は適用されません。
- はい:次に進みます。
2. 差のスコアは近似的に正規分布していますか?
Shapiro-Wilk検定と差のヒストグラムで確認します。
- はい、かつn >= 15: 最大の検出力のために対応のあるt検定を使用。
- 境界的(n > 30): 対応のあるt検定を使用(中心極限定理により頑健)。
- いいえ(歪み、外れ値、またはn < 15): ウィルコクソン符号順位検定を使用。
3. 差に影響力のある外れ値がありますか?
- はい: ウィルコクソンを使用(または正当な理由で外れ値を除去して対応のあるt検定を使用)。
- いいえ: ステップ2の選択を維持。
4. データは(連続ではなく)順序尺度ですか?
- はい: 正規性に関係なくウィルコクソンを使用。
- いいえ: ステップ2-3の判断に従う。
効果量の解釈
Cohenのd(対応のあるt検定)
| dの値 | 解釈 | |-------|------| | 0.20 | 小 | | 0.50 | 中 | | 0.80 | 大 |
Cohenのdは、平均差を差の標準偏差で割って計算します。
順位双列相関r(ウィルコクソン)
| rの値 | 解釈 | |-------|------| | 0.10 | 小 | | 0.30 | 中 | | 0.50 | 大 |
順位双列相関rは、(W+ - W-) / (W+ + W-)、または同等にW統計量を順位の総数で割って計算します。
報告例
対応のあるt検定の報告
6週間のリハビリテーションプログラムが握力に及ぼす影響を評価するために、対応のある標本t検定を実施した。治療前(M = 28.83, SD = 3.58)から治療後(M = 34.27, SD = 3.89)にかけて、統計的に有意な増加が認められた, t(14) = 29.19, p < .001(両側)。平均増加量は5.43 kg(95% CI [5.03, 5.83])であり、大きな効果量を示した(d = 7.54)。
ウィルコクソン符号順位検定の報告
ウィルコクソン符号順位検定により、治療後の握力(Mdn = 34.20)が治療前(Mdn = 28.50)よりも統計的に有意に高いことが確認された, W = 120.0, p < .001。順位双列相関は1.00であり、15名全員の参加者が改善を示したことを示している。
ご自身で試してみましょう
以下のインタラクティブなツールで対応のあるデータを分析できます:
- 対応のあるt検定計算ツール - パラメトリックな対応比較用
- t検定計算ツール - 対応のある標本と独立な標本の両方に対応
- 正規性検定計算ツール - 差のスコアの確認用
よくある質問
ウィルコクソン符号順位検定には何組のデータが必要ですか?
ウィルコクソン検定は最少6組から使用できますが、検出力は低くなります。中程度の効果を検出するための妥当な検出力には、少なくとも15~20組を目指してください。6組未満の場合、正規近似ではなく正確なp値を使用すべきです。
対応のあるt検定は両方の変数が正規である必要がありますか?
いいえ。対応のあるt検定は、差(変数1 - 変数2)が正規分布していることを必要とします。個々の変数は正規である必要はありません。例えば、両方の変数が右に歪んでいても差が対称的であれば、対応のあるt検定は適切です。
差が対称だが正規でない場合、ウィルコクソン検定を使えますか?
はい。実際、ウィルコクソン検定は帰無仮説の下で差の分布が中央値に対して対称であることを仮定します。差が対称だが裾が重い場合(例:一様分布やラプラス分布)、ウィルコクソンは裾の重さに頑健であるため、良い選択です。
データに同順位がある場合はどうしますか?
同順位(差の中の同一値)は平均順位を割り当てて処理します。ゼロの差は順位付けの前に除外されます。ほとんどのソフトウェアは同順位を自動的に処理します。多くの同順位がある場合(順序データで一般的)、正規近似よりも正確なp値や順列ベースのp値が望ましいです。
どちらの方法でも片側検定を行えますか?
はい。片側の対応のあるt検定では、両側のp値を2で割ります(観測された方向が仮説と一致する場合)。片側のウィルコクソン検定は、ほとんどのソフトウェアで直接このオプションを提供しています。片側検定は、データ収集前に明確な方向性のある事前仮説がある場合にのみ使用してください。
符号検定とは何ですか?ウィルコクソンとの関係は?
符号検定は、各差の方向(正または負)のみを考慮し、大きさを無視する、さらに単純なノンパラメトリック代替です。ウィルコクソン符号順位検定は方向と大きさ(順位を通じて)の両方を使用するため、符号検定よりも検出力が高くなります。差が対称であると仮定できない場合にのみ符号検定を使用してください。
対応のあるデザインで欠損データはどう処理しますか?
ペアの一方の測定値が欠損している場合、両方の測定値が両方の検定から除外されます。これは対応のあるデザインの固有の制限です。欠損が多い場合、不完全なペアを削除するのではなく、利用可能なすべてのデータポイントを組み込むことができる混合効果モデルの使用を検討してください。