分散分析（ANOVA） vs クラスカル・ウォリス検定：どちらを使うべきか

はじめに

連続変数の結果を3群以上の独立した群で比較する必要がある場合、パラメトリックの一元配置分散分析（ANOVA）とノンパラメトリックのクラスカル・ウォリスH検定の2つが代表的な検定手法です。どちらを選ぶかは、データの分布、サンプルサイズ、および測定尺度によって決まります。

どちらの検定も同じ根本的な問いに答えます：群平均（ANOVA）または群の順位分布（クラスカル・ウォリス）に統計的に有意な差があるかどうか。しかし、仮定、統計的検出力、結果の解釈において異なります。

本記事では、どちらの検定を使うべきかを判断するための実践的な枠組みを提供し、同じデータセットに対して両方の分析を行い、結果の解釈方法を説明します。一元配置分散分析計算ツールまたはクラスカル・ウォリス計算ツールを使って、すぐに検定を実行できます。

比較一覧表

| 特徴 | 一元配置分散分析 | クラスカル・ウォリスH検定 | |--------------------------|-----------------------------------|--------------------------------------| | 種類 | パラメトリック | ノンパラメトリック | | 帰無仮説 | すべての群平均が等しい | すべての群の順位分布が等しい | | データの水準 | 連続変数（間隔/比率尺度） | 少なくとも順序尺度 | | 正規性の仮定 | あり | なし | | 等分散の仮定 | あり（等分散性） | なし（ただし類似した分布形状が望ましい） | | 比較対象 | 平均値 | 平均順位（中央値に近い指標） | | 検定統計量 | F比 | H統計量（カイ二乗近似） | | 検出力 | 仮定が満たされた場合はより高い | やや低い（ANOVAの約95%） | | 外れ値への頑健性 | 低い | 高い | | 事後検定 | Tukey HSD, Bonferroni, Scheffe | Dunn検定（Bonferroni補正付き） | | 効果量 | イータ二乗、オメガ二乗 | イプシロン二乗、順位双列相関r | | 推奨最小群サイズ | 1群あたり約15～20 | 1群あたり約5（柔軟） |

一元配置分散分析を使うべき場合

以下の場合にANOVAを選択します：

各群内で正規性が満たされている。 Shapiro-Wilk検定とQ-Qプロットで確認します。群サイズがほぼ等しく、1群あたりn > 25～30の場合、ANOVAは軽度の非正規性に対して頑健です。
群間の分散がほぼ等しい。 Levene検定のp値が0.05を超えていれば等分散性が支持されます。分散が不等な場合は、代わりにWelchのANOVAを使用してください。
最大の統計的検出力が必要。 仮定が満たされている場合、ANOVAは群間の差を検出するための最も検出力の高い検定です。
群平均を解釈したい。 ANOVAは母平均が異なるかどうかを直接検定し、それが関心のある量であることが多いです。

クラスカル・ウォリス検定を使うべき場合

以下の場合にクラスカル・ウォリス検定を選択します：

正規性が満たされず、サンプルサイズが小さい（1群あたりn < 15～20）。歪んだ分布、裾の重い分布、または順序データはすべてクラスカル・ウォリス検定が適しています。
外れ値が存在し、除去する正当な理由がない。クラスカル・ウォリス検定は順位を使用するため、極端な値の影響は限定的です。
データが順序尺度である。 リッカート尺度の評定（例：1～5の満足度スコア）は、順位に基づく検定でより適切に分析できます。
サンプルサイズが非常に小さいか不均等である。 クラスカル・ウォリス検定は分布に関する仮定が少ないため、小標本でもより安全に使用できます。

例題データセット

ある研究者が3つの教授法（講義、ディスカッション、体験学習）の試験成績（100点満点）に対する効果を比較します。各群には10名の学生がいます。

| 学生 | 講義 | 学生 | ディスカッション | 学生 | 体験学習 | |------|------|------|----------------|------|---------| | 1 | 72 | 11 | 78 | 21 | 85 | | 2 | 68 | 12 | 82 | 22 | 88 | | 3 | 75 | 13 | 76 | 23 | 92 | | 4 | 70 | 14 | 80 | 24 | 86 | | 5 | 65 | 15 | 74 | 25 | 90 | | 6 | 71 | 16 | 85 | 26 | 84 | | 7 | 67 | 17 | 79 | 27 | 91 | | 8 | 73 | 18 | 77 | 28 | 87 | | 9 | 69 | 19 | 83 | 29 | 93 | | 10 | 74 | 20 | 81 | 30 | 89 |

記述統計

| 群 | n | 平均 | 中央値 | SD | 最小 | 最大 | |------------|-----|-------|--------|------|------|------| | 講義 | 10 | 70.40 | 70.50 | 3.17 | 65 | 75 | | ディスカッション | 10 | 79.50 | 79.50 | 3.37 | 74 | 85 | | 体験学習 | 10 | 88.50 | 88.50 | 3.03 | 84 | 93 |

ステップ1：仮定の確認

正規性（Shapiro-Wilk検定）

| 群 | W | p値 | |------------|-------|---------| | 講義 | 0.964 | 0.831 | | ディスカッション | 0.958 | 0.762 | | 体験学習 | 0.971 | 0.898 |

すべてのp値が0.05を超えています。どの群でも正規性は棄却されません。

等分散性（Levene検定）

| LeveneのF | df1 | df2 | p値 | |-----------|-----|-----|--------| | 0.089 | 2 | 27 | 0.915 |

p値は0.915であり、分散に有意な差がないことを示しています。等分散性は満たされています。

結論： ANOVAの両方の仮定が満たされています。これらのデータにはANOVAが適切な選択です。ただし、比較のために両方の分析を実行します。

一元配置分散分析の実行

分散分析表

| 変動因 | SS | df | MS | F | p値 | |--------------|----------|----|---------|--------|---------| | 群間 | 1636.20 | 2 | 818.10 | 80.80 | < 0.001 | | 群内 | 273.30 | 27 | 10.12 | | | | 合計 | 1909.50 | 29 | | | |

結果： F(2, 27) = 80.80, p < .001。

効果量

| 指標 | 値 | 解釈 | |--------------|-------|--------| | イータ二乗 | 0.857 | 大 | | オメガ二乗 | 0.846 | 大 |

教授法が試験成績の分散の約85%を説明しています。

事後検定：TukeyのHSD

| 比較 | 平均差 | SE | q | p値 | 95% CI | |----------------------------|--------|------|--------|---------|-----------------| | ディスカッション vs 講義 | 9.10 | 1.42 | 6.40 | < 0.001 | [5.63, 12.57] | | 体験学習 vs 講義 | 18.10 | 1.42 | 12.74 | < 0.001 | [14.63, 21.57] | | 体験学習 vs ディスカッション | 9.00 | 1.42 | 6.33 | < 0.001 | [5.53, 12.47] |

すべてのペアワイズ差が有意です。体験学習の成績が最も高く、次いでディスカッション、講義の順です。

クラスカル・ウォリス検定の実行

順位付けの手順

クラスカル・ウォリス検定は、30の観測値すべてを合わせた生のスコアを順位に置き換えます。

| 群 | 平均順位 | 順位和 | |------------|-----------|-----------| | 講義 | 5.85 | 58.5 | | ディスカッション | 15.65 | 156.5 | | 体験学習 | 25.00 | 250.0 |

検定結果

| 統計量 | 値 | |---------|---------| | H | 24.83 | | df | 2 | | p値 | < 0.001 |

結果： H(2) = 24.83, p < .001。3つの教授法間で試験成績に有意な差があります。

効果量（イプシロン二乗）

イプシロン二乗 = H / (N - 1)

イプシロン二乗 = 24.83 / 29 = 0.856

これはANOVAのイータ二乗と一致しており、どちらも非常に大きな効果を示しています。

事後検定：Dunn検定（Bonferroni補正付き）

| 比較 | Z | p（補正後） | 有意か？ | |----------------------------|--------|-----------|---------| | ディスカッション vs 講義 | -2.89 | 0.012 | はい | | 体験学習 vs 講義 | -5.65 | < 0.001 | はい | | 体験学習 vs ディスカッション | -2.76 | 0.017 | はい |

結論はANOVAの事後検定結果と一致します：3つの群すべてが互いに有意に異なっています。

結果の並行比較

| 側面 | ANOVA | クラスカル・ウォリス | |------------------------|------------------------------|-------------------------------| | 検定統計量 | F(2, 27) = 80.80 | H(2) = 24.83 | | p値 | < 0.001 | < 0.001 | | 効果量 | eta-sq = 0.857 | epsilon-sq = 0.856 | | 事後検定の結論 | すべてのペアが有意 (p < .001) | すべてのペアが有意 (p < .02) | | 解釈 | 平均値に基づく | 順位に基づく |

この例では、ANOVAの仮定が満たされており効果が非常に大きいため、両方の検定が同じ結論に達しています。

結果が乖離する場合

2つの検定が異なる結果を示すことがあります：

外れ値が存在する場合。 ANOVAは平均と分散を膨張させる極端な値に敏感です。クラスカル・ウォリス検定は順位を使用するため、耐性があります。
分布が歪んでいる場合。 右に歪んだデータと小標本の場合、ANOVAは検出力を失ったり、誤解を招くp値を示す可能性があります。クラスカル・ウォリス検定は有効なままです。
群の分布が異なる形状を持つ場合。 クラスカル・ウォリス検定は厳密には順位分布が同一かどうかを検定します。群の中央値が同じでも散らばりが異なる場合、有意なクラスカル・ウォリス検定は位置の差ではなく形状の差を反映している可能性があります。

乖離の例

講義群に外れ値を追加する場合を考えます：学生5のスコアを65から25に変更します。

| 検定 | 外れ値なし | 外れ値あり | |------------------|-------------|-------------| | ANOVA p値 | < 0.001 | < 0.001 | | K-W p値 | < 0.001 | < 0.001 | | 講義の平均 | 70.40 | 66.40 | | 講義の中央値 | 70.50 | 70.50 |

効果が大きいため、この場合は両方の検定が有意なままです。しかし、外れ値によって平均が引き下げられるため、ANOVAのF統計量がより大きく変化します。境界的なケースでは、外れ値がANOVAを非有意にする一方、クラスカル・ウォリス検定は有意なままとなる可能性があります。

判断フローチャート

以下の順序に従って検定を選択します：

従属変数は少なくとも順序尺度ですか？
- いいえ：別の検定を使用します（例：名義データにはカイ二乗検定）。
- はい：次に進みます。
3群以上の独立した群がありますか？
- いいえ：対応のないt検定またはマン・ホイットニーU検定を使用します。
- はい：次に進みます。
データは連続変数（間隔/比率尺度）ですか？
- いいえ（順序尺度のみ）：クラスカル・ウォリス検定を使用します。
- はい：次に進みます。
各群で正規性が満たされていますか？（Shapiro-Wilk p > 0.05またはn > 25～30）
- いいえ：クラスカル・ウォリス検定を使用します。
- はい：次に進みます。
等分散性は満たされていますか？（Levene検定 p > 0.05）
- いいえ：WelchのANOVAを使用します（等分散を仮定しません）。
- はい：一元配置分散分析を使用します。

実践的な推奨事項

常に最初に仮定を確認してください。 1つの検定をデフォルトにしないでください。データに基づいて選択しましょう。
疑わしい場合は両方の検定を報告してください。 仮定が境界的な場合、両方の分析を実行して一致することを示すと、知見の信頼性が高まります。一致しない場合は、理由とどちらがより適切かを議論してください。
不等分散にはWelchのANOVAを使用してください。 正規性が満たされているが分散が異なる場合、クラスカル・ウォリス検定よりも優れた代替手段です。
研究の問いを考慮してください。 読者が平均値（例：平均テストスコア）に関心がある場合、ANOVAがその問いに直接答えます。順序的なランキングやリッカート尺度のデータに関心がある場合、クラスカル・ウォリス検定がより自然です。
検出力は重要です。 ANOVAは2群の場合のt検定の約95%の検出力を持ち、クラスカル・ウォリス検定は仮定が満たされた場合のANOVAの約95%の検出力を持ちます。クラスカル・ウォリス検定を不必要に使用するコストは小さいですが実在します。

ご自身で試してみましょう

以下のオンラインツールで群間比較分析を実行できます：

一元配置分散分析計算ツール - パラメトリック分析用
クラスカル・ウォリス計算ツール - ノンパラメトリック分析用
正規性検定計算ツール - 仮定の確認用

よくある質問

2群だけでもクラスカル・ウォリス検定を使えますか？

技術的には可能ですが、マン・ホイットニーU検定が2群のノンパラメトリック検定の標準です。2群に適用した場合、クラスカル・ウォリス検定はマン・ホイットニーU検定と同じp値を返します。明確さのためにマン・ホイットニーを使用してください。

群のサイズが不均等な場合はどうすればよいですか？

ANOVAもクラスカル・ウォリス検定も不均等な群サイズを扱うことができます。ただし、群サイズが不均等な場合、ANOVAは等分散性の違反に対してより敏感です。その場合は、WelchのANOVAまたはクラスカル・ウォリス検定を使用してください。

クラスカル・ウォリス検定は中央値を比較しますか、それとも平均順位を比較しますか？

厳密に言えば、クラスカル・ウォリス検定は群間で順位分布が同一かどうかを検定します。一般的に中央値の比較と記述されますが、これは群の分布が同じ形状と散らばりを持つ場合にのみ正確です。形状が異なる場合、有意な結果は中心傾向ではなく散らばりの違いを反映している可能性があります。

クラスカル・ウォリス検定の後にどの事後検定を行うべきですか？

Dunn検定がクラスカル・ウォリス検定の標準的な事後検定手順です。多重比較の補正（Bonferroni、Holm、またはBenjamini-Hochberg）を適用します。一部の研究者はBonferroni補正付きのペアワイズマン・ホイットニー検定を使用しますが、Dunn検定の方がオムニバス検定と同じ順位付けを使用するため、より適切です。

リッカート尺度のデータにANOVAを使えますか？

これは議論の的です。厳密な立場の研究者はリッカート尺度が順序尺度であり、ノンパラメトリック手法で分析すべきだと主張します。実用的な立場の研究者は、尺度の各点が合理的に等間隔で、サンプルサイズが十分な場合、ANOVAは頑健であると指摘します。安全な折衷案として：個々のリッカート項目にはクラスカル・ウォリス検定を使用し、合成スコア（複数の項目の合計や平均）にはANOVAを使用します。合成スコアはより連続的で正規分布に近い傾向があります。

各検定に必要なサンプルサイズはどのように計算しますか？

ANOVAの場合、予想される効果量（f）、有意水準アルファ（通常0.05）、希望する検出力（通常0.80）、および群数を指定して検出力分析を行います。クラスカル・ウォリス検定の場合、ANOVAのサンプルサイズを漸近相対効率（ARE）で割ります。正規分布データの場合、AREは約0.955です。実際には、クラスカル・ウォリス検定にはANOVAのサンプルサイズを約5～15%増やしてください。

二元配置分散分析のノンパラメトリック代替はありますか？

要因計画分散分析に対して広く認められたノンパラメトリック代替はありません。Scheirer-Ray-Hare検定はクラスカル・ウォリスを2因子に拡張しますが、統計的特性に限界があります。非正規データを含む複雑なデザインには、専門的なソフトウェアで実装された順列検定や順位に基づく手法を検討してください。