どの統計検定を使うべき？ ― 初心者のための完全ガイド

統計学で最もよくある質問

データを収集し、スプレッドシートを整理したものの、画面を前にして「どの統計検定を使えばいいのだろう？」と悩んでいませんか。これは、初めて調査方法論の授業を受ける学生の間で最もよく聞かれる質問と言っても過言ではありません。そして、間違った検定を選んでしまうと、分析全体が台無しになりかねません。

幸いなことに、統計検定の選択は論理的な意思決定プロセスに従います。データに関するいくつかの簡単な質問に答えるだけで、選択肢を素早く絞り込むことができます。本ガイドでは、そのプロセスをステップごとに解説します。

ステップ1：リサーチクエスチョンを明確にする

検定について考える前に、データから何を明らかにしたいのかを整理しましょう。ほとんどのリサーチクエスチョンは、以下のいずれかのカテゴリに分類されます。

グループの比較： 2つ以上のグループ間に差があるか？
関係性の検討： 2つの変数間に関連があるか？
結果の予測： 1つ以上の変数で別の変数を予測できるか？

どのタイプの問いを立てているかによって、必要な検定の大まかな種類が決まります。

ステップ2：変数の種類を特定する

統計検定を選ぶ上で最も重要な要素は、扱うデータの種類です。変数は一般的に2つのカテゴリに分類されます。

連続変数（量的変数） は、値の差に意味のある数値尺度で測定されます。例としては、身長、テストの点数、反応時間、収入などがあります。

カテゴリ変数（質的変数） は、観測値を明確なグループやカテゴリに分類します。例としては、性別、処置条件、診断の種類、はい/いいえの回答などがあります。

以下の表は、変数の種類の組み合わせに応じた代表的な検定をまとめたものです。

| 結果変数 | 予測変数 | 代表的な検定 | |---------|---------|------------| | 連続 | カテゴリ（2群） | t検定 | | 連続 | カテゴリ（3群以上） | 分散分析（ANOVA） | | 連続 | 連続 | 相関分析、回帰分析 | | カテゴリ | カテゴリ | カイ二乗検定 |

ステップ3：グループ数を確認する

グループを比較する場合、グループ数が重要です。

2群の場合

ちょうど2つのグループを比較する場合、t検定が基本的なツールです。ただし、どの種類のt検定を使うかを判断する必要があります。

対応のないt検定（独立標本t検定）： 2つのグループが異なる参加者で構成されている場合に使用します。例えば、処置群と対照群の試験成績を比較する場合です。
対応のあるt検定（対応標本t検定）： 同じ参加者を2回測定する場合、またはペアでマッチングされた参加者がいる場合に使用します。例えば、介入前後の不安スコアを比較する場合です。

StatMateのt検定計算機を使えば、独立標本と対応標本の両方のt検定を簡単に実行できます。

3群以上の場合

3つ以上のグループを比較する場合は、複数のt検定を繰り返す代わりに**分散分析（ANOVA）**を使用します。t検定を何度も実施すると、第一種の過誤（タイプIエラー）率が膨張し、実際には存在しない差を「有意」と判定してしまう確率が高まります。

一元配置分散分析： 1つの独立変数に3つ以上の水準がある場合。例えば、3つの教授法間でテスト成績を比較する場合。
反復測定分散分析： 同じ参加者が3つ以上の条件で測定される場合。
二元配置分散分析： 2つの独立変数を同時に検討し、交互作用効果を検定する場合。

ANOVAで有意な結果が得られた場合、どのグループ間に差があるかを特定するために**事後検定（ポストホック検定）**が必要になります。代表的な方法としてBonferroni法やTukey法があります。

ステップ4：データが対応のあるものか独立のものかを確認する

この区別は非常に重要でありながら、見落とされがちです。

独立標本（対応のないデータ） とは、一方のグループの観測値が、もう一方のグループの観測値とまったく無関係であることを意味します。異なる参加者、異なる被験者であり、自然な対応関係がありません。

対応標本（対応のあるデータ） とは、一方のグループの各観測値が、もう一方のグループに特定の対応する値を持つことを意味します。これは、同じ人物を2回測定する場合、きょうだいやマッチングされた参加者がグループ間に分かれる場合、または同一被験者から2つの測定値を取得する場合に生じます。

対応のあるデータに独立標本用の検定を使う（またはその逆）と、誤った結果が得られます。迷った場合は、「グループ間の観測値に意味のある1対1の対応を描くことができるか？」と自問してください。答えが「はい」であれば、データは対応があります。

ステップ5：仮定の確認とノンパラメトリック検定の検討

ここまで紹介した検定の多くはパラメトリック検定であり、データが一定の条件を満たすこと、特に結果変数がおおよそ正規分布に従い、グループ間の分散がほぼ等しいことを前提としています。

これらの仮定が満たされない場合、2つの選択肢があります。パラメトリック検定のロバスト版を使用するか、分布に関する仮定が少ないノンパラメトリック検定に切り替えるかです。

パラメトリック検定とノンパラメトリック検定の対応表

| パラメトリック検定 | ノンパラメトリック検定 | 切り替えの目安 | |------------------|---------------------|--------------| | 対応のないt検定 | マン・ホイットニーU検定 | 小標本、歪んだ分布、順序尺度データ | | 対応のあるt検定 | ウィルコクソンの符号順位検定 | 差分の非正規性、順序尺度データ | | 一元配置分散分析 | クラスカル・ウォリスH検定 | 非正規データ、不等分散、順序尺度データ | | 反復測定分散分析 | フリードマン検定 | 反復条件にわたる非正規データ | | ピアソン相関 | スピアマン順位相関 | 非線形関係、順序尺度データ、外れ値 |

実用的な目安として、各グループのサンプルサイズが30以上あり、データが極端に歪んでいなければ、パラメトリック検定は一般に十分頑健です。サンプルサイズが小さい場合や、明らかに正規分布でない場合は、ノンパラメトリック検定がより安全な選択です。

StatMateでは、マン・ホイットニーU検定、ウィルコクソンの符号順位検定、クラスカル・ウォリスH検定、フリードマン検定など、主要なノンパラメトリック検定を全てサポートしています。

テキスト形式の意思決定フローチャート

以下のフローに従って、あなたの状況に適した検定を見つけましょう。

結果変数（従属変数）の種類は？

カテゴリ変数の場合：

1つの変数における観測度数と期待度数の比較 → カイ二乗適合度検定
2つのカテゴリ変数間の関係の検討 → カイ二乗独立性検定
2×2のクロス表でサンプルサイズが小さい場合 → フィッシャーの正確検定

連続変数の場合：

グループの比較か、関係性の検討か？

グループの比較：
- グループ数は？
  - 2群：
    - 独立 → 対応のないt検定（またはマン・ホイットニーU検定）
    - 対応あり → 対応のあるt検定（またはウィルコクソンの符号順位検定）
  - 3群以上：
    - 独立 → 一元配置分散分析（またはクラスカル・ウォリスH検定）
    - 対応あり → 反復測定分散分析（またはフリードマン検定）
  - 2つの独立変数がある場合：
    - → 二元配置分散分析
関係性の検討：
- 2つの連続変数間の関係 → ピアソン相関（またはスピアマン相関）
- 1つの変数から別の変数を予測 → 単回帰分析
- 複数の予測変数から1つの変数を予測 → 重回帰分析
- 結果変数が二値（0/1）の場合 → ロジスティック回帰分析

実例で学ぶ検定選択

例1： 心理学者が、セラピーを受けている患者と待機リストの患者の間でうつ病スコアを比較します。結果変数は連続（うつ病スコア）、2つの独立したグループがあり、サンプルサイズも十分です。適切な検定：対応のないt検定。

例2： 栄養学者が、同じ25名の参加者について食事変更の前後で血圧を測定します。結果変数は連続で、同一の人物から2回の測定値があり、標本サイズは中程度です。適切な検定：対応のあるt検定（n = 25で正規性に疑問がある場合はウィルコクソンの符号順位検定）。

例3： マーケットリサーチャーが、製品の好み（製品A、B、C）が年齢層（30歳未満、30～50歳、50歳超）によって異なるかを調べたいと考えています。両方の変数がカテゴリ変数です。適切な検定：カイ二乗独立性検定。

例4： 教育者が、3つの異なる個別指導法が試験成績に異なる効果をもたらすかを、各グループ15名の学生で検証します。結果変数は連続で、3つの独立したグループがあります。適切な検定：一元配置分散分析（仮定が満たされない場合はクラスカル・ウォリスH検定）。

よくある間違いと注意点

統計検定を選ぶ際に、初心者がよく犯すミスをいくつか紹介します。

複数のt検定を繰り返す： 3群以上を比較するのに、t検定をペアごとに何度も行うのは誤りです。分散分析（ANOVA）を使いましょう。
対応の有無を無視する： 前後比較のデータに対応のないt検定を使ってしまうケースが多く見られます。対応の有無を必ず確認してください。
仮定の確認を怠る： パラメトリック検定を使う前に、正規性や等分散性の仮定が満たされているか確認することが重要です。
効果量を報告しない： p値だけでなく、効果量（Cohenのdやη²など）も報告することで、結果の実質的な意味がより明確になります。

StatMateで最適な検定を選ぼう

どの検定が自分のデータに合うかまだ迷っている場合、StatMateには対話型の検定選択ウィザードが用意されています。変数の種類や研究デザインに関するいくつかの質問に答えるだけで、StatMateが適切な検定を推薦し、仮定の確認を行い、APA形式の出力で分析を実行します。

各検定ごとに仮定の自動チェック機能も搭載されているため、正規性や等分散性の検証も一度に行えます。結果はクリップボードにコピーしたり、PDFやWord文書としてエクスポートしたりすることも可能です。

適切な統計検定を選ぶことは、決して難しいことではありません。判断の背後にあるロジックを一度理解すれば、どのデータセットにも応用できる再現可能なプロセスになります。