サンプルサイズの決め方 — 検出力分析の実践ガイド

サンプルサイズは想像以上に重要です

研究者が最も頻繁に直面する問いの一つ、それは「参加者は何人必要か？」です。

少なすぎるサンプルでは実際に存在する効果を見逃すリスクがあり、多すぎるサンプルは時間・費用・倫理的コストの無駄につながります。勘や前例に頼るのではなく、科学的根拠に基づいてサンプルサイズを決定する方法があります。

検出力分析（パワー分析）は、データ収集を開始する前に適切なサンプルサイズを体系的に求めるための統計的手法です。助成金申請書の作成、臨床試験の計画、卒業論文の実験設計など、あらゆる研究場面で欠かせないステップです。

本記事では、検出力分析の基本原理から、主要な統計検定ごとの具体的なサンプルサイズ早見表、そしてよくある間違いと正しい報告方法までを網羅的に解説します。

第一種の過誤と第二種の過誤を理解する

サンプルサイズの計算に入る前に、統計的検定における2種類の誤りを理解しておく必要があります。

| 過誤の種類 | 何が起こるか | 結果 | |------------|-------------|------| | 第一種の過誤（α） | 実際には効果がないのに「効果がある」と結論づける | 偽陽性（誤警報） | | 第二種の過誤（β） | 実際に存在する効果を見逃す | 偽陰性（発見の見落とし） |

第一種の過誤は有意水準αで制御され、第二種の過誤はβで表されます。検出力（1 − β）は、真の効果が存在するときにそれを正しく検出できる確率です。

サンプルサイズが小さいほど第二種の過誤（見逃し）のリスクが高まります。検出力分析はこのリスクを許容範囲内に抑えるために必要な参加者数を算出します。

具体例： ある教育介入プログラムの効果を検証する研究を考えてみましょう。参加者が少なすぎると、プログラムに本当に効果があっても「有意差なし」という結論になりかねません。これが第二種の過誤であり、せっかくの有効な介入が見過ごされてしまう結果になります。

検出力分析の4つの構成要素

検出力分析は、以下の4つの要素が相互に関連しています。3つの値が決まれば、残り1つを計算できます。

1. 有意水準（α）

帰無仮説が正しいにもかかわらず棄却してしまう確率です。

一般的な基準値：0.05（5%の偽陽性リスクを許容）
より厳密な研究では0.01を使用
探索的研究では0.10も許容される場合があります

αを小さくすると偽陽性のリスクは減りますが、同じ検出力を維持するためにはより大きなサンプルサイズが必要になります。

2. 統計的検出力（1 − β）

真の効果が存在する場合にそれを正しく検出できる確率です。

一般的な推奨値：0.80（80%の確率で効果を検出）
確証的研究や臨床試験では0.90以上が推奨されます
検出力が低すぎる研究は、実施する意味自体が問われることがあります

検出力0.80は「真の効果を見逃す確率が20%」であることを意味します。重要な臨床的意思決定に関わる研究では、この見逃しリスクをさらに低くすべきです。

3. 効果量

検出したい効果の大きさを数値化した指標です。先行研究やパイロットスタディ、あるいはCohenの慣習的基準に基づいて設定します。

| 検定 | 効果量指標 | 小 | 中 | 大 | |------|-----------|-----|-----|-----| | t検定 | Cohenのd | 0.20 | 0.50 | 0.80 | | 分散分析（ANOVA） | Cohenのf | 0.10 | 0.25 | 0.40 | | 相関 | r | 0.10 | 0.30 | 0.50 | | カイ二乗検定 | Cohenのw | 0.10 | 0.30 | 0.50 |

効果量の設定は検出力分析で最も判断が難しい部分です。以下の3つのアプローチが一般的です。

先行研究に基づく推定： 同一または類似テーマの公表された研究から効果量を参照します。最も望ましい方法です。
パイロットスタディの結果： 予備調査で得られたデータから効果量を推定します。ただしサンプルサイズが小さいため推定精度には限界があります。
Cohenの慣習的基準： 先行研究もパイロットデータもない場合の最終手段です。安易に「中程度」をデフォルトにしないよう注意が必要です。

注意： 効果量を小さく見積もるほど必要なサンプルサイズは大きくなります。研究の実現可能性と検出したい効果の大きさのバランスを慎重に検討してください。

4. サンプルサイズ（N）

上記3つの値から算出される、必要な参加者数です。α、検出力、効果量を固定すれば、最低限必要なNが一意に決まります。

これら4つの要素の関係をまとめると：

効果量が小さいほど → 必要なNは大きくなる
検出力を高く設定するほど → 必要なNは大きくなる
有意水準を厳しく（小さく）するほど → 必要なNは大きくなる

分析手法別サンプルサイズ早見表

以下の表は、α = 0.05、検出力 = 0.80を前提とした場合の必要サンプルサイズです。研究計画の初期段階で概算を把握する際にお役立てください。

対応のないt検定（独立2群）

| 効果量 | 各群 | 合計 | |--------|------|------| | 0.20（小） | 394 | 788 | | 0.50（中） | 64 | 128 | | 0.80（大） | 26 | 52 |

小さい効果量を検出するには各群約400人が必要ですが、大きい効果量であれば各群26人で十分です。研究で想定される効果量に応じて、必要なサンプルサイズが大きく変わることがわかります。

一元配置分散分析（3群）

| 効果量 | 各群 | 合計 | |--------|------|------| | 0.10（小） | 322 | 966 | | 0.25（中） | 52 | 156 | | 0.40（大） | 21 | 63 |

群数が増えると、同じ検出力を維持するために必要な全体のサンプルサイズも増加します。3群以上の比較を行う場合は、この点に注意してください。

相関分析

| 効果量 | 合計N | |--------|-------| | 0.10（小） | 783 | | 0.30（中） | 85 | | 0.50（大） | 29 |

相関分析では群分けがないため、合計Nのみを考慮します。弱い相関（r = 0.10）を検出するには約800人のデータが必要である点に留意してください。

カイ二乗検定（2×2、自由度=1）

| 効果量 | 合計N | |--------|-------| | 0.10（小） | 785 | | 0.30（中） | 88 | | 0.50（大） | 32 |

カイ二乗検定のサンプルサイズは自由度（クロス集計表のサイズ）によっても変わります。上記は最も基本的な2×2の場合の値です。

補足： 上記の値はすべて理論的な最小値です。実際の研究では脱落（データ欠損）を見込んで、算出されたサンプルサイズに10〜20%程度を上乗せすることが推奨されます。たとえば、計算上128名が必要であれば、脱落率15%を考慮して152名を募集するのが適切です。

よくある間違いと注意点

サンプルサイズの決定において、以下のミスは特に頻繁に見られます。

検出力分析を省略する — 「前の研究がN=30だったから今回も30で」という決め方は科学的根拠がありません。研究ごとに検定方法や想定効果量が異なるため、毎回検出力分析を行う必要があります。
常に中程度の効果量をデフォルトにする — 効果量は先行研究や理論的根拠に基づいて設定すべきです。根拠なく中程度を選ぶと、サンプルサイズが過小または過大になる可能性があります。
脱落率を考慮しない — 縦断研究やアンケート調査では、参加者の脱落が避けられません。最終的に必要な人数ではなく、脱落を見込んだ人数を募集してください。
事後検出力分析に頼る — データ収集後に行う事後検出力分析は、観測されたp値と数学的に冗長な関係にあり、結果の解釈にほとんど有用な情報を提供しません。検出力分析は必ず事前に行うべきです。
サブグループ分析を忘れる — 性別・年齢層別の分析を予定している場合、各サブグループに十分なサンプルサイズが必要です。全体のNだけでなく、サブグループごとのNも検討してください。

サンプルサイズ決定の報告方法

論文やレポートでサンプルサイズの根拠を報告する際には、以下の情報を含めてください。多くの学術誌や倫理審査委員会がこの情報の開示を要求しています。

使用する予定の統計検定（例：対応のないt検定）
有意水準（α）（例：0.05）
目標検出力（1 − β）（例：0.80）
想定効果量とその根拠（例：先行研究に基づきCohenのd = 0.50）
算出されたサンプルサイズ（N）
使用したソフトウェア（例：G*Power 3.1、StatMate）

報告例：

サンプルサイズは、対応のないt検定に対する事前検出力分析に基づいて決定した。有意水準α = .05、検出力1 − β = .80、先行研究（田中, 2024）に基づく中程度の効果量（Cohenのd = 0.50）を想定し、各群64名、合計128名が必要と算出された（StatMateにて計算）。脱落率15%を見込み、各群76名、合計152名を募集する計画とした。

このように根拠を明示することで、研究の透明性が高まり、査読者や読者がサンプルサイズの妥当性を評価できるようになります。

StatMateでサンプルサイズを計算しよう

サンプルサイズの計算は複雑に感じるかもしれませんが、StatMateのサンプルサイズ計算機を使えば、わずか数ステップで必要な参加者数を算出できます。

StatMateのサンプルサイズ計算機でできること：

t検定・分散分析・相関・カイ二乗検定に対応したサンプルサイズ計算
効果量・有意水準・検出力を自由に設定可能
検出力曲線の視覚的な表示で、パラメータ変更の影響を直感的に把握
APA形式の結果出力とクリップボードへのワンクリックコピー
PDF・Word形式でのエクスポートで、そのまま論文に添付可能

数式を手計算したりG*Powerの複雑な設定に悩んだりする必要はありません。研究デザインに合わせたパラメータを入力するだけで、統計的に裏付けられたサンプルサイズが即座に得られます。

適切なサンプルサイズの設計は、信頼性の高い研究成果への第一歩です。

StatMateでサンプルサイズを計算する →