サンプルサイズは想像以上に重要です
研究者が最も頻繁に直面する問いの一つ、それは「参加者は何人必要か?」です。少なすぎるサンプルでは実際に存在する効果を見逃すリスクがあり、多すぎるサンプルは時間・費用・倫理的コストの無駄につながります。
検出力分析(パワー分析)は、データ収集を開始する前に適切なサンプルサイズを体系的に求めるための統計的手法です。IRB(倫理審査委員会)の申請や学位論文のプロポーザルでは、正式な検出力分析が必須とされることがほとんどです。
本記事では、検出力分析の理論的基礎から、主要な統計検定ごとの具体的なサンプルサイズ早見表、実用的なツールとワークフロー、現実的な調整方法、そしてよくある間違いまでを網羅的に解説します。
検出力分析の基本原理
第一種の過誤と第二種の過誤
サンプルサイズの計算に入る前に、統計的検定における2種類の誤りを理解しておく必要があります。
| 過誤の種類 | 何が起こるか | 結果 | 制御手段 | |------------|-------------|------|----------| | 第一種の過誤(α) | 実際には効果がないのに「効果がある」と結論づける | 偽陽性 — 存在しない効果を追求して資源を浪費 | 有意水準(α) | | 第二種の過誤(β) | 実際に存在する効果を見逃す | 偽陰性 — 発見の見落とし、研究の浪費 | 統計的検出力(1 − β) |
**有意水準(α)**は第一種の過誤を許容する最大確率で、慣例的に0.05が使用されます。**検出力(1 − β)**は真の効果が存在するときにそれを正しく検出できる確率で、0.80が広く受け入れられている最低基準です。
この2つの過誤は、固定されたサンプルサイズにおいて逆の関係にあります。αを厳格にすると(例:0.05の代わりに0.01)偽陽性は減りますが、サンプルサイズを増やさなければ偽陰性が増加します。この緊張関係がサンプルサイズ計画の核心です。
効果量 — 最も誤解されやすい要素
効果量は研究対象の現象の大きさを定量化します。サンプルサイズの決定に最も大きな影響を与える要素ですが、研究者が最も苦労する部分でもあります。
統計検定ごとに異なる効果量指標を使用します:
| 検定 | 効果量指標 | 小 | 中 | 大 | |------|-----------|-----|-----|-----| | t検定 | Cohenのd | 0.20 | 0.50 | 0.80 | | 分散分析 | Cohenのf | 0.10 | 0.25 | 0.40 | | 分散分析 | 偏η² | 0.01 | 0.06 | 0.14 | | 相関 | r | 0.10 | 0.30 | 0.50 | | カイ二乗検定 | Cohenのw | 0.10 | 0.30 | 0.50 | | 回帰分析 | f² | 0.02 | 0.15 | 0.35 |
Cohen(1988)が提案したこれらの基準は、先行研究がない場合の参考値ですが、文脈に応じた推定の代替として作られたものではありません。効果量推定の最良の情報源を優先順位順に示します:
- 対象研究分野のメタ分析
- 類似の母集団と測定方法を用いた個別の先行研究
- 自身の予備研究のパイロットデータ
- SESOI(最小関心効果量) — 理論的または実用的に意味のある最小の効果
- Cohenの慣習的基準 — 最後の手段であり、デフォルトではない
4つの要素の相互関係
検出力分析は4つの相互に関連した量を含みます。3つを固定すれば、残りの1つが数学的に決定されます:
- 有意水準(α): 帰無仮説の棄却基準。通常0.05。探索的研究では0.10、確証的研究では0.01または0.005。
- 検出力(1 − β): 真の効果を検出する確率。ほとんどの研究で最低0.80;臨床試験では0.90以上。
- 効果量: 検出したい効果の最小の大きさ。小さいほど大きなサンプルが必要。
- サンプルサイズ(N): 必要な観測数。
基本的な関係:
- αを小さくするほど → 必要なNは大きくなる
- 検出力を高くするほど → 必要なNは大きくなる
- 検出したい効果量が小さいほど → 必要なNは大きくなる
- 片側検定 → 両側検定より小さいサンプル(ただし強力な方向性の根拠が必要)
分析手法別サンプルサイズ早見表
対応のないt検定(独立2群)
各群に必要なサンプルサイズの近似式:
n ≈ 2 × ((z_α/2 + z_β) / d)²
α = .05、検出力 = .80の場合の各群サンプルサイズ:
| 効果量(Cohenのd) | 各群 | 合計 | |---------------------|------|------| | 0.20(小) | 394 | 788 | | 0.30 | 176 | 352 | | 0.50(中) | 64 | 128 | | 0.80(大) | 26 | 52 |
検出力を0.90に上げると、これらの数値は約30%増加します。例えば、中程度の効果量では各群86名(合計172名)が必要です。
対応のあるt検定
被験者内変動が除去されるため、独立デザインよりも大幅に少ない参加者で同じ検出力を確保できます:
α = .05、検出力 = .80の場合の必要ペア数:
| 効果量(Cohenのd) | ペア数 | |---------------------|--------| | 0.20(小) | 199 | | 0.50(中) | 34 | | 0.80(大) | 15 |
中程度の効果量を検出するのに、対応デザインは34名のみ必要ですが、独立デザインでは128名必要です — 73%の募集コスト削減。
一標本t検定
α = .05(両側検定)、検出力 = .80の場合:
| 効果量(Cohenのd) | 合計N | |---------------------|-------| | 0.20(小) | 199 | | 0.50(中) | 34 | | 0.80(大) | 15 |
一元配置分散分析
ANOVAではCohenのfを効果量として使用します。群数が増えるとサンプルサイズも増加します。
α = .05、検出力 = .80、3群の場合の各群サンプルサイズ:
| 効果量(Cohenのf) | 各群 | 合計 | |---------------------|------|------| | 0.10(小) | 322 | 966 | | 0.25(中) | 52 | 156 | | 0.40(大) | 21 | 63 |
群数が合計サンプルサイズに与える影響(中程度の効果量、α = .05、検出力 = .80):
| 群数 | 各群 | 合計 | |------|------|------| | 3 | 52 | 156 | | 4 | 45 | 180 | | 5 | 39 | 195 | | 6 | 35 | 210 |
相関分析
Pearson相関係数の有意性検定に必要なサンプルサイズ。
α = .05(両側検定)、検出力 = .80の場合:
| 効果量(r) | 合計N | |-------------|-------| | 0.10(小) | 783 | | 0.20 | 197 | | 0.30(中) | 85 | | 0.50(大) | 29 |
重回帰分析
回帰分析では、全体モデルと個々の予測変数の両方の検出力を考慮する必要があります。Cohenのf²が標準的な効果量指標です。
全体モデルの必要サンプルサイズ(α = .05、検出力 = .80):
| 予測変数数 | 小(f² = .02) | 中(f² = .15) | 大(f² = .35) | |-----------|-----------------|-----------------|-----------------| | 2 | 485 | 68 | 31 | | 5 | 647 | 92 | 43 | | 10 | 825 | 119 | 57 |
よく引用される経験則として、全体モデルにはN ≥ 50 + 8k(k = 予測変数数)、個々の予測変数にはN ≥ 104 + kがあります。ただし、これらの規則は不正確であり、正式な検出力分析の代替にはなりません。
反復測定分散分析
反復測定デザインは個人差を誤差分散の源泉から除去するため、被験者間デザインよりも効率的です。反復測定間の相関に応じて、サンプルサイズの節約は大きくなります。
必要参加者数(α = .05、検出力 = .80、3回測定、中程度の効果 f = 0.25):
| 反復測定間の相関 | 必要参加者数 | |----------------|------------| | 0.30(低) | 42 | | 0.50(中) | 28 | | 0.70(高) | 18 |
反復測定間の相関が高いほど、必要なサンプルサイズは小さくなります。測定ツールのテスト・リテスト信頼性が0.80であれば、20名未満で中程度の効果を検出でき、非常に効率的です。
重要な考慮事項: 反復測定デザインでは球面性の仮定を考慮する必要があります。球面性が違反されると、実際の第一種過誤率が名目水準を超えます。Greenhouse-GeisserまたはHuynh-Feldt補正は有効自由度を減少させ、検出力をわずかに低下させます。未補正の推定値より10〜15%多い参加者を計画してください。
二元配置分散分析
要因デザインでは、主効果と交互作用のどちらに検出力を合わせるか決める必要があります。交互作用効果は通常主効果より小さいため、より大きなサンプルが必要です。
近似的セルあたりサンプルサイズ(α = .05、検出力 = .80、2×2デザイン):
| 効果量(Cohenのf) | 主効果 | 交互作用 | |---------------------|--------|---------| | 0.10(小) | 322 | 787 | | 0.25(中) | 52 | 128 | | 0.40(大) | 21 | 52 |
交互作用の場合、保守的な推定は主効果に必要なサンプルの約2倍ですが、正確な数は平均の具体的なパターンに依存します。
カイ二乗独立性検定
カイ二乗検定ではCohenのwを効果量として使用し、自由度(df)も考慮します。
α = .05、検出力 = .80、2×2表(df = 1)の場合:
| 効果量(Cohenのw) | 合計N | |---------------------|-------| | 0.10(小) | 785 | | 0.30(中) | 88 | | 0.50(大) | 32 |
自由度が大きくなると(例:3×3表、df = 4)より大きなサンプルが必要です。中程度の効果量の3×3表には約133名が必要です。
ロジスティック回帰
ロジスティック回帰のサンプルサイズは全体Nではなくイベント数に依存します。よく引用される最低基準は予測変数あたり10イベント(EPV)ですが、シミュレーション研究ではより安定した推定のためにEPV 20を推奨しています。5つの予測変数と20%の予想イベント率を持つモデルの場合、最低EPV基準で5 × 10 / 0.20 = 250名の参加者が必要です。
G*Powerとその他のツールの活用
G*Powerステップバイステップガイド
G*Powerはサンプルサイズ計算に最も広く引用されている無料ソフトウェアです。最も一般的なシナリオ — 独立2群t検定の事前検出力分析のワークフロー:
- G*Powerを開き Test family → t tests を選択
- Statistical test を選択 → Means: Difference between two independent means (two groups)
- Type of power analysis を選択 → A priori: Compute required sample size
- パラメータを入力:
- Tail(s): Two
- Effect size d: 0.50(または研究者の推定値)
- α err prob: 0.05
- Power (1-β err prob): 0.80
- Allocation ratio N2/N1: 1
- Calculate をクリック — 各群および合計の必要サンプルサイズが出力されます
G*Powerはほぼすべての統計検定をサポートし、事前・事後・感度分析が可能です。ただし、インストールが必要で、初心者には敷居が高く、一部のOSで不安定な場合があります。
ツール比較
| 機能 | G*Power | StatMate | R(pwrパッケージ) | その他オンラインツール | |------|---------|----------|------------------|---------------------| | 費用 | 無料 | 無料 | 無料 | 様々 | | インストール | 必要 | 不要(Web) | 必要 | 不要 | | 対応検定 | 50以上 | t検定、ANOVA、相関、カイ二乗 | 20以上 | 通常2-5 | | 学習コスト | 高い | 最小 | 中程度(コーディング) | 最小 | | 視覚化 | 検出力曲線 | 検出力曲線 | カスタムプロット | ほぼなし | | 引用可能性 | 広く引用 | 可能 | 可能 | 様々 |
実務上の推奨: 計画段階での概算にはStatMateのサンプルサイズ計算機のようなオンラインツールを、論文に含める正式な検出力分析にはG*PowerやRのpwrパッケージを使用しましょう。
Rコードの例
Rに慣れた研究者のために、pwrパッケージが精密な計算を提供します:
# 独立2群t検定
library(pwr)
pwr.t.test(d = 0.50, sig.level = 0.05, power = 0.80, type = "two.sample")
# 結果: n = 63.77(各群) → 切り上げて64
# 一元配置分散分析(3群)
pwr.anova.test(k = 3, f = 0.25, sig.level = 0.05, power = 0.80)
# 結果: n = 52.40(各群) → 切り上げて53
# 相関分析
pwr.r.test(r = 0.30, sig.level = 0.05, power = 0.80)
# 結果: n = 84.07 → 切り上げて85
脱落率とデザイン効果の調整
脱落率の考慮
算出されたサンプルサイズは分析に含まれる最低人数であり、募集人数ではありません。縦断研究、臨床試験、アンケート調査では参加者の脱落が発生するため、募集目標を上方修正する必要があります。
調整後N = 必要N /(1 − 予想脱落率)
研究タイプ別の一般的な脱落率:
| 研究タイプ | 予想脱落率 | 調整係数 | |-----------|----------|---------| | 実験室実験(単回セッション) | 5% | × 1.05 | | アンケート調査 | 10-20% | × 1.11 〜 × 1.25 | | 縦断研究(6ヶ月) | 15-25% | × 1.18 〜 × 1.33 | | 臨床試験(12ヶ月以上) | 20-40% | × 1.25 〜 × 1.67 |
例えば、検出力分析で128名が必要で15%の脱落が予想される場合:128 /(1 − 0.15)= 151名を募集する必要があります。
クラスタリングデータのデザイン効果(DEFF)
参加者がクラスター(教室の生徒、病院の患者)内にネストされている場合、同じクラスター内の観測値が相関します。このクラスタリングは有効サンプルサイズを減少させます。**デザイン効果(DEFF)**でこの膨張を算出します:
DEFF = 1 +(m − 1)× ICC
ここでmは平均クラスターサイズ、ICCは級内相関係数です。標準的なサンプルサイズにDEFFを掛けます。
例: 128名が必要で、教室あたり25名の生徒、ICCが0.05の場合:
DEFF = 1 +(25 − 1)× 0.05 = 2.20 調整後N = 128 × 2.20 = 282名(約12教室)
クラスタリングを無視すると、実際には検出力が深刻に不足している研究が十分に見えてしまいます。
不均等な群サイズ
群サイズが異なる場合(例:小規模臨床群 vs. 大規模対照群)、均等配分より検出力が低下します。調和平均で有効な群あたりNを推定します:
n_有効 = 2 /(1/n₁ + 1/n₂)
2:1の配分比率は均等群と比較して約6%の検出力低下をもたらします。3:1を超える比率は収穫逓減が生じるため、一般的に推奨されません。
サンプルサイズ決定でよくある間違い
事後検出力分析
研究完了後に観測された効果量で検出力を計算することは論理的に循環的です。事後(観測)検出力はp値の直接的な数学的変換であり、追加の情報を提供しません。p = .05なら観測検出力は約.50、p = .001なら約.95です。p値がすでに教えてくれること以上の情報はありません。
代わりにすべきこと: 非有意な結果が出た場合、効果量の信頼区間を報告してください。ゼロ近くの狭い信頼区間は、どんな事後検出力計算よりも有益です。将来の研究のためには、研究が十分な検出力で検出できた効果量を決定する感度分析を行いましょう。
他の研究の効果量を無批判に使用
単一の先行研究から効果量を借用することは一般的ですがリスクがあります。出版された研究は出版バイアスの影響を受けます — 有意な結果が出版される確率が高いため、出版された効果量は系統的に膨張しています。「勝者の呪い」と呼ばれるこの現象は、単一の出版研究に基づく検出力分析が検出力不足の追試につながることを意味します。
代わりにすべきこと: 可能であればメタ分析の効果量を使用してください。個別研究しかない場合、膨張を補正するために出版された効果量から20〜30%を差し引いてください。あるいは、統計的先例ではなく実用的有意性に基づいたSESOI(最小関心効果量)を設定してください。
常に「中程度」の効果量をデフォルトにする
先行研究がない場合にCohenの中程度の基準をデフォルトにすることは危険なほど楽観的です。多くの分野、特に社会心理学や教育学では、真の効果量は中程度よりも小さいレベルに近いです。d = 0.50で設計した研究は、d = 0.20を検出する検出力が約30%しかありません。
設計の複雑性を無視する
単純な検出力分析の公式は最も単純なデザインを想定しています。実際の研究には以下が含まれることが多いです:
- 共変量 — 追加の分散を説明し検出力を高める可能性
- 多重比較 — α補正が必要で比較ごとの検出力が低下
- 媒介変数と調整変数 — 間接効果の検出力に大きなサンプルが必要
- 欠測データ — 有効サンプルサイズの減少
- クラスターデザイン — 分散の膨張
これらの要素をそれぞれサンプルサイズ計算に反映すべきです。確信がない場合は、閉形式の公式に頼るのではなく、RやStataを使ったシミュレーションベースの検出力分析を行ってください。
サブグループ分析を考慮しない
性別や年齢層などサブグループ別の分析を計画している場合、各サブグループに十分な検出力が確保されるようサンプルサイズを設計する必要があります。全体サンプルに対する分析には十分な検出力があっても、サブグループ比較では不足する場合があります。
検出力分析を省略する
「30人で十分だろう」「50人分の予算がある」という理由でサンプルサイズを決めることは最も頻繁な間違いです。中心極限定理により30件の観測で近似的な正規性は得られますが、正規性と十分な検出力はまったく別の問題です。
サンプルサイズ決定の報告方法
論文やプロポーザルでサンプルサイズの根拠を報告する際には、以下の情報を含めてください:
- 使用する統計検定
- 有意水準と片側/両側検定の別
- 目標検出力
- 想定効果量とその根拠
- 算出されたサンプルサイズ
- 使用したソフトウェア
- 脱落率やデザイン効果の調整内容
学位論文プロポーザルの報告例:
サンプルサイズは、G*Power 3.1を用いた事前検出力分析に基づいて決定した。対応のないt検定(両側)を基準に、有意水準α = .05、検出力.80、Kim et al.(2024)のメタ分析で報告された効果量(平均d = 0.53、95% CI [0.38, 0.68])に基づくd = 0.50を適用した結果、各群最低64名(合計128名)が必要と算出された。脱落率15%を見込み、各群76名(合計152名)を募集目標とした。
臨床試験の報告例:
検出力分析はR(pwrパッケージ、v1.3-0)を使用して実施した。混合計画分散分析(2群 × 3時点)を基準に、2つの主要アウトカムに対するBonferroni補正後の有意水準α = .025、検出力.90、パイロット研究(N = 30、観測f = 0.28)に基づく中程度の交互作用効果(f = 0.25)を適用した結果、各群最低54名(合計108名)が必要と算出された。12ヶ月のフォローアップ期間中25%の脱落を考慮し、各群72名(合計144名)を募集目標とした。
よくある質問
パイロット研究にはどのくらいの参加者が必要ですか?
パイロット研究は確証的研究とは異なる目的を持ちます — 実現可能性の評価、手順の改善、予備的な効果量の推定。正式な検出力分析は一般的にパイロットには必要ありません。一般的な推奨範囲は群あたり12名(Julious, 2005)から30名(Lancaster et al., 2004)です。重要なのは統計的有意性を達成することではなく、アウトカム測定の変動性を評価するのに十分な参加者を確保することです。
共変量を含むデザインでサンプルサイズ計算機を使えますか?
標準的な計算機は共変量のない単純なデザインを想定しています。共変量を含めると(例:ANOVAの代わりにANCOVA)有効な誤差分散が減少するため、同じ検出力に実際にはより少ないサンプルで済みます。大まかな調整として、標準サンプルサイズに(1 − R²)を掛けることができます。R²は共変量が説明するアウトカム分散の割合です。より正確な推定にはシミュレーションベースの検出力分析を使用してください。
どの統計検定でも最低サンプルサイズはありますか?
普遍的な最低値はありません。必要なサンプルサイズは完全に効果量、有意水準、目標検出力に依存します。ただし実用的な最低値は存在します:パラメトリック検定では中心極限定理が合理的な正規性を提供するために群あたり最低15〜20名が一般的に必要で、カイ二乗検定では期待度数が最低5以上であるべきです。これらは十分な検出力の必要条件であり、十分条件ではありません。
検出力分析で片側検定と両側検定のどちらを使うべきですか?
強力で事前登録済みの方向性仮説があり、反対方向の効果に真に関心がない場合を除き、両側検定を使用してください。片側検定は必要サンプルサイズを約20%削減しますが、査読者から厳しく吟味されます。確信がなければ両側で計画しましょう — 十分な検出力を持つ両側検定はいつでも報告できますが、両側で非有意な結果が出た後に片側に切り替えることは許容されません。
質的研究のサンプルサイズはどう決めますか?
検出力分析は量的仮説検定に特化した方法です。質的研究ではデータ飽和 — 新しいデータがもはや新しいテーマやカテゴリを明らかにしなくなる時点 — の概念でサンプルサイズを決定します。Guest et al.(2006)は、比較的同質な母集団の場合12回のインタビュー内で飽和に達することが多いと報告しています。グラウンデッドセオリーでは20〜30名、現象学的研究では5〜25名が一般的です。
検出力分析で求められるより多くのデータを収集することは倫理的ですか?
一般的にはそうです。追加のデータ収集が参加者に過度な負担を与えない限り許容されます。追加の参加者はより精密な効果量推定と二次分析の検出力向上を提供します。ただし、追加データを使って有意性を「fishing」してはいけません — 主要な分析は事前登録された計画に従うべきです。一部の倫理委員会は、募集が検出力分析の目標を大幅に超える場合に根拠を要求します。
十分な参加者を募集できない場合はどうすればよいですか?
必要なサンプルサイズが実行可能な水準を超える場合、いくつかの選択肢があります:(1)対応デザインやANCOVAのようなより感度の高いデザインを使用して必要な参加者数を削減;(2)この制限を認めた上でより低い目標検出力(例:0.80の代わりに0.70)を許容;(3)介入を精緻化するか、より信頼性の高い測定ツールを使用して、より大きな予想効果量に焦点;(4)多施設募集のために他の研究機関と協力。透明な開示なしに検出力不足の研究を単に進めないでください。
ベイジアンのサンプルサイズ計画は頻度主義の検出力分析とどう異なりますか?
ベイジアンアプローチは事後分布の精度または決定的なベイズファクターに到達する確率に基づいてサンプルサイズを決定します。固定された検出力レベルを目標とする代わりに、ベイズファクターが10以上(強い証拠)を得る確率が80%を超える研究を計画できます。ベイジアン法は効果量に関する事前情報を組み込むことができ、サンプルサイズ要件を削減する可能性があります。RパッケージBayesFactorとBFDAがベイジアンデザイン分析をサポートしています。
StatMateでサンプルサイズを計算しよう
サンプルサイズの計算が複雑に感じる場合、StatMateのサンプルサイズ計算機をお使いください。
- 検定を選択:t検定、分散分析、相関、カイ二乗から使用する検定を選びます。
- パラメータを入力:有意水準、検出力、効果量を入力します。効果量が不確かな場合はガイドラインを参照できます。
- 即座に結果を取得:必要なサンプルサイズが即座に算出され、様々な効果量でサンプルサイズがどう変化するかを示す検出力曲線も表示されます。
- 論文用にエクスポート:計算結果を論文に直接含められる形式で出力、またはPDFやWord文書としてエクスポートできます。
数式の手計算やソフトウェアのインストールなしで、研究に必要なサンプルサイズを素早く正確に算出できます。
まとめ
サンプルサイズの決定は形式的な手続きではなく、研究デザインにおける最も重要な決定の一つです。有意水準、検出力、効果量の相互関係を理解し、適切な事前検出力分析を行うことで、研究が問いに答える真の機会を確保できます。
覚えておくべき基本原則:
- 常に事前(a priori)検出力分析を実施する。 データ収集前に必要なサンプルサイズを算出してください。
- 効果量は入手可能な最善の根拠に基づく。 メタ分析と先行研究はCohenの慣習的基準に常に優先します。
- 現実的な複雑さを反映する。 脱落率、クラスタリング、多重比較、サブグループ分析はすべて必要なサンプルサイズに影響します。
- 検出力分析を透明に報告する。 すべてのパラメータ、根拠、ソフトウェアの詳細を含め、他の研究者がデザインを評価・再現できるようにしてください。
- 事後検出力に頼らない。 数学的に冗長であり、方法論的に誤解を招きます。
推測ではなく計算に基づくサンプルサイズの決定が、より強力な研究の出発点です。