サンプルサイズが重要な理由
研究デザインにおける最も重要な決定の一つは、データ収集を始める前に起こります:何人の参加者が必要かを決めることです。サンプルが小さすぎると実際の効果を見逃すリスク(第二種の過誤)があり、不必要に大きなサンプルは時間、費用、参加者の労力を浪費します。
検出力分析は、この問題を解決する統計的手法です。指定された確信度で所定の大きさの効果を検出するために必要な最小サンプルサイズを計算します。助成金申請書の作成、臨床試験の計画、卒業論文の実験設計のいずれにおいても、この数値を正確に求めることが不可欠です。
検出力分析の4つの柱
すべてのサンプルサイズ計算は、4つの相互に関連する値に依存します。そのうち3つがわかれば、4つ目を求めることができます。
1. 有意水準(アルファ)
有意水準は、帰無仮説が実際に真であるにもかかわらず棄却する確率(第一種の過誤)です。従来の値は0.05で、偽陽性のリスクを5%受け入れることを意味します。
- ほとんどの研究文脈では0.05を使用します。
- 偽陽性の結果が深刻な場合(例:医学的介入)は0.01を使用します。
- 探索的研究やパイロット研究では0.10を使用します。
2. 統計的検出力(1 - ベータ)
検出力は、真の効果が存在する場合にそれを正しく検出する確率です。従来の目標は0.80で、真の効果を発見する確率が80%であることを意味します。
- 0.80はほとんどの研究で標準的な推奨値です。
- 0.90または0.95は確証的研究や臨床試験で好まれます。
- 検出力が低いと必要な参加者数は少なくなりますが、真の効果を見逃すリスクがあります。
3. 効果量
効果量は、発見が予想される差や関係がどの程度大きいかを数値化します。研究を実施する前に推定する必要があるため、しばしば最も難しいパラメータです。
一般的な効果量の指標:
| 検定 | 効果量指標 | 小 | 中 | 大 | |------|-----------|-----|-----|-----| | t検定 | Cohenのd | 0.20 | 0.50 | 0.80 | | 分散分析 | Cohenのf | 0.10 | 0.25 | 0.40 | | 相関 | Pearsonのr | 0.10 | 0.30 | 0.50 | | カイ二乗 | Cohenのw | 0.10 | 0.30 | 0.50 |
期待される効果量はどこから得るのでしょうか?3つの一般的なアプローチがあります:
- 先行文献: 同一または類似のトピックに関する公表された研究を調べます。
- パイロット研究: 効果を推定するための小規模な予備研究を実施します。
- Cohenの規約: 先行データがない場合に、小・中・大のベンチマークを使用します。これは最も好ましくない選択肢ですが、推測よりは良いです。
4. サンプルサイズ(n)
これが通常求めるべき値です。他の3つのパラメータが与えられれば、サンプルサイズの計算によって群あたりまたは合計で何人の参加者が必要かがわかります。
ステップバイステップ:StatMateでサンプルサイズを計算する
StatMateのサンプルサイズ計算機を使って、具体的な例を解説します。
シナリオ
臨床心理士が、新しい認知行動療法(CBT)プロトコルが標準治療よりも不安スコアをより減少させるかを検定したいと考えています。2群を比較するために独立サンプルt検定を使用する予定です。
既知の情報:
- 先行研究では中程度の効果(Cohenのd = 0.50)が報告されている。
- 有意水準は0.05に設定したい。
- 80%の検出力を目指す。
- 検定は両側検定(どちらの方向の差も検出したい)。
ステップ1:計算機を開く
StatMateのサンプルサイズ計算機にアクセスします。検定の種類、効果量、有意水準、検出力の入力フィールドが表示されます。
ステップ2:検定の種類を選択する
ドロップダウンから独立サンプルt検定を選択します。統計検定ごとにサンプルサイズ計算の公式が異なるため、正しい検定を選択することが重要です。
ステップ3:効果量を入力する
Cohenのdに0.50を入力します。効果量がわからない場合は、各検定タイプの小・中・大のベンチマークを示す組み込み参照テーブルを利用できます。
ステップ4:アルファと検出力を設定する
- 有意水準を0.05に設定します。
- 統計的検出力を0.80に設定します。
- 両側検定を選択します。
ステップ5:結果を読む
StatMateは群あたり64人の参加者、つまり合計128人の参加者が必要であると計算します。計算機は、異なるサンプルサイズでの検出力の変化を示す検出力曲線も表示します。
検出力曲線の解釈
検出力曲線は、サンプルサイズ分析の最も有用な出力の一つです。指定された効果量とアルファ水準に対して、統計的検出力(y軸)をサンプルサイズ(x軸)にプロットします。
注目すべきポイント:
- 曲線は最初は急上昇し、その後平坦になります。 群あたり20から40に参加者を追加すると検出力は劇的に向上しますが、100から120への追加は比較的少ない改善しかもたらしません。
- 0.80の赤い水平線は従来の検出力閾値を示しています。この線と曲線が交差する点が、必要最小サンプルサイズです。
- 収穫逓減は現実です。 80%から90%の検出力にするには通常30%以上の参加者追加が必要であり、90%から95%にはさらに多くが必要です。
各種検定の実践例
例1:対応サンプルt検定
研究者が、瞑想プログラムの前後で同じ従業員グループのストレスレベルを測定します。
| パラメータ | 値 | |-----------|------| | 検定 | 対応サンプルt検定 | | 効果量(d) | 0.40(小〜中) | | アルファ | 0.05 | | 検出力 | 0.80 | | 必要なn | 52人の参加者 |
対応デザインは各人を2回測定するため、同じ効果量に対して独立デザインよりも少ない参加者で済むのが通常です。対応測定間の相関が変動性を減少させます。
例2:一元配置分散分析
教育研究者が4つの教授法間でテスト得点を比較します。
| パラメータ | 値 | |-----------|------| | 検定 | 一元配置分散分析 | | 群数 | 4 | | 効果量(f) | 0.25(中) | | アルファ | 0.05 | | 検出力 | 0.80 | | 群あたりの必要なn | 群あたり45人(合計180人) |
群数が多いほど全体的に多くの参加者が必要ですが、群あたりのサイズは合理的な範囲にとどまることがあります。
例3:カイ二乗検定
マーケティングチームが、製品の好みが地域によって異なるかを検定したいと考えています(3地域、3製品)。
| パラメータ | 値 | |-----------|------| | 検定 | カイ二乗検定 | | 効果量(w) | 0.30(中) | | 自由度 | 4 | | アルファ | 0.05 | | 検出力 | 0.80 | | 必要な合計n | 133人の参加者 |
例4:相関
発達心理学者が子どもたちのスクリーンタイムと読解力の関係を調べます。
| パラメータ | 値 | |-----------|------| | 検定 | 相関 | | 効果量(r) | 0.25(小〜中) | | アルファ | 0.05 | | 検出力 | 0.80 | | 必要なn | 125人の参加者 |
小さな相関を信頼性をもって検出するには、驚くほど大きなサンプルが必要です。
脱落への備え
現実の研究では、ほぼ必ず参加者を失います。脱落、セッションの欠席、使用不能なデータなどです。良い目安として、計算されたサンプルサイズを10%から20%増やして脱落を考慮してください。
上記のCBT研究で合計128人の参加者が必要な場合:
- 10%の脱落バッファで:142人をリクルート。
- 20%の脱落バッファで:154人をリクルート。
縦断研究や脱落リスクが高い研究では、25%から30%増やしてください。
よくある間違いの回避
間違い1:誤った効果量指標を使用する
Cohenのdはt検定用、Cohenのfは分散分析用、Cohenのwはカイ二乗用です。d値の0.50を分散分析の計算に入力すると、不正確な結果が生じます。
間違い2:群数を無視する
分散分析やカイ二乗検定では、群数や自由度が必要サンプルサイズに直接影響します。群数が多いほど、より多くの参加者が必要です。
間違い3:根拠なしに中程度の効果量をデフォルトにする
Cohenのベンチマークは有用な出発点ですが、査読者や倫理委員会は先行研究に基づいた効果量推定を好みます。まず文献を検索してください。
間違い4:脱落を考慮し忘れる
検出力分析は統計検定に必要な最小値を示します。現実のデータ損失は考慮されていません。
間違い5:事後検出力を計算する
観測された効果量を使って研究後に検出力を計算することは循環的であり、広く批判されています。検出力分析はデータ収集前に行うべき計画ツールです。
サンプルサイズが固定されている場合は?
予算、利用可能な患者数、組織の規模などの実際的な制約によりサンプルサイズが制限されることがあります。この場合、計算を逆にすることができます。
固定サンプルサイズをアルファ水準と効果量とともにStatMateに入力すると、計算機が達成検出力を教えてくれます。検出力が低すぎる場合(0.80未満)、いくつかの選択肢があります:
- より大きなアルファ水準を受け入れる(例:探索的研究で0.10)。
- 大きな効果のみの検出に焦点を当てる。
- より検出力の高い研究デザインを使用する(例:独立サンプルの代わりに対応サンプル)。
- 理論的に正当化される場合、両側検定の代わりに片側検定を使用する。
論文でのサンプルサイズの報告
ほとんどのジャーナルや論文審査委員会は、サンプルサイズがどのように決定されたかの明確な記述を要求します。APAガイドラインに従ったテンプレートは以下の通りです:
必要最小サンプルサイズを決定するために、StatMateを用いて事前検出力分析を実施した。両側独立サンプルt検定に対し、期待される中程度の効果量(Cohenのd = 0.50)、アルファ .05、検出力 .80を設定した結果、群あたり最低64人(合計128人)が必要であることが示された。約15%の脱落を考慮し、148人の参加者をリクルートした。
よくある質問
パイロット研究にはどのくらいのサンプルサイズを使うべきですか?
パイロット研究は通常、群あたり12から30人の参加者を目指します。パイロットの目的は統計的検出力を達成することではなく、本研究のためのパラメータ(効果量や変動性など)を推定し、手順をテストし、実際的な問題を特定することです。
オンライン計算機で十分ですか、それとも専門ソフトウェアが必要ですか?
StatMateのサンプルサイズ計算機は、最も一般的な検定(t検定、分散分析、相関、カイ二乗)を分かりやすいインターフェースで処理します。より複雑なデザイン(マルチレベルモデル、生存分析)には、G*PowerやRなどの専門ソフトウェアが必要になる場合があります。
期待される効果量がまったくわからない場合は?
実質的に意味のある最小の効果量から始めてください。治療がわずかにしかアウトカムを改善しない場合、統計的に有意であっても調査する価値がないかもしれません。その最小の意味ある効果を検出するために必要なサンプルサイズを計算してください。
80%の検出力は常に十分ですか?
ほとんどの研究では80%が受け入れられた標準です。しかし、研究に重要な実際的結果がある場合(例:臨床薬物試験)は、90%以上を目指してください。一部の資金提供機関や規制当局は、少なくとも90%の検出力を要求しています。
片側検定と両側検定はサンプルサイズにどう影響しますか?
片側検定は、すべての統計的検出力が一方向に集中するため、より少ない参加者で済みます。ただし、片側検定は効果の方向を予測する強い理論的根拠があり、逆方向の差を気にしない場合にのみ適切です。
次のステップ
研究のサンプルサイズを計算する準備はできましたか?StatMateサンプルサイズ計算機を開いてパラメータを入力してください。インタラクティブな検出力曲線が、サンプルサイズと統計的検出力のトレードオフを視覚化するのに役立ち、指導教官、査読者、倫理委員会に対するデザインの正当化が容易になります。