p値だけでは不十分な理由
「統計的に有意(p < .05)」という結果は、観測された効果が偶然によるものではない可能性が高いことを教えてくれます。しかし、その効果がどの程度大きく、実質的に意味があるのかについては何も教えてくれません。
次の例を考えてみましょう。10,000人の参加者を対象とした研究で、群間の差が0.3ポイントでありp < .001と報告されています。一方、30人の参加者を対象とした別の研究では、15ポイントの差がありますがp = .08と報告されています。最初の結果は有意で、2番目は有意ではありませんが、実質的には2番目の方がはるかに意味のある差かもしれません。これは、p値がサンプルサイズに大きく影響されるために起こります。
これが効果量が重要な理由です。効果量は、サンプルサイズとは独立に、結果の大きさを定量化します。APA第7版のガイドラインでは、有意性検定とともに効果量の報告を求めており、多くの学術誌がこれを必須として扱っています。
本ガイドでは、最も一般的に使用される効果量の指標、その解釈基準、およびAPA形式での報告方法を解説します。
Cohenのd — 平均値の差の効果量
使用場面
Cohenのdは、2群の平均値の差を標準偏差の単位で測定します。対応のないt検定と対応のあるt検定の標準的な効果量です。
解釈基準
Cohen(1988)は以下の一般的なガイドラインを提案しました。
| Cohenのd | 解釈 | |------------|------| | 0.20 | 小さい効果 | | 0.50 | 中程度の効果 | | 0.80 | 大きい効果 |
d = 0.50は、2群の分布が約67%重なっていることを意味します。d = 0.80は、重なりが約53%に減少することを意味し、多くの人が容易に気づく差の大きさです。
APA報告例
対応のないt検定:
対応のないt検定の結果、実験群(M = 82.40, SD = 10.25)は統制群(M = 74.60, SD = 11.30)よりも事後テストにおいて有意に高い得点を示した, t(58) = 2.89, p = .005, d = 0.75。
対応のあるt検定:
対応のあるt検定の結果、うつスコアは介入後(M = 18.30, SD = 5.40)に介入前(M = 24.10, SD = 6.20)と比較して有意に低下した, t(34) = 4.52, p < .001, d = 0.76。
Cohenのdは1.0を超えることがあるため、先頭のゼロを付けます(例:d = 0.75であり、d = .75ではない)。
Hedgesのg:小標本でのCohenのdの補正
小標本バイアスの問題
Cohenのdは群間比較で最も広く報告される効果量ですが、既知の限界があります。サンプルサイズが小さい場合(おおよそ1群あたりn < 20)、母集団の真の効果量を系統的に過大推定してしまうのです。このバイアスは、小規模な研究では標本標準偏差が母集団の標準偏差を過小推定する傾向があり、結果としてdの値が膨らんでしまうことに起因します。
Hedgesのgによる補正方法
Hedgesのgは、この小標本バイアスを調整する補正係数をCohenのdに適用します。この補正により効果量の推定値がわずかに縮小され、母集団の効果量のより偏りの少ない推定値が得られます。サンプルが小さいほど補正は大きくなります。サンプルサイズが大きくなるにつれて、補正は無視できるほど小さくなります。
Hedgesのgを使用すべき場面
- 群サイズが小さい研究(1群あたり20人未満の参加者)
- メタ分析:さまざまなサンプルサイズの研究から効果量を統合する際に、不偏推定値が必要
- パイロット研究:サンプルサイズが本質的に小さい場合
目安
1群あたりn > 30のサンプルでは、CohenのdとHedgesのgはほぼ同一です(通常1%未満の差)。この場合、どちらを報告しても問題ありません。n < 20のサンプルでは、Hedgesのgがより適切な選択です。
APA報告例
対応のないt検定の結果、マインドフルネス群(M = 4.20, SD = 1.15)は統制群(M = 5.10, SD = 1.30)よりも有意にストレスが低かった, t(18) = 2.45, p = .025, g = 0.72。
報告形式はCohenのdと同一で、dをgに置き換えるだけです。多くの学術誌はどちらの指標も受け入れますが、1群あたり20人未満の研究でHedgesのgを使用することは、方法論的な厳密さを示すことになります。
イータ二乗と偏イータ二乗 — ANOVAの効果量
使用場面
イータ二乗(η²)と偏イータ二乗(偏η²)は、分散分析(ANOVA)の標準的な効果量の指標です。独立変数によって説明される従属変数の総分散の割合を表します。
η²と偏η²の違い
この2つを混同することは、出版論文で最もよくある報告エラーの一つです。
- η²(イータ二乗): ある要因によって説明される全分散の割合。すべての要因のη²値の合計は最大で1です。
- 偏η²: 他の要因の効果を除外した後に説明される分散の割合。要因間の合計は1を超えることがあります。
一元配置ANOVAでは、両者は同一です。要因計画では異なります。SPSSを含むほとんどのソフトウェアは、デフォルトで偏η²を報告します。
解釈基準
| η² / 偏η² | 解釈 | |-----------|------| | .01 | 小さい効果 | | .06 | 中程度の効果 | | .14 | 大きい効果 |
偏η² = .10は、他の要因を統制した後、独立変数が従属変数の分散の10%を説明することを意味します。
APA報告例
一元配置ANOVA:
一元配置分散分析の結果、教授法が学業成績に対して統計的に有意な効果を示した, F(2, 87) = 5.34, p = .007, η² = .11。
要因計画ANOVA(交互作用効果):
教授法と性別の交互作用は統計的に有意であった, F(2, 84) = 3.92, p = .024, 偏η² = .09。
η²と偏η²は0から1の間の比率であるため、APA形式では先頭のゼロを省略します(例:0.11ではなく.11)。
オメガ二乗:イータ二乗のバイアス補正
イータ二乗が過大推定する理由
イータ二乗(η²)はサンプルデータを記述する記述統計量ですが、母集団における効果量を系統的に過大推定します。この過大推定は、サンプルサイズが小さい場合や群の数が多い場合に特に顕著です。その理由は、η²の分子に体系的分散(真の効果)だけでなく誤差分散の一部も含まれており、推定値が膨らんでしまうためです。
オメガ二乗による補正方法
オメガ二乗(ω²)は、母集団における説明分散の割合のより偏りの少ない推定値を提供します。群の数とサンプルサイズを考慮した補正を適用することで、より保守的で正確な推定値が得られます。実際には、ω²の値は同じデータから算出された対応するη²の値よりも常に小さくなります。
解釈基準
オメガ二乗はイータ二乗と同じ一般的な基準を使用します。
| ω² | 解釈 | |----|------| | .01 | 小さい効果 | | .06 | 中程度の効果 | | .14 | 大きい効果 |
APA報告例
一元配置分散分析の結果、処置条件が不安スコアに対して統計的に有意な効果を示した, F(3, 76) = 4.82, p = .004, ω² = .12。
オメガ二乗を使用すべき場面
多くの方法論研究者および増加する数の学術誌が、特にサンプルサイズが小さい研究においてη²よりもω²を推奨しています。対象分野やターゲットの学術誌が特定の指標を指定していない場合、偏η²の報告は依然として許容されます(ANOVAの効果量として最も広く使用されているため)。ただし、偏η²と並んでω²を報告することで、バイアスの問題に対する認識を示し、方法セクションを強化することができます。
rとR² — 相関と回帰の効果量
使用場面
Pearsonの相関係数rは、2つの連続変数間の線形関係の強さと方向を測定します。r自体が効果量として機能します。回帰分析では、決定係数R²が予測変数によって説明される結果変数の分散の割合を示します。
解釈基準
| r(絶対値) | 解釈 | |-------------|------| | .10 | 小さい効果 | | .30 | 中程度の効果 | | .50 | 大きい効果 |
R²はrの二乗であるため、対応する基準は以下の通りです。
| R² | 解釈 | |------|------| | .01 | 小さい効果 | | .09 | 中程度の効果 | | .25 | 大きい効果 |
APA報告例
相関:
学習時間と試験成績の間に統計的に有意な正の相関が認められた, r(48) = .42, p = .003。
回帰:
回帰モデルは統計的に有意であった, F(2, 97) = 18.45, p < .001, R² = .28, 調整済みR² = .26。これは、学習時間と出席率が試験成績の分散の27.5%を説明したことを示す。
rとR²はどちらも1で上限が設定されているため、先頭のゼロは省略します。
CramerのV — カイ二乗検定の効果量
使用場面
CramerのVは、カイ二乗独立性の検定における2つのカテゴリカル変数間の関連の強さを定量化します。2x2の表ではファイ係数(φ)と等しくなりますが、CramerのVはより大きい表にも一般化できます。
解釈基準
df* = 1(2x2の表)の場合:
| CramerのV | 解釈 | |-------------|------| | .10 | 小さい効果 | | .30 | 中程度の効果 | | .50 | 大きい効果 |
ここでdfは(行の数 - 1)と(列の数 - 1)の小さい方です。dfが大きくなるにつれて基準の閾値は下がるため、Vの値を解釈する際には分割表のサイズを必ず考慮してください。
APA報告例
カイ二乗独立性の検定の結果、性別と専攻選択の間に有意な関連が示された, χ²(2, N = 200) = 12.56, p = .002, V = .25。
実際の研究例で効果量を理解する
抽象的な基準値は、実際の研究シナリオに基づくことで、はるかに意味のあるものになります。以下の例は、同じ効果量の指標が文脈によってどのように異なる実践的意味を持ちうるかを示しています。
例1:教育介入
ある学区がピアチュータリングプログラムを導入し、標準化された数学テストへの影響を測定しました。結果はd = 0.40でした。これは実際には何を意味するのでしょうか。チュータリングなしで50パーセンタイルに位置する生徒が、チュータリングありでは約66パーセンタイルの成績を示すことが期待されます。30人のクラスでは、これは約5人の生徒がクラスの中央値を超える得点を追加的に達成することに相当します。実施コストが比較的低い教育介入としては、これは意味のある改善です。
例2:臨床心理学
ランダム化比較試験で、全般性不安障害に対する認知行動療法(CBT)の効果を検討しました。結果はd = 0.75でした。これは、CBTを受けた平均的な患者が、待機リスト統制群の患者の約77%よりも改善したことを意味します。臨床的には、これは不安の診断基準を満たすか満たさないかの違いを表すことが多く、患者にとって真に人生を変えうる結果です。
例3:公衆衛生
大規模なワクチン接種研究で、感染リスクのオッズ比が0.30と報告されました。これは、ワクチン接種者が非接種者と比較して感染のオッズが70%低いことを意味します。標準化された効果量としては比較的控えめに見えますが、何百万人に適用すると、数十万件の感染を防ぐことができます。
重要な教訓
同じdの値でも、分野、介入のコスト、結果の重大性、影響を受ける集団の規模によって、実質的な意味は大きく異なります。教育におけるd = 0.20は、救命医療におけるd = 0.20ほど重要でない可能性があります。効果量は常に、自身の研究課題の具体的な文脈の中で解釈してください。
効果量の信頼区間
点推定値だけでは不十分な理由
APA第7版は、点推定値だけでなく、効果量の信頼区間(CI)を報告することを明示的に推奨しています。d = 0.75という点推定値は、母集団の効果量に対する最良の単一推定値を示しますが、その推定値の精度については何も教えてくれません。
Cohenのdの信頼区間の意味
Cohenのdの95%信頼区間は、真の母集団効果量のもっともらしい値の範囲を提供します。例えば、d = 0.75, 95% CI [0.32, 1.18]は、真の効果量が0.32(小〜中程度の効果)から1.18(大きい効果)の間のどこかにあると合理的に確信できることを意味します。
幅の解釈
- 広い信頼区間(例:[0.10, 1.40]):精度が低い。真の効果はごく小さいものから非常に大きいものまでありえます。これは通常、サンプルサイズが小さい場合に生じます。
- 狭い信頼区間(例:[0.60, 0.90]):精度が高い。真の効果量の良好な推定値が得られています。これは通常、サンプルサイズが大きい場合に生じます。
- ゼロをまたぐ信頼区間(例:[-0.15, 0.85]):真の効果がゼロであるか、逆方向である可能性があります。これは非有意な結果と一致します。
APA報告例
実験群は統制群よりも有意に高い得点を示した, t(58) = 2.89, p = .005, d = 0.75, 95% CI [0.22, 1.27]。
信頼区間は、点推定値だけでは提供できない重要な文脈を示します。この場合、d = 0.75は中〜大の効果を示唆しますが、信頼区間は真の効果が0.22(小さい)から1.27(非常に大きい)までありうることを示しています。このレベルの透明性により、読者は研究結果の頑健性を評価することができます。
効果量の視覚化:分布の重なり
抽象的な数値を直感的に理解する
効果量が何を意味するかを理解するための最も効果的な方法の一つは、2群の分布がどの程度重なっているかを視覚化することです。2群の平均が同一(d = 0.0)の場合、分布は完全に重なります。dが大きくなるにつれて、分布は離れていきます。
異なる効果量における重なり
| Cohenのd | 分布の重なり | 実践的意味 | |------------|------------|-----------| | 0.0 | 100% | 同一の分布 | | 0.2 | 約85% | ほぼ区別不可能。集計データでのみ差が見える | | 0.5 | 約67% | 顕著な差。しかし大部分の個人は依然として重なる | | 0.8 | 約53% | 明らかな差。分布の約半分がまだ重なる | | 1.0 | 約45% | 非常に明確な差。重なりは半分未満 | | 1.5 | 約30% | 劇的な差。重なりはわずか | | 2.0 | 約19% | 極端な差。分布はほとんど重ならない |
CohenのU3統計量
効果量を解釈するもう一つの方法は、CohenのU3です。これは、得点の高い群の平均的な人が、得点の低い群の何パーセントを上回るかを示します。
| Cohenのd | U3(高得点群のパーセンタイル) | |------------|---------------------------| | 0.2 | 58% | | 0.5 | 69% | | 0.8 | 79% | | 1.0 | 84% | | 1.5 | 93% |
d = 0.8では、高得点群の平均的な人は、低得点群の79%よりも良い成績を収めます。標準偏差単位からパーセンタイルへのこの変換により、臨床家、教育者、政策立案者など、統計に詳しくない読者にとっても効果量が即座に理解可能になります。
分野別の効果量基準
Cohenの基準はデフォルトであり、普遍的なルールではない
Cohen(1988)自身が、小・中・大の慣例は、研究者がより良い基準枠を持たない場合のためのガイドラインであると述べています。これらはすべての分野に機械的に適用されることを意図したものではありませんでした。実際には、意味のある効果量とみなされるものは分野によって大きく異なります。
教育
Hattie(2009)は、800以上の教育介入のメタ分析を統合し、d = 0.40を「ヒンジポイント」として特定しました。この閾値を超える効果は、通常の発達を通じて生徒が得られる以上の意味のある改善をもたらす介入を表します。この基準では、Cohenの基準で「小さい」効果とされる多くの介入が、実際には教育的に有意な結果を生み出しています。
臨床心理学
臨床心理学では、症状が重篤な場合、d = 0.20でさえ臨床的に意味がある場合があります。精神病、自殺念慮、慢性疼痛の症状のわずかな軽減でも、生活の質を大幅に改善する可能性があります。効果の臨床的有意性は、障害の重症度と代替治療の利用可能性に依存します。
社会心理学
社会心理学のメタ分析では、典型的な効果量はd = 0.20からd = 0.40の間です。Cohenの基準では「小さい」とされるものが、この分野では実際には非常に典型的です。微妙な社会的操作から大きな効果を期待することは非現実的であり、この分野の研究者はそれに応じて期待を調整する必要があります。
医学研究と公衆衛生
医学研究では、1.0に近いオッズ比(例:OR = 0.95)で測定されるごく小さな効果でも、集団レベルで適用されると何千もの命を救うことができます。心臓発作のリスクを5%減少させる薬は、効果量としては些細に見えるかもしれませんが、何百万人の患者に適用すると、数万件の心臓発作を予防します。
推奨
Cohenの慣例のみに頼るのではなく、自身の効果量を特定の研究分野における先行研究で報告された効果の分布と比較してください。多くの分野では現在、分野固有の参考点を提供するメタ分析ベンチマークが公表されています。このアプローチは、画一的なラベルを適用するよりも、より意味のある解釈をもたらします。
効果量のまとめ表
以下の表は、主要な効果量の指標とその解釈基準のクイックリファレンスです。
| 統計検定 | 効果量指標 | 小 | 中 | 大 | |---------|----------|-----|-----|-----| | t検定 | Cohenのd | 0.20 | 0.50 | 0.80 | | ANOVA | η² / 偏η² | .01 | .06 | .14 | | 相関 | r | .10 | .30 | .50 | | 回帰 | R² | .01 | .09 | .25 | | カイ二乗 | CramerのV | .10 | .30 | .50 |
重要: これらは一般的なガイドラインであり、厳密なルールではありません。Cohen自身が、これらはより良い根拠がない場合のための慣例であると述べています。一部の分野では、「小さい」効果が実質的に大きな現実的影響を持つことがあります。効果量は常に研究の文脈の中で解釈してください。
よくある間違い
η²と偏η²の混同
SPSSは出力を「偏イータ二乗」とラベル付けしますが、多くの研究者がその値を単にη²として報告してしまいます。要因計画では両者は異なるため、偏η²またはηp²のどちらを報告しているかを常に明示してください。
効果量なしの有意性のみの報告
「p < .05」を効果量なしで記述することは、APA第7版の基準を満たしません。有意かどうかにかかわらず、すべての推測統計検定に効果量を報告してください。非有意な効果量は、検出力分析やメタ分析にとって価値があります。
Cohenの基準の機械的適用
文脈を考慮せずに、すべてのd = 0.45を「中程度」とラベル付けすることは過度な単純化です。より意味のある解釈のために、自分の効果量を当該分野の先行研究と比較してください。
先頭のゼロの誤り
1を超えることがない値(p、r、η²、R²、V)は先頭のゼロを省略します(例:.42)。1を超えることがある値(Cohenのd、M、SD)は先頭のゼロを含めます(例:0.75)。このルールの混同は頻出するフォーマットエラーです。
カイ二乗の結果からの効果量の省略
多くの研究者がχ²とpのみを報告し、CramerのVを省略しています。カテゴリカルデータを含む検定を含め、すべての統計検定に効果量を伴って報告する必要があります。
よくある質問
Cohenのdは1を超えることがありますか?
はい。Cohenのdは上限がなく、任意の正の値を取りえます。d = 1.0は、2群の平均がちょうど1標準偏差分異なることを意味します。d = 1.5は、1.5標準偏差分異なることを意味します。1.0を超える値はあまり一般的ではありませんが、強い操作や明確に異なる集団を持つ研究(例えば、聴覚課題における専門音楽家と非音楽家の比較)では定期的に見られます。
負の効果量は何を意味しますか?
負の効果量は、差の方向を反映しており、その大きさではありません。単に、「群1」として指定した群が「群2」よりも低い得点であったことを意味します。群のラベルを逆にすると、符号は反転します。大きさを解釈する際には絶対値を使用してください。例えば、d = -0.60とd = 0.60は、反対方向の同じ大きさの効果を表します。
自分の分析にはどの効果量を報告すべきですか?
適切な効果量は、使用している統計検定によって異なります。t検定にはCohenのd(小標本にはHedgesのg)を報告します。ANOVAには偏η²(またはω²)を報告します。相関についてはr自体が効果量です。回帰にはR²を報告します。カイ二乗検定にはCramerのVを報告します。クイックリファレンスとして上記のまとめ表を参照してください。
大きい効果量は因果関係を証明しますか?
いいえ。効果量は関係や差の大きさを定量化しますが、因果関係を確立するものではありません。観察研究における大きなdは、因果メカニズムではなく交絡変数を反映している可能性があります。因果関係の主張には、単に大きな効果量ではなく、適切な研究デザイン(ランダム化比較試験など)が必要です。
ノンパラメトリック検定の効果量は何ですか?
Mann-Whitney U検定では、順位双列相関(r)が標準的な効果量です。Wilcoxon符号順位検定では、r = Z / sqrt(N)が一般的に使用されます。Kruskal-Wallis検定では、イプシロン二乗(ε²)または順位に基づくイータ二乗が報告できます。Friedman検定では、KendallのWが効果量として機能します。これらの指標は、パラメトリック検定の対応する指標と同じ小・中・大の解釈枠組みを使用します。
SPSSはどのように効果量を出力しますか?
SPSSはANOVA手続きでデフォルトで偏η²を報告します(「効果量の推定値」にチェックを入れると「被験者間効果の検定」テーブルに表示されます)。ただし、SPSSはt検定のCohenのdを自動的に計算しません — 手動で計算するか、専用ツールを使用する必要があります。回帰については、SPSSはモデル要約テーブルにR²を表示します。カイ二乗については、クロス表手続き(統計量 > ファイとCramerのV)を通じてCramerのVを要求する必要があります。
サンプルサイズと効果量の関係は何ですか?
効果量とサンプルサイズは理論的に独立です。大きなサンプルがより大きな効果量を生むわけではなく、小さなサンプルがより小さな効果量を生むわけでもありません。ただし、小さなサンプルは効果量の推定精度が低くなり(信頼区間が広くなり)、小規模研究で観測されたdは真の母集団のdと大きく異なる可能性があります。これが、小標本にHedgesのg補正が推奨される理由の一つです。
非有意な結果でも効果量を報告すべきですか?
はい。APA第7版は、結果が統計的に有意かどうかにかかわらず、すべての推測統計検定に効果量の報告を求めています。効果量の推定値を伴う非有意な結果は、いくつかの理由で価値があります:将来の研究のための検出力分析に役立ち、メタ分析に貢献し、証拠の全体像を提供することで出版バイアスを防ぎます。d = 0.45の非有意な結果は、d = 0.02の非有意な結果とは全く異なる物語を語ります。
StatMateで効果量を自動計算する
StatMateの統計計算ツールは、すべての検定結果とともに効果量を自動的に計算します。
- t検定計算ツール: 95%信頼区間付きのCohenのdを出力
- ANOVA計算ツール: η²と偏η²の両方を提供
- 相関計算ツール: rとR²を一緒に報告
- カイ二乗計算ツール: CramerのVを自動計算
すべての結果はAPA第7版の規約に従っているため、原稿にそのまま貼り付けることができます。手動計算のエラーを排除し、執筆時間を大幅に節約します。
まとめ
効果量は、統計結果を単なる「有意かどうか」の判定から、大きさに関する意味のある記述へと変換します。p値は効果がおそらく存在することを示しますが、効果量はそれが実践において重要かどうかを教えてくれます。Cohenのd、η²/偏η²、r/R²、CramerのVをマスターすることで、あなたの研究は統計的厳密さと現実世界での関連性の両方を伝えることができるようになります。