p値だけでは不十分な理由
「統計的に有意(p < .05)」という結果は、観測された効果が偶然によるものではない可能性が高いことを教えてくれます。しかし、その効果がどの程度大きく、実質的に意味があるのかについては何も教えてくれません。
次の例を考えてみましょう。10,000人の参加者を対象とした研究で、群間の差が0.3ポイントでありp < .001と報告されています。一方、30人の参加者を対象とした別の研究では、15ポイントの差がありますがp = .08と報告されています。最初の結果は有意で、2番目は有意ではありませんが、実質的には2番目の方がはるかに意味のある差かもしれません。これは、p値がサンプルサイズに大きく影響されるために起こります。
これが効果量が重要な理由です。効果量は、サンプルサイズとは独立に、結果の大きさを定量化します。APA第7版のガイドラインでは、有意性検定とともに効果量の報告を求めており、多くの学術誌がこれを必須として扱っています。
本ガイドでは、最も一般的に使用される効果量の指標、その解釈基準、およびAPA形式での報告方法を解説します。
Cohenのd — 平均値の差の効果量
使用場面
Cohenのdは、2群の平均値の差を標準偏差の単位で測定します。対応のないt検定と対応のあるt検定の標準的な効果量です。
解釈基準
Cohen(1988)は以下の一般的なガイドラインを提案しました。
| Cohenのd | 解釈 | |------------|------| | 0.20 | 小さい効果 | | 0.50 | 中程度の効果 | | 0.80 | 大きい効果 |
d = 0.50は、2群の分布が約67%重なっていることを意味します。d = 0.80は、重なりが約53%に減少することを意味し、多くの人が容易に気づく差の大きさです。
APA報告例
対応のないt検定:
対応のないt検定の結果、実験群(M = 82.40, SD = 10.25)は統制群(M = 74.60, SD = 11.30)よりも事後テストにおいて有意に高い得点を示した, t(58) = 2.89, p = .005, d = 0.75。
対応のあるt検定:
対応のあるt検定の結果、うつスコアは介入後(M = 18.30, SD = 5.40)に介入前(M = 24.10, SD = 6.20)と比較して有意に低下した, t(34) = 4.52, p < .001, d = 0.76。
Cohenのdは1.0を超えることがあるため、先頭のゼロを付けます(例:d = 0.75であり、d = .75ではない)。
イータ二乗と偏イータ二乗 — ANOVAの効果量
使用場面
イータ二乗(η²)と偏イータ二乗(偏η²)は、分散分析(ANOVA)の標準的な効果量の指標です。独立変数によって説明される従属変数の総分散の割合を表します。
η²と偏η²の違い
この2つを混同することは、出版論文で最もよくある報告エラーの一つです。
- η²(イータ二乗): ある要因によって説明される全分散の割合。すべての要因のη²値の合計は最大で1です。
- 偏η²: 他の要因の効果を除外した後に説明される分散の割合。要因間の合計は1を超えることがあります。
一元配置ANOVAでは、両者は同一です。要因計画では異なります。SPSSを含むほとんどのソフトウェアは、デフォルトで偏η²を報告します。
解釈基準
| η² / 偏η² | 解釈 | |-----------|------| | .01 | 小さい効果 | | .06 | 中程度の効果 | | .14 | 大きい効果 |
偏η² = .10は、他の要因を統制した後、独立変数が従属変数の分散の10%を説明することを意味します。
APA報告例
一元配置ANOVA:
一元配置分散分析の結果、教授法が学業成績に対して統計的に有意な効果を示した, F(2, 87) = 5.34, p = .007, η² = .11。
要因計画ANOVA(交互作用効果):
教授法と性別の交互作用は統計的に有意であった, F(2, 84) = 3.92, p = .024, 偏η² = .09。
η²と偏η²は0から1の間の比率であるため、APA形式では先頭のゼロを省略します(例:0.11ではなく.11)。
rとR² — 相関と回帰の効果量
使用場面
Pearsonの相関係数rは、2つの連続変数間の線形関係の強さと方向を測定します。r自体が効果量として機能します。回帰分析では、決定係数R²が予測変数によって説明される結果変数の分散の割合を示します。
解釈基準
| r(絶対値) | 解釈 | |-------------|------| | .10 | 小さい効果 | | .30 | 中程度の効果 | | .50 | 大きい効果 |
R²はrの二乗であるため、対応する基準は以下の通りです。
| R² | 解釈 | |------|------| | .01 | 小さい効果 | | .09 | 中程度の効果 | | .25 | 大きい効果 |
APA報告例
相関:
学習時間と試験成績の間に統計的に有意な正の相関が認められた, r(48) = .42, p = .003。
回帰:
回帰モデルは統計的に有意であった, F(2, 97) = 18.45, p < .001, R² = .28, 調整済みR² = .26。これは、学習時間と出席率が試験成績の分散の27.5%を説明したことを示す。
rとR²はどちらも1で上限が設定されているため、先頭のゼロは省略します。
CramerのV — カイ二乗検定の効果量
使用場面
CramerのVは、カイ二乗独立性の検定における2つのカテゴリカル変数間の関連の強さを定量化します。2x2の表ではファイ係数(φ)と等しくなりますが、CramerのVはより大きい表にも一般化できます。
解釈基準
df* = 1(2x2の表)の場合:
| CramerのV | 解釈 | |-------------|------| | .10 | 小さい効果 | | .30 | 中程度の効果 | | .50 | 大きい効果 |
ここでdfは(行の数 - 1)と(列の数 - 1)の小さい方です。dfが大きくなるにつれて基準の閾値は下がるため、Vの値を解釈する際には分割表のサイズを必ず考慮してください。
APA報告例
カイ二乗独立性の検定の結果、性別と専攻選択の間に有意な関連が示された, χ²(2, N = 200) = 12.56, p = .002, V = .25。
効果量のまとめ表
以下の表は、主要な効果量の指標とその解釈基準のクイックリファレンスです。
| 統計検定 | 効果量指標 | 小 | 中 | 大 | |---------|----------|-----|-----|-----| | t検定 | Cohenのd | 0.20 | 0.50 | 0.80 | | ANOVA | η² / 偏η² | .01 | .06 | .14 | | 相関 | r | .10 | .30 | .50 | | 回帰 | R² | .01 | .09 | .25 | | カイ二乗 | CramerのV | .10 | .30 | .50 |
重要: これらは一般的なガイドラインであり、厳密なルールではありません。Cohen自身が、これらはより良い根拠がない場合のための慣例であると述べています。一部の分野では、「小さい」効果が実質的に大きな現実的影響を持つことがあります。効果量は常に研究の文脈の中で解釈してください。
よくある間違い
η²と偏η²の混同
SPSSは出力を「偏イータ二乗」とラベル付けしますが、多くの研究者がその値を単にη²として報告してしまいます。要因計画では両者は異なるため、偏η²またはηp²のどちらを報告しているかを常に明示してください。
効果量なしの有意性のみの報告
「p < .05」を効果量なしで記述することは、APA第7版の基準を満たしません。有意かどうかにかかわらず、すべての推測統計検定に効果量を報告してください。非有意な効果量は、検出力分析やメタ分析にとって価値があります。
Cohenの基準の機械的適用
文脈を考慮せずに、すべてのd = 0.45を「中程度」とラベル付けすることは過度な単純化です。より意味のある解釈のために、自分の効果量を当該分野の先行研究と比較してください。
先頭のゼロの誤り
1を超えることがない値(p、r、η²、R²、V)は先頭のゼロを省略します(例:.42)。1を超えることがある値(Cohenのd、M、SD)は先頭のゼロを含めます(例:0.75)。このルールの混同は頻出するフォーマットエラーです。
カイ二乗の結果からの効果量の省略
多くの研究者がχ²とpのみを報告し、CramerのVを省略しています。カテゴリカルデータを含む検定を含め、すべての統計検定に効果量を伴って報告する必要があります。
StatMateで効果量を自動計算する
StatMateの統計計算ツールは、すべての検定結果とともに効果量を自動的に計算します。
- t検定計算ツール: 95%信頼区間付きのCohenのdを出力
- ANOVA計算ツール: η²と偏η²の両方を提供
- 相関計算ツール: rとR²を一緒に報告
- カイ二乗計算ツール: CramerのVを自動計算
すべての結果はAPA第7版の規約に従っているため、原稿にそのまま貼り付けることができます。手動計算のエラーを排除し、執筆時間を大幅に節約します。
まとめ
効果量は、統計結果を単なる「有意かどうか」の判定から、大きさに関する意味のある記述へと変換します。p値は効果がおそらく存在することを示しますが、効果量はそれが実践において重要かどうかを教えてくれます。Cohenのd、η²/偏η²、r/R²、CramerのVをマスターすることで、あなたの研究は統計的厳密さと現実世界での関連性の両方を伝えることができるようになります。