p値とは何か?
p値とは、帰無仮説が正しいと仮定した場合に、観測された結果と同じかそれ以上に極端な結果が得られる確率のことです。この定義は正確ですが、必ずしも直感的ではないため、例え話で考えてみましょう。
あるコインが不公正であると疑っているとします。20回投げて15回表が出ました。p値は次の問いに答えます:「もしそのコインが完全に公正であったなら、20回中15回以上表が出る確率はどのくらいか?」その確率が非常に低い場合(例えば p = .021)、コインが公正であることを疑う理由があります。比較的高い場合(例えば p = .41)、その結果は通常の偶然で十分説明できます。
p値はあなたの仮説が正しいかどうかを教えてくれるものではありません。実際には何も起きていない場合に、あなたのデータがどれほど驚くべきものであるかを教えてくれるのです。この区別は非常に重要であり、この点を誤解することがp値の誤った解釈のほとんどの原因となっています。
p値の解釈方法
基本的な論理
すべての仮説検定は帰無仮説(H0)から始まります。帰無仮説は通常、効果がない、差がない、または関係がないことを述べます。p値はあなたの観測データがその帰無仮説とどの程度一致しているかを定量化します。
- 小さなp値は、H0のもとであなたのデータが生じにくいことを意味します。これはH0を棄却する根拠となります。
- 大きなp値は、あなたのデータがH0と一致していることを意味します。H0を棄却できません(ただし、H0が正しいことの証明にはなりません)。
解釈の参照表
| p値の範囲 | 慣用的なラベル | 一般的な解釈 | |-----------|--------------|-------------| | p < .001 | 高度に有意 | H0に対する非常に強い証拠 | | p < .01 | 有意 | H0に対する強い証拠 | | p < .05 | 有意 | 慣用的な閾値におけるH0に対する十分な証拠 | | .05 < p < .10 | 限界的に有意 | 弱い証拠;議論されることはあるが決定的ではない | | p > .10 | 有意でない | H0を棄却するには不十分な証拠 |
具体的な例
学習グループ条件(M = 78.4、SD = 9.2、n = 35)と個人学習条件(M = 73.1、SD = 10.5、n = 35)の試験得点を比較する対応のないt検定を実施したとします。検定結果は t(68) = 2.25、p = .028 でした。
以下がステップごとの解釈方法です:
- 帰無仮説を述べる: 2つの学習条件間に試験得点の差はない。
- p値を閾値と比較する: p = .028 は .05 未満です。
- 判断を下す: 帰無仮説を棄却します。
- 文脈に即して解釈する: 学習グループ条件の学生は、個人で学習した学生よりも試験で有意に高い得点を取りました。
p値 .028 は、2つの条件間に本当に差がない場合、偶然だけでこれほど大きいかそれ以上の差が観測される確率が約2.8%しかないことを意味します。
.05の閾値:なぜ、そしていつ使うか
アルファ = .05 を有意水準の閾値として使用する慣習は、1920年代のRonald Fisherにまで遡ります。Fisherは .05 を便利な参照点として提案しましたが、厳格な境界線としてではありませんでした。しかし数十年の間に、Fisher自身がまったく意図していなかった絶対的な基準として扱われるようになりました。
.05が適切な場合
社会科学や行動科学における大部分の探索的研究では、アルファ = .05 は実在する効果の検出(検出力)と偽陽性の回避(第1種の誤り)のバランスを適度に保ちます。これは、実際には効果が存在しないのに効果があると結論づける確率を5%受け入れることを意味します。
異なる閾値を使用すべき場合
状況によっては、より厳しい、またはより緩い閾値が求められます:
- 多重比較: 多くの仮説を同時に検定する場合、族単位誤差率が膨張します。Bonferroni補正や偽発見率の調整により、各検定のアルファを下げます。
- 重大な意思決定: 臨床試験、薬剤承認、ゲノミクス研究では、偽陽性の結果が深刻であるため、p < .01 や p < .001 がしばしば使用されます。
- 探索的研究: 一部の分野では、さらなる調査が必要な予備的知見に対して p < .10 を認めています。
重要な点は、.05 は慣習であって自然法則ではないということです。常に意思決定の文脈と結果を考慮してください。
p値のよくある誤解
このセクションでは、p値の解釈において最も広まっている誤りを取り上げます。このガイドから一つだけ覚えておくとすれば、ほとんどの研究者がこれらの誤解のうち少なくとも一つを持ったことがあるということです。
間違い1:「p = .03は結果が正しい確率が97%であることを意味する」
これはおそらく最も一般的な誤解です。p値は研究仮説が正しい確率ではありません。帰無仮説が正しいと仮定した場合に、あなたのデータ(またはそれ以上に極端なデータ)が得られる確率です。これらは根本的に異なる記述です。
データが与えられたときに仮説が正しい確率を求めるには、事前確率を用いたベイズ分析が必要です。頻度主義のp値は、単にその問いに答えることができません。
間違い2:「有意でないということは効果がないことを意味する」
p = .12 という結果は、効果が存在しないことの証明ではありません。選択したアルファ水準で帰無仮説を棄却するのに十分な証拠が見つからなかったことを意味します。研究の検出力が不足していた(参加者が少なすぎた)可能性や、効果は実在するが小さい可能性、あるいは測定誤差が効果を覆い隠した可能性があります。
証拠がないことは、不在の証拠ではありません。 これは特にサンプルサイズが小さい研究で重要であり、実際の効果が存在していても有意でない結果が一般的に生じます。
間違い3:「p値は効果の大きさを教えてくれる」
非常に小さなp値(例えば p < .001)は、効果が大きい、あるいは重要であることを意味しません。十分に大きなサンプルがあれば、取るに足らない小さな差でも統計的に有意になります。50,000人の参加者を対象とした研究では、100点満点中0.5点の差が p < .001 で検出されるかもしれません。この効果は統計的に有意ですが、実質的には無意味です。
常にp値とともに効果量を報告し、解釈してください。一般的な効果量の指標には、Cohenの d、イータ二乗(偏イータ二乗)、R 二乗などがあります。
間違い4:「p値が小さいほど重要な結果である」
p = .001 の結果が、p = .04 の結果よりも必ずしも重要であるとか、再現性が高いというわけではありません。p値はサンプルサイズ、分散、効果の大きさに影響されます。同じ現象を調べた2つの研究でも、異なるサンプルサイズを使用しただけで異なるp値が得られることがあります。
重要性は、効果量、実質的有意性、知見の再現性によって判断すべきであり、p値の比較によってではありません。
間違い5:「p = .049 と p = .051 は根本的に異なる」
p = .049 を「有意」、p = .051 を「有意でない」として扱うことは、存在しない鋭い質的境界を暗示しています。帰無仮説に対する証拠は両方の値でほぼ同じです。一方を発見として報告し、もう一方をヌル結果として報告することは、二分法的思考の産物であり、基礎となるデータの反映ではありません。
多くの統計学者や学術誌の編集者は、合格/不合格の基準に頼るのではなく、正確なp値を報告し連続的に解釈することを今や推奨しています。
間違い6:「有意なp値は結果が再現されることを意味する」
単一の研究における統計的有意性は、その知見が再現されることを保証しません。p = .04 の結果は、特に元の研究の検出力が不足していた場合や真の効果が小さい場合、正確な追試において有意水準に達しない可能性が十分にあります。
再現性は効果量、サンプルサイズ、研究デザインに依存します。単一の研究からのp値は、証拠の一つであり、証明ではありません。
APA形式でのp値の報告方法
APA第7版にはp値の報告に関する具体的なルールがあります。これらの規約に従うことで、方法論的な厳密さを示し、読者が結果を一貫して解釈できるようになります。
ルール1:正確なp値を報告する
正確なp値を小数点以下2桁または3桁で報告してください。より正確な値がわかっている場合に、単に「p < .05」とだけ書かないでください。
- 正しい例:p = .034
- 正しい例:p = .007
- 避けるべき例:p < .05(正確な値がわかっている場合)
ルール2:非常に小さな値には p < .001 を使用する
p値が .001 未満の場合は、多くの小数桁を書き出すのではなく p < .001 と報告してください。p値が正確にゼロになることはないため、p = .000 と書かないでください。
- 正しい例:p < .001
- 誤り:p = .000
- 誤り:p = .0003
ルール3:先行ゼロを付けない
p値は1.0を超えることがないため、APA形式では先行ゼロを省略します。同じルールが、r や R 二乗など、1で制限される他の統計量にも適用されます。
- 正しい例:p = .034
- 誤り:p = 0.034
検定別のAPA報告例
対応のないt検定:
処置群(M = 24.50、SD = 4.80)は対照群(M = 20.10、SD = 5.30)よりも有意に高い得点を示しました、t(58) = 3.45、p = .001、d = 0.89。
一元配置分散分析:
3つの条件間で満足度評定に統計的に有意な差が認められました、F(2, 87) = 4.92、p = .009、偏イータ二乗 = .10。
Pearson相関:
学習時間とGPAには正の相関が認められました、r(98) = .37、p < .001。
カイ二乗独立性検定:
部門と離職状況の間に有意な関連が認められました、カイ二乗(3, N = 240) = 11.85、p = .008、V = .22。
有意でない結果(正確なp値をそのまま報告):
群間の差は統計的に有意ではありませんでした、t(44) = 1.38、p = .175、d = 0.41。
結果が有意でない場合でも、正確なp値と効果量を報告することに注意してください。この情報はメタ分析や将来の検出力分析にとって価値があります。
p値と効果量:両方が重要な理由
p値と効果量は異なる問いに答えます。p値は「効果が存在するという証拠があるか?」と問い、効果量は「その効果はどのくらい大きいか?」と問います。
| | p値 | 効果量 | |---|---------|-------------| | 答える問い | 効果は実在する可能性が高いか? | 効果はどのくらい大きいか? | | サンプルサイズの影響 | 大きい | 小さい | | 単独で誤解を招く可能性 | はい | はい | | APA第7版の要件 | はい | はい |
新しい教授法に関する2つの研究を考えてみましょう:
- 研究A (N = 500):t(498) = 2.10、p = .036、d = 0.19
- 研究B (N = 40):t(38) = 2.85、p = .007、d = 0.90
研究Aは有意な結果ですが、効果量は非常に小さいです。教授法はほとんど気づかないような改善しか生み出しません。研究Bはp値がより小さく、効果量が大きいため、実質的で意味のある改善を示唆しています。p値だけを報告すると、この重要な違いが見えなくなります。
APA第7版が両方を求めているのには十分な理由があります。両方を合わせることで、研究結果の全体像が得られます。
統計的有意性と実質的有意性
統計的有意性とは、帰無仮説のもとでその結果が生じにくいことを意味します。実質的有意性とは、その結果が現実世界で重要であることを意味します。これらは同じものではありません。
ある製薬試験では、新薬がプラセボよりも血圧を0.5 mmHg低下させることが p < .001、N = 20,000 で見出されるかもしれません。統計的に有意でしょうか?はい。臨床的に意味があるでしょうか?おそらくそうではありません。医師は実質的な効果を得るために少なくとも5 mmHgの変化が必要だと考えているからです。
結果を解釈する際には、常に3つの問いを投げかけてください:
- その効果は統計的に有意か?(p値をアルファ水準と照合してください。)
- 効果はどのくらい大きいか?(ベンチマークや先行研究に照らして効果量を確認してください。)
- その効果は実際に重要か?(あなたの特定の分野における現実世界での含意を考慮してください。)
3つすべてを満たす知見は最も強い証拠です。最初の1つだけを満たす知見は最も弱い証拠です。
StatMateの無料計算機をお試しください
StatMateの20種類すべての無料計算機は、p値を自動的に計算し、APA第7版の形式でフォーマットします。書式ルールを調べたり、先行ゼロ、小数桁、p < .001 をいつ使うべきかを心配する必要はありません。出力はそのまま原稿に貼り付けられる状態です。
このガイドで取り上げた概念に特に関連する計算機をいくつかご紹介します:
- StatMateの無料t検定計算機は、t、df、正確な p、Cohenの d を一つの出力で報告します。
- StatMateの無料分散分析計算機は、F、p、イータ二乗と偏イータ二乗の両方を提供します。
- StatMateの無料相関計算機は、r、p、R 二乗をまとめて出力します。
- StatMateの無料カイ二乗計算機は、カイ二乗統計量、正確な p、Cramerの V を自動的に計算します。
- StatMateの無料サンプルサイズ計算機は、p値が意味のあるものになるよう十分な検出力を持つ研究の計画を支援します。
すべての結果には有意性検定と効果量の両方が含まれているため、一方を他方なしに報告する必要がありません。