Does p < .05 mean there is a 95% chance my result is true?

No. This is one of the most common misunderstandings. The p-value is the probability of observing your data (or more extreme) if the null hypothesis is true. It does not tell you the probability that your hypothesis is correct.

What does p = .049 vs p = .051 really mean?

Practically, there is no meaningful difference. The .05 threshold is an arbitrary convention. A p-value of .051 does not mean 'no effect' while .049 means 'real effect.' Both indicate similar levels of evidence against the null hypothesis.

Can a p-value be exactly 0?

No. A p-value represents a probability and can never be exactly zero. When software displays p = .000, report it as p < .001. There is always some non-zero probability of observing the data under the null hypothesis.

Why do some journals require p < .01 instead of p < .05?

Stricter thresholds reduce false positive rates. Fields with replication concerns or multiple testing situations may adopt more conservative thresholds. Some researchers have proposed p < .005 as a new standard for claims of discovery.

Should I report exact p-values or just p < .05?

APA 7th edition requires exact p-values (e.g., p = .034) rather than inequality statements (p < .05). The only exception is for very small values, which are reported as p < .001.

What is the relationship between p-values and confidence intervals?

They are complementary. If a 95% confidence interval for a mean difference does not include zero, the corresponding p-value will be less than .05. Confidence intervals provide additional information about the magnitude and precision of the effect.

Can I compare p-values across different studies?

No. P-values depend on sample size, effect size, and study design. A p = .001 from a large study does not necessarily indicate a larger effect than p = .04 from a small study. Compare effect sizes instead.

What should I do if my p-value is .06?

Report it honestly as non-significant at the .05 level. Discuss the effect size, confidence interval, and practical implications. Avoid phrases like 'marginally significant' or 'approaching significance,' which are considered p-hacking.

p値の解釈方法：実践ガイド（具体例とよくある間違い）

Q: Does p < .05 mean there is a 95% chance my result is true?

No. This is one of the most common misunderstandings. The p-value is the probability of observing your data (or more extreme) if the null hypothesis is true. It does not tell you the probability that your hypothesis is correct.

Q: What does p = .049 vs p = .051 really mean?

Practically, there is no meaningful difference. The .05 threshold is an arbitrary convention. A p-value of .051 does not mean 'no effect' while .049 means 'real effect.' Both indicate similar levels of evidence against the null hypothesis.

Q: Can a p-value be exactly 0?

No. A p-value represents a probability and can never be exactly zero. When software displays p = .000, report it as p < .001. There is always some non-zero probability of observing the data under the null hypothesis.

Q: Why do some journals require p < .01 instead of p < .05?

Stricter thresholds reduce false positive rates. Fields with replication concerns or multiple testing situations may adopt more conservative thresholds. Some researchers have proposed p < .005 as a new standard for claims of discovery.

Q: Should I report exact p-values or just p < .05?

APA 7th edition requires exact p-values (e.g., p = .034) rather than inequality statements (p < .05). The only exception is for very small values, which are reported as p < .001.

Q: What is the relationship between p-values and confidence intervals?

They are complementary. If a 95% confidence interval for a mean difference does not include zero, the corresponding p-value will be less than .05. Confidence intervals provide additional information about the magnitude and precision of the effect.

Q: Can I compare p-values across different studies?

No. P-values depend on sample size, effect size, and study design. A p = .001 from a large study does not necessarily indicate a larger effect than p = .04 from a small study. Compare effect sizes instead.

Q: What should I do if my p-value is .06?

Report it honestly as non-significant at the .05 level. Discuss the effect size, confidence interval, and practical implications. Avoid phrases like 'marginally significant' or 'approaching significance,' which are considered p-hacking.

p値とは何か？

p値とは、帰無仮説が正しいと仮定した場合に、観測された結果と同じかそれ以上に極端な結果が得られる確率のことです。この定義は正確ですが、必ずしも直感的ではないため、例え話で考えてみましょう。

あるコインが不公正であると疑っているとします。20回投げて15回表が出ました。p値は次の問いに答えます：「もしそのコインが完全に公正であったなら、20回中15回以上表が出る確率はどのくらいか？」その確率が非常に低い場合（例えば p = .021）、コインが公正であることを疑う理由があります。比較的高い場合（例えば p = .41）、その結果は通常の偶然で十分説明できます。

p値はあなたの仮説が正しいかどうかを教えてくれるものではありません。実際には何も起きていない場合に、あなたのデータがどれほど驚くべきものであるかを教えてくれるのです。この区別は非常に重要であり、この点を誤解することがp値の誤った解釈のほとんどの原因となっています。

p値の解釈方法

基本的な論理

すべての仮説検定は帰無仮説（H0）から始まります。帰無仮説は通常、効果がない、差がない、または関係がないことを述べます。p値はあなたの観測データがその帰無仮説とどの程度一致しているかを定量化します。

小さなp値は、H0のもとであなたのデータが生じにくいことを意味します。これはH0を棄却する根拠となります。
大きなp値は、あなたのデータがH0と一致していることを意味します。H0を棄却できません（ただし、H0が正しいことの証明にはなりません）。

解釈の参照表

| p値の範囲 | 慣用的なラベル | 一般的な解釈 | |-----------|--------------|-------------| | p < .001 | 高度に有意 | H0に対する非常に強い証拠 | | p < .01 | 有意 | H0に対する強い証拠 | | p < .05 | 有意 | 慣用的な閾値におけるH0に対する十分な証拠 | | .05 < p < .10 | 限界的に有意 | 弱い証拠；議論されることはあるが決定的ではない | | p > .10 | 有意でない | H0を棄却するには不十分な証拠 |

具体的な例

学習グループ条件（M = 78.4、SD = 9.2、n = 35）と個人学習条件（M = 73.1、SD = 10.5、n = 35）の試験得点を比較する対応のないt検定を実施したとします。検定結果は t(68) = 2.25、p = .028 でした。

以下がステップごとの解釈方法です：

帰無仮説を述べる： 2つの学習条件間に試験得点の差はない。
p値を閾値と比較する： p = .028 は .05 未満です。
判断を下す： 帰無仮説を棄却します。
文脈に即して解釈する： 学習グループ条件の学生は、個人で学習した学生よりも試験で有意に高い得点を取りました。

p値 .028 は、2つの条件間に本当に差がない場合、偶然だけでこれほど大きいかそれ以上の差が観測される確率が約2.8%しかないことを意味します。

.05の閾値：なぜ、そしていつ使うか

アルファ = .05 を有意水準の閾値として使用する慣習は、1920年代のRonald Fisherにまで遡ります。Fisherは .05 を便利な参照点として提案しましたが、厳格な境界線としてではありませんでした。しかし数十年の間に、Fisher自身がまったく意図していなかった絶対的な基準として扱われるようになりました。

.05が適切な場合

社会科学や行動科学における大部分の探索的研究では、アルファ = .05 は実在する効果の検出（検出力）と偽陽性の回避（第1種の誤り）のバランスを適度に保ちます。これは、実際には効果が存在しないのに効果があると結論づける確率を5%受け入れることを意味します。

異なる閾値を使用すべき場合

状況によっては、より厳しい、またはより緩い閾値が求められます：

多重比較： 多くの仮説を同時に検定する場合、族単位誤差率が膨張します。Bonferroni補正や偽発見率の調整により、各検定のアルファを下げます。
重大な意思決定： 臨床試験、薬剤承認、ゲノミクス研究では、偽陽性の結果が深刻であるため、p < .01 や p < .001 がしばしば使用されます。
探索的研究： 一部の分野では、さらなる調査が必要な予備的知見に対して p < .10 を認めています。

重要な点は、.05 は慣習であって自然法則ではないということです。常に意思決定の文脈と結果を考慮してください。

p値のよくある誤解

このセクションでは、p値の解釈において最も広まっている誤りを取り上げます。このガイドから一つだけ覚えておくとすれば、ほとんどの研究者がこれらの誤解のうち少なくとも一つを持ったことがあるということです。

間違い1：「p = .03は結果が正しい確率が97%であることを意味する」

これはおそらく最も一般的な誤解です。p値は研究仮説が正しい確率ではありません。帰無仮説が正しいと仮定した場合に、あなたのデータ（またはそれ以上に極端なデータ）が得られる確率です。これらは根本的に異なる記述です。

データが与えられたときに仮説が正しい確率を求めるには、事前確率を用いたベイズ分析が必要です。頻度主義のp値は、単にその問いに答えることができません。

間違い2：「有意でないということは効果がないことを意味する」

p = .12 という結果は、効果が存在しないことの証明ではありません。選択したアルファ水準で帰無仮説を棄却するのに十分な証拠が見つからなかったことを意味します。研究の検出力が不足していた（参加者が少なすぎた）可能性や、効果は実在するが小さい可能性、あるいは測定誤差が効果を覆い隠した可能性があります。

証拠がないことは、不在の証拠ではありません。 これは特にサンプルサイズが小さい研究で重要であり、実際の効果が存在していても有意でない結果が一般的に生じます。

間違い3：「p値は効果の大きさを教えてくれる」

非常に小さなp値（例えば p < .001）は、効果が大きい、あるいは重要であることを意味しません。十分に大きなサンプルがあれば、取るに足らない小さな差でも統計的に有意になります。50,000人の参加者を対象とした研究では、100点満点中0.5点の差が p < .001 で検出されるかもしれません。この効果は統計的に有意ですが、実質的には無意味です。

常にp値とともに効果量を報告し、解釈してください。一般的な効果量の指標には、Cohenの d、イータ二乗（偏イータ二乗）、R 二乗などがあります。

間違い4：「p値が小さいほど重要な結果である」

p = .001 の結果が、p = .04 の結果よりも必ずしも重要であるとか、再現性が高いというわけではありません。p値はサンプルサイズ、分散、効果の大きさに影響されます。同じ現象を調べた2つの研究でも、異なるサンプルサイズを使用しただけで異なるp値が得られることがあります。

重要性は、効果量、実質的有意性、知見の再現性によって判断すべきであり、p値の比較によってではありません。

間違い5：「p = .049 と p = .051 は根本的に異なる」

p = .049 を「有意」、p = .051 を「有意でない」として扱うことは、存在しない鋭い質的境界を暗示しています。帰無仮説に対する証拠は両方の値でほぼ同じです。一方を発見として報告し、もう一方をヌル結果として報告することは、二分法的思考の産物であり、基礎となるデータの反映ではありません。

多くの統計学者や学術誌の編集者は、合格/不合格の基準に頼るのではなく、正確なp値を報告し連続的に解釈することを今や推奨しています。

間違い6：「有意なp値は結果が再現されることを意味する」

単一の研究における統計的有意性は、その知見が再現されることを保証しません。p = .04 の結果は、特に元の研究の検出力が不足していた場合や真の効果が小さい場合、正確な追試において有意水準に達しない可能性が十分にあります。

再現性は効果量、サンプルサイズ、研究デザインに依存します。単一の研究からのp値は、証拠の一つであり、証明ではありません。

APA形式でのp値の報告方法

APA第7版にはp値の報告に関する具体的なルールがあります。これらの規約に従うことで、方法論的な厳密さを示し、読者が結果を一貫して解釈できるようになります。

ルール1：正確なp値を報告する

正確なp値を小数点以下2桁または3桁で報告してください。より正確な値がわかっている場合に、単に「p < .05」とだけ書かないでください。

正しい例：p = .034
正しい例：p = .007
避けるべき例：p < .05（正確な値がわかっている場合）

ルール2：非常に小さな値には p < .001 を使用する

p値が .001 未満の場合は、多くの小数桁を書き出すのではなく p < .001 と報告してください。p値が正確にゼロになることはないため、p = .000 と書かないでください。

正しい例：p < .001
誤り：p = .000
誤り：p = .0003

ルール3：先行ゼロを付けない

p値は1.0を超えることがないため、APA形式では先行ゼロを省略します。同じルールが、r や R 二乗など、1で制限される他の統計量にも適用されます。

正しい例：p = .034
誤り：p = 0.034

検定別のAPA報告例

対応のないt検定：

処置群（M = 24.50、SD = 4.80）は対照群（M = 20.10、SD = 5.30）よりも有意に高い得点を示しました、t(58) = 3.45、p = .001、d = 0.89。

一元配置分散分析：

3つの条件間で満足度評定に統計的に有意な差が認められました、F(2, 87) = 4.92、p = .009、偏イータ二乗 = .10。

Pearson相関：

学習時間とGPAには正の相関が認められました、r(98) = .37、p < .001。

カイ二乗独立性検定：

部門と離職状況の間に有意な関連が認められました、カイ二乗(3, N = 240) = 11.85、p = .008、V = .22。

有意でない結果（正確なp値をそのまま報告）：

群間の差は統計的に有意ではありませんでした、t(44) = 1.38、p = .175、d = 0.41。

結果が有意でない場合でも、正確なp値と効果量を報告することに注意してください。この情報はメタ分析や将来の検出力分析にとって価値があります。

p値と効果量：両方が重要な理由

p値と効果量は異なる問いに答えます。p値は「効果が存在するという証拠があるか？」と問い、効果量は「その効果はどのくらい大きいか？」と問います。

| | p値 | 効果量 | |---|---------|-------------| | 答える問い | 効果は実在する可能性が高いか？ | 効果はどのくらい大きいか？ | | サンプルサイズの影響 | 大きい | 小さい | | 単独で誤解を招く可能性 | はい | はい | | APA第7版の要件 | はい | はい |

新しい教授法に関する2つの研究を考えてみましょう：

研究A (N = 500)：t(498) = 2.10、p = .036、d = 0.19
研究B (N = 40)：t(38) = 2.85、p = .007、d = 0.90

研究Aは有意な結果ですが、効果量は非常に小さいです。教授法はほとんど気づかないような改善しか生み出しません。研究Bはp値がより小さく、効果量が大きいため、実質的で意味のある改善を示唆しています。p値だけを報告すると、この重要な違いが見えなくなります。

APA第7版が両方を求めているのには十分な理由があります。両方を合わせることで、研究結果の全体像が得られます。

統計的有意性と実質的有意性

統計的有意性とは、帰無仮説のもとでその結果が生じにくいことを意味します。実質的有意性とは、その結果が現実世界で重要であることを意味します。これらは同じものではありません。

ある製薬試験では、新薬がプラセボよりも血圧を0.5 mmHg低下させることが p < .001、N = 20,000 で見出されるかもしれません。統計的に有意でしょうか？はい。臨床的に意味があるでしょうか？おそらくそうではありません。医師は実質的な効果を得るために少なくとも5 mmHgの変化が必要だと考えているからです。

結果を解釈する際には、常に3つの問いを投げかけてください：

その効果は統計的に有意か？（p値をアルファ水準と照合してください。）
効果はどのくらい大きいか？（ベンチマークや先行研究に照らして効果量を確認してください。）
その効果は実際に重要か？（あなたの特定の分野における現実世界での含意を考慮してください。）

3つすべてを満たす知見は最も強い証拠です。最初の1つだけを満たす知見は最も弱い証拠です。

p値論争：ASA声明とその先

p値をめぐる議論は、2016年にアメリカ統計学会（ASA）が統計的有意性とp値に関する初の公式声明を発表したことで転換点を迎えました。これはASAの177年の歴史において前例のないことであり、科学全般にわたるp値の広範な誤用に対する深い懸念を反映したものでした。

ASAの6つの原則

ASA声明は、すべての研究者が理解すべき6つの原則を明示しました：

p値は、データが特定の統計モデルとどの程度相容れないかを示すことができます。 p値はデータと帰無仮説間の不一致を定量化しますが、これはモデルが正しいという前提のもとです。
p値は、研究された仮説が正しい確率や、データが偶然のみによって生成された確率を測定するものではありません。 これは最も一般的な誤解に直接対処しています。
科学的結論やビジネス・政策上の意思決定は、p値が特定の閾値を通過するかどうかだけに基づくべきではありません。 p = .06だからといって結果を無視したり、p = .04だからといって無条件に受け入れたりすべきではありません。
適切な推論には完全な報告と透明性が必要です。 有意な結果のみを選択的に報告したり、有意性が達成されるまで分析を繰り返したり（p-ハッキング）、結果を選別的に報告することは、p値の妥当性を損ないます。
p値、すなわち統計的有意性は、効果の大きさや結果の重要性を測定するものではありません。 大きな標本では些細な効果でも小さなp値が得られ、小さな標本では重要な効果でも大きなp値が示される場合があります。
p値それ自体は、モデルや仮説に関する優れた証拠の指標を提供しません。 信頼区間、ベイズ的手法、効果量などの他のアプローチがp値とともに使用されるべきです。

p < .05 が恣意的である理由

.05の閾値には数学的導出や科学的正当性がありません。Ronald Fisherは当初これを緩い指針として提案し、この水準以下の結果は再検討する価値があると記しました。Jerzy NeymanとEgon Pearsonはその後、固定された誤差率で仮説検定を公式化し、2つの枠組みが時間とともに混同されました。.05の基準は科学的最適化ではなく、歴史的慣習の結果です。

この恣意的な閾値のいくつかの結果は十分に文書化されています。研究者はp値が.05を下回るまで分析、標本サイズ、変数を調整するp-ハッキングに従事しています。出版バイアスは有意な結果を優遇し、有意でない結果はファイルドロワーに残されます。そして心理学、医学、その他の分野における再現性の危機は、この閾値の無批判的な適用に部分的に起因しています。

2019年には、800人以上の科学者のグループが「統計的に有意」という用語自体を完全に廃止することを提唱する論文を発表しました。彼らは、結果を有意/非有意に二分法的に分類することが、過度の確信と見落とされた証拠につながると主張しました。

信頼区間と効果量への移行

これらの懸念に応えて、多くの学術誌や専門機関が、p値とともに（またはその代わりに）信頼区間と効果量を報告することを要求または強く推奨しています。理由は明確です：

信頼区間は、関心のあるパラメータの妥当な値の範囲を示し、推定値の方向と精度の両方に関する情報を提供します。95% CI [0.2, 4.8]は、p = .03だけでは得られない情報を提供します。
効果量は、標本サイズに依存せず、観察された現象の大きさを定量化します。Cohenの d = 0.15 対 d = 1.20は、p値の比較よりも実質的重要性についてはるかに多くのことを教えてくれます。
統計的有意性と実質的有意性の区別がますます強調されています。コレステロールを0.1 mg/dL下げる薬剤が p < .001であれば統計的に有意ですが、臨床的には無関係です。逆に、小規模パイロット研究で d = 0.80、p = .07の治療は、大きく潜在的に意味のある効果を示しており、さらなる調査が必要です。

ASA声明はp値を廃止するよう求めたわけではありません。むしろ、p値を多くのツールの一つとして使用し、科学的結論の唯一の根拠としないよう促しました。

さまざまな統計検定におけるp値

基本的な概念はすべての仮説検定で同じですが、p値を計算する仕組みは検定統計量とその参照分布によって異なります。これらの違いを理解することで、p値をより正確に解釈し、各p値が実際に何を検定しているかを認識するのに役立ちます。

t検定：t分布からのp値

t検定では、検定統計量は平均間の差をその差の標準誤差で割って計算されます。これにより t 値が生成され、標本サイズによって決定される自由度を持つt分布に従います。

p値は、観測された t 値以上（または以下）のt分布曲線下の面積です。両側検定の場合、これは両方の裾の合計面積です。大きな標本では、t分布は標準正規分布に近づき、p値もそれに応じて収束します。

例えば、t(28) = 2.45の場合、p値は28自由度のt分布から、t 値が2.45以上に極端（どちらの方向でも）な値を観測する確率です。これにより約 p = .021が得られます。

分散分析（ANOVA）：F分布からのp値

分散分析では、検定統計量は群間分散と群内分散を比較するF比です。各群の平均が真に等しければ、この比は1に近いはずです。より大きなF値は、群内の変動に比べて群間平均の差がより大きいことを示します。

F分布は右に歪んでおり、0で下限が定められ、正の値のみを生成します。p値は、観測されたF値の右側のF分布曲線下の面積です。t分布とは異なり、F検定は本質的に方向性があるため（大きなF = H0に対するより多くの証拠）、「左裾」の問題はありません。

例えば、F(3, 96) = 4.15は、群間分散が群内分散の4.15倍であり、自由度は3（群数 - 1）と96（総N - 群数）です。結果として p = .008は、すべての群平均が真に等しければこの比が生じにくいことを示しています。

カイ二乗：カイ二乗分布からのp値

カイ二乗検定は、分割表における観測度数を独立性の仮定のもとで（または適合度検定の場合は指定された分布のもとで）期待される度数と比較します。検定統計量は、観測値と期待値の差の二乗を期待値で割った値をすべて合計したものです。

F分布と同様に、カイ二乗分布は右に歪んでおり非負です。より大きなカイ二乗値は、観測データと期待データ間のより大きな不一致を反映しています。p値は、自由度が与えられたとき、観測されたものと同じかそれ以上に大きなカイ二乗値を得る確率です。

3x2の分割表の場合、df = (3 - 1)(2 - 1) = 2です。カイ二乗 = 9.21の場合、2自由度のカイ二乗分布からのp値は約 p = .010です。

相関：t分布変換からのp値

Pearsonの相関係数 r の場合、p値は相関固有の分布から直接読み取るものではありません。代わりに、r は次の公式を使って t 統計量に変換されます：

t = r * sqrt((n - 2) / (1 - r の二乗))

この変換は、母相関が0であるという帰無仮説のもとで、n - 2自由度のt分布に従います。そして、通常のt検定と同様に、このt分布からp値が得られます。

これが、同じ相関係数がある研究では有意であり、別の研究では有意でない理由を説明しています。r = .25で n = 100の場合、t = 2.55で p = .012です。しかし r = .25で n = 20の場合、t = 1.08で p = .295です。相関は同一ですが、H0に対する証拠は標本サイズに大きく依存します。

共通の原理

これらの機械的な違いにもかかわらず、すべてのp値は同じ根本的な問いに答えます：帰無仮説が正しい場合、この程度に極端な、またはそれ以上に極端な結果を得る確率はどのくらいか？ 検定統計量は各検定に適した方法で「どれほど極端か」を定量化し、参照分布が確率のスケールを提供します。平均、比率、分散、相関のいずれを比較する場合でも、論理的な枠組みは同じです。

片側検定と両側検定のp値

片側検定と両側検定の区別は一般的な混乱の原因であり、両者の選択はp値と結論に実質的な影響を与えます。

両側検定とは？

両側検定は、観測された効果がどちらの方向にも0と異なるかどうかを評価します。グループAがグループBより高い可能性と、グループBがグループAより高い可能性の両方を考慮します。p値は、分布の両方の裾で観測された結果以上に極端な確率を含みます。

t検定が t = 2.10を産出した場合、両側p値は t が2.10以上である確率と t が-2.10以下である確率の両方を数えます。これが両側検定をより保守的にします。

片側検定とは？

片側検定は、観測された効果が事前に指定された特定の方向にあるかどうかを評価します。例えば、新薬が血圧を下げる（単に変化させるのではなく）と予測するかもしれません。そのとき、p値は分布の片方の裾の確率のみを考慮します。

片側p値は正確に両側p値の半分です：

片側 p = 両側 p / 2

したがって、両側 p = .06の場合、片側 p = .03です。これは、両側検定で有意でない結果が片側検定では有意になりうることを意味します。

それぞれをいつ使うか

両側検定がほとんどの研究でデフォルトであり、正当な理由があります：

より保守的で、偽陽性を減らします。
データ収集前に方向を指定する必要がありません。
ほとんどの学術誌や査読者は、強力な正当化がない限り両側検定を期待します。
反対方向の予想外の効果から保護します。

片側検定が適切な場合は以下に限られます：

データを見る前に効果の方向を予測する強力な理論的または経験的根拠がある場合。
反対方向の効果が帰無結果と同じように扱われる場合（つまり、他の方向に真に関心がない場合）。
方向性のある仮説がデータ収集前に事前登録されている場合。

APA報告の慣例

APA第7版は一方のアプローチを他方より義務付けていませんが、透明性を要求しています。片側検定を使用する場合は、方法セクションでこれを明示的に述べ、方向性の予測を正当化してください。p値を片側として報告してください。

両側検定の例：

処置群は有意に高い得点を示しました、t(48) = 2.15、p = .037（両側）、d = 0.61。

片側検定の例：

予測通り、処置群は有意に高い得点を示しました、t(48) = 2.15、p = .018（片側）、d = 0.61。

非有意な結果を有意な結果に変えるためにデータを見た後で片側検定を使用することは、方法論的に不適切であり、p-ハッキングの一形態と見なされます。

多重比較とp値の調整

alpha = .05で単一の仮説検定を行う場合、5%の偽陽性の可能性を受け入れます。しかし、同じ研究で20の検定を実行するとどうなるでしょうか？少なくとも1つの偽陽性が生じる確率が劇的に上昇し、これが多重比較の問題です。

族単位誤差率の問題

各検定が5%の偽陽性率を持ち、検定が独立であれば、k個の検定で少なくとも1つの第1種の誤りを犯す確率は次の通りです：

族単位誤差率 = 1 - (1 - 0.05)^k

20の独立した検定の場合：1 - (0.95)^20 = .64。これは、すべての帰無仮説が正しい場合でも、少なくとも1つの偽陽性が生じる確率が64%であることを意味します。これが、多くの未補正の検定を実行し、有意なものだけを報告することが誤解を招く理由です。

Bonferroni補正

最も単純で広く知られている補正は、各検定のアルファを比較の数で割ることです：

調整アルファ = 0.05 / k

10回の比較の場合、各個別の検定はアルファ = .005を使用します。これは族単位誤差率を厳密に制御しますが、特に多くの検定では非常に保守的になりうるため、実在する効果を見逃すリスク（第2種の誤り）が増加します。

Bonferroniを使用すべき場合：

計画された比較の数が少ない場合（3-10個）
族単位誤差率の制御が重要な場合
ANOVAの事後ペアワイズ比較

偽発見率（FDR、Benjamini-Hochberg）

多数の同時検定がある研究（例：数千の遺伝子を扱うゲノミクス）では、Bonferroniは非現実的に厳格になります。Benjamini-Hochberg（BH）手続きは、偽陽性が1つでも発生する確率ではなく、棄却されたすべての仮説の中で偽陽性の予想される割合である偽発見率（FDR）を制御します。

BH手続き：

すべてのp値を最小から最大まで順位付けします。
各順位のp値について：（順位 / 検定の総数）× 希望するFDR（例：.05）を計算します。
最大の順位から始めて、BH閾値以下の最初のp値を見つけます。より小さい順位のすべてのp値も有意と見なされます。

FDR制御はBonferroniよりも保守的ではなく、現在、遺伝子発現研究、脳画像研究、大規模調査分析などの高次元研究で標準となっています。

補正を適用すべき場合と適用すべきでない場合

多重検定があるすべての状況で補正が必要なわけではありません：

補正を適用：同じデータセットで複数の仮説を検定し、検定が同じ研究課題に取り組んでいる場合（例：ANOVA後のペアワイズ比較、複数の従属変数の検定）。
補正を適用しない：検定が同じ研究内にあるが、真に独立した研究課題に取り組んでいる場合。例えば、要因計画ANOVAで主効果と交互作用を検定することは、各検定が別個の仮説に取り組んでいるため、Bonferroni補正を必要としません。
事前登録された特定の計画された比較は、比較の数が少なく理論に基づいている場合、補正を適用しないことを正当化できます。

核心的な問いは、ある検定での偽陽性が他の検定の文脈で解釈されるかどうかです。そうであれば補正してください。そうでなければ、補正は必要ないかもしれません。

p値の可視化：実際に示していること

p値に対する直感を構築する最良の方法の一つは、視覚的に考えることです。p値は根本的に、観測された結果が可能な結果の分布のどこに位置するか、そしてその分布のどれだけの部分が観測値以上に位置するかに関するものです。

標本分布の概念

p値を解釈する前に、標本分布を理解する必要があります。これは生データの分布ではありません。帰無仮説が正しいときに、研究を無限に繰り返した場合に得られる検定統計量（t、F、カイ二乗など）の理論的分布です。

自由度30のt検定の場合、H0のもとでの t の標本分布は0を中心とした釣鐘型の曲線です。ほとんどの値は0の近くに集まり（差がないことを示し）、0から遠い値はますます稀になります。

観測された統計量の位置

実際の研究は1つの検定統計量を生成し、これはこの分布上の1つの点です。帰無仮説が正しければ、この値は中心付近に落ちると期待されます。裾の深くに落ちれば、データはH0と矛盾しています。

両側t検定の以下のシナリオを考えてください：

t = 0.5は分布の中心にうまく収まります。これは注目に値しない結果です。p値は大きいです。
t = 2.0は分布の外側部分に位置します。H0のもとでは無作為標本の5%未満がこれほど極端な t を生成するでしょう。p値は小さいです。
t = 3.5は裾の深くに位置します。これはH0のもとでは極めて珍しい結果です。p値は非常に小さいです。

曲線下の面積 = p値

p値は文字通り、観測された検定統計量以上での標本分布曲線下の陰影部分の面積です。両側検定の場合、陰影面積は両方の裾を含みます。

これが以下を説明します：

0に近い t 値は、より大きな陰影面積とより大きなp値を与えます。
0から遠い t 値は、より小さな陰影面積とより小さなp値を与えます。
アルファ水準（.05）は臨界境界を定義します：この境界を超える検定統計量は棄却域にあります。

極端な値が小さなp値を生む理由

確率分布の裾は非常に少ない面積を含んでいます。標準正規分布では、約5%の面積のみが±1.96の外にあり、約1%のみが±2.58の外にあります。これらの領域の検定統計量はH0のもとでは稀であり、これがまさにH0に対する証拠を提供する理由です。

この視覚的な枠組みは、標本サイズがなぜ重要かも説明しています。より大きな標本は、より少ないばらつき（より小さな標準誤差）を持つ標本分布を生成し、群間のわずかな差異でも検定統計量を裾に押しやることを意味します。これが、大規模標本研究が些細に小さな効果に対しても統計的有意性を見出しうる理由です。

よくある質問

p < .05は、結果が正しい確率が95%であることを意味しますか？

いいえ。これは最も一般的な誤解の一つです。p値は、帰無仮説が正しい場合に、観測されたデータ（またはそれ以上に極端なデータ）を得る確率です。仮説が正しい確率を教えてくれるものではありません。仮説が正しい確率を求めるには、事前確率を用いたベイズ分析が必要であり、これは根本的に異なる枠組みです。

p = .049 と p = .051 は実際に何を意味しますか？

実質的には意味のある違いはありません。.05の閾値は恣意的な慣習です。p = .051が「効果なし」を、.049が「真の効果」を意味するわけではありません。両者とも帰無仮説に対する同様のレベルの証拠を示しています。ASAと多くの主要な統計学者は、p値を合格/不合格の基準ではなく、証拠の連続的な指標として扱うことを推奨しています。

p値は正確に0になりえますか？

いいえ。p値は確率を表すものであり、正確にゼロになることはありません。統計ソフトウェアがp = .000と表示する場合、それは与えられた小数精度では表示できないほど小さいことを意味します。論文では p < .001として報告してください。帰無仮説のもとでデータが観測される確率は、どんなに小さくても常にゼロではない値が存在します。

なぜ一部の学術誌はp < .05ではなくp < .01を要求するのですか？

より厳しい閾値は偽陽性率を低減します。再現性の問題が深刻な分野（例：社会心理学）や、多重検定が頻繁な分野（例：ゲノミクス）では、より保守的な閾値が採用される場合があります。一部の研究者は、新しい発見の主張に対する新たなデフォルトとして p < .005 を提案しており、これにより偽陽性率が約33%から5%に低減すると主張しています。

正確なp値を報告すべきですか、それともp < .05だけでよいですか？

APA第7版は、不等式表現（p < .05）ではなく正確なp値（例：p = .034）を要求しています。正確な値により、読者やメタ分析者が証拠の強さを自ら評価できます。唯一の例外は非常に小さな値で、多くの小数桁を列挙する代わりに p < .001として報告すべきです。

p値と信頼区間の関係は何ですか？

両者は相互補完的です。平均差の95%信頼区間がゼロを含まない場合、対応する両側p値は.05未満になります。逆に、CIがゼロを含む場合、p値は.05を超えます。信頼区間は、p値だけでは提供できない追加情報、すなわち効果の推定される大きさとその推定の精度を提供します。

異なる研究間でp値を比較できますか？

いいえ。p値は標本サイズ、効果量、変動性、研究デザインに依存します。10,000人の参加者を対象とした研究の p = .001 が、30人の参加者を対象とした研究の p = .04 よりも必ずしも大きいまたは重要な効果を示すわけではありません。研究間の結果を比較するには、効果量（Cohenの d や r など）を使用し、メタ分析的手法を検討してください。

p値が.06の場合、どうすればよいですか？

.05水準で有意でないと正直に報告してください。効果量、信頼区間、実質的な含意を議論してください。「限界的に有意」「有意性に近づいている」「有意性の傾向がある」などの表現は使用しないでください。これらの表現は、非有意性の婉曲表現として広く認識されており、軽度のp-ハッキングと見なされています。代わりに、証拠が曖昧であると解釈し、より大きな統計的検出力を持つ将来の研究がこの知見を明確にする可能性があることを提案してください。

StatMateの無料計算機をお試しください

StatMateの20種類すべての無料計算機は、p値を自動的に計算し、APA第7版の形式でフォーマットします。書式ルールを調べたり、先行ゼロ、小数桁、p < .001 をいつ使うべきかを心配する必要はありません。出力はそのまま原稿に貼り付けられる状態です。

このガイドで取り上げた概念に特に関連する計算機をいくつかご紹介します：

StatMateの無料t検定計算機は、t、df、正確な p、Cohenの d を一つの出力で報告します。
StatMateの無料分散分析計算機は、F、p、イータ二乗と偏イータ二乗の両方を提供します。
StatMateの無料相関計算機は、r、p、R 二乗をまとめて出力します。
StatMateの無料カイ二乗計算機は、カイ二乗統計量、正確な p、Cramerの V を自動的に計算します。
StatMateの無料サンプルサイズ計算機は、p値が意味のあるものになるよう十分な検出力を持つ研究の計画を支援します。

すべての結果には有意性検定と効果量の両方が含まれているため、一方を他方なしに報告する必要がありません。