Fisherの正確検定が重要な理由
カテゴリカルデータを扱う研究者は、しばしばジレンマに直面します:分析すべき分割表があるものの、サンプルサイズがカイ二乗検定で信頼性のある結果を得るには小さすぎるという状況です。ここでFisherの正確検定が不可欠となります。
1935年にRonald A. Fisherが有名な「お茶の味見をする婦人」実験のために開発したこの検定は、2つのカテゴリカル変数間の独立性の帰無仮説のもとで、観測データ(またはそれよりも極端なデータ)が得られる正確な確率を計算します。カイ二乗検定とは異なり、大標本近似に依存しません。産出される p 値は近似値ではなく正確値です。
Fisherの正確検定は、登録数の少ない臨床試験、実行可能性を検証するパイロット研究、稀な曝露を含む症例対照研究、参加者数が限られた行動実験など、事実上すべての実証分野で使用されています。2022年の The BMJ および JAMA 掲載論文のレビューでは、Fisherの正確検定はt検定とカイ二乗検定に次いで3番目に多く報告された統計手続きでした。
この普及にもかかわらず、Fisherの正確検定は文献中で最も誤って報告される検定の一つです。よくあるエラーには、検定が産出しないカイ二乗統計量の報告、効果量の完全な省略、片側 p 値と両側 p 値の区別の失敗などがあります。本ガイドでは、テンプレート、詳細な例、効果量の指針、および提出前のチェックリストを含む、APA第7版準拠の完全な報告の枠組みを提供します。
Fisherの正確検定とカイ二乗検定の使い分け
Fisherの正確検定とピアソンのカイ二乗検定の選択は、カイ二乗検定の基礎にある大標本近似がデータに対して十分かどうかに依存します。
期待度数のルール
カイ二乗検定は、検定統計量のサンプリング分布をカイ二乗分布で近似します。この近似には十分に大きな期待セル度数が必要です。Cochran (1954) が定式化した古典的なガイドラインは以下の通りです:
- 期待度数が5未満のセルは全セルの20%以下であること
- 期待度数が1未満のセルが1つもないこと
いずれかの条件に違反すると、カイ二乗の p 値は大きく不正確になる可能性があります — 時にリベラルすぎ(第I種の誤りの膨張)、時に保守的すぎ(検出力の低下)。Fisherの正確検定は、分布の仮定なしに超幾何分布から直接 p 値を計算するため、この問題を完全に回避します。
期待度数の確認方法。 検定を選択する前に、各セルの期待値を以下の式で計算してください:E = (行合計 × 列合計)/ 総合計。ほとんどの統計ソフトウェア(SPSS、R、Python、Stata)は、カイ二乗の出力とともに期待度数を表示し、5を下回るセルにフラグを立てます。
小さいサンプルサイズ
実用的な目安として:
| 合計 N | 推奨 | |----------|------| | N < 20 | 常にFisherの正確検定を使用 | | 20 ≤ N ≤ 40 | 期待セル度数を確認;5未満のセルがあればFisherを使用 | | N > 40 | カイ二乗検定が通常安全;期待値を確認 |
これらの閾値は2×2表に適用されます。より大きな表(3×3、2×4など)では、すべてのセルで十分な期待度数を維持するために比例的に大きなサンプルが必要です。
周辺度数が固定された2×2表
Fisherの正確検定は、観測された行と列の周辺度数(合計)を条件として検定します。いくつかの実験デザインでは、一方または両方の周辺が設計により固定されています — 例えば、研究者が処置群に正確に15人、対照群に15人を割り当てる場合。これらの場合、Fisherの正確検定は適切であるだけでなく、条件付けが実際の研究デザインと一致するため、理論的にも理想的です。
APA形式での選択の正当化方法
Fisherの正確検定を選択した理由を常に述べてください。2つの例:
セルの50%(4セル中2セル)の期待度数が5未満であったため、ピアソンのカイ二乗検定ではなくFisherの正確検定を使用した(Agresti, 2007)。
総サンプルサイズ(N = 18)がカイ二乗近似には不十分であった。したがってFisherの正確検定を使用した。
Fisherの正確検定の基本APA形式
Fisherの正確検定は検定統計量を産出しません。カイ二乗値も F 値も t 値もありません。結果は正確な p 値と効果量測定で構成されます。
2×2表のテンプレート
Fisher's exact test indicated a significant association between [変数1] and [変数2], p = .XXX, OR = X.XX, 95% CI [X.XX, X.XX].
非有意な結果のテンプレート
Fisher's exact test did not reveal a significant association between [変数1] and [変数2], p = .XXX, OR = X.XX, 95% CI [X.XX, X.XX].
必須要素
すべてのAPA準拠のFisherの正確検定の報告には以下を含める必要があります:
- 検定名:「Fisher's exact test」
- 正確な p 値:p = .035(非常に小さい値の場合は p < .001)
- 効果量:2×2表にはオッズ比(OR)、より大きな表にはCramérの V
- 信頼区間:効果量の95% CI
- 効果の方向性:どちらの群がより高いオッズを示したか
Fisherの正確 p 値とともにカイ二乗統計量を報告してはいけません。これは2つの異なる手続きを混同するよくあるエラーです。
Fisherの正確検定の報告:ステップバイステップ
研究シナリオ
臨床心理学者が、短時間のエクスポージャー療法セッションが特定の恐怖症患者の回避行動を減少させるかどうかを調査します。13人の患者がエクスポージャー療法を受け、12人が待機リスト対照群に入りました。4週間後、各患者は「回避が減少」または「回避が変化なし」のいずれかに分類されました。
観測度数表
| | 回避が減少 | 回避が変化なし | 合計 | |--|----------|-------------|------| | エクスポージャー療法 | 10 | 3 | 13 | | 待機リスト対照 | 4 | 8 | 12 | | 合計 | 14 | 11 | 25 |
期待度数。 左上セル:(13 × 14) / 25 = 7.28。右上セル:(13 × 11) / 25 = 5.72。左下:(12 × 14) / 25 = 6.72。右下:(12 × 11) / 25 = 5.28。すべての期待度数が5を超えているため、カイ二乗検定も技術的には許容されます。しかし、総サンプルが小さく(N = 25)、研究者はより保守的なFisherの正確検定を選択しました — これは臨床研究においてますます一般的な防御可能な選択です。
正しいAPA例(有意な結果)
A 2×2 contingency table was constructed to examine the association between treatment condition (exposure therapy vs. waiting-list control) and avoidance outcome (reduced vs. unchanged). Fisher's exact test revealed a significant association between treatment condition and avoidance reduction, p = .036, OR = 6.67, 95% CI [1.18, 37.63]. Patients in the exposure therapy group had 6.67 times the odds of reduced avoidance compared to the waiting-list control group (see Table 1).
この報告が適切な理由。 この段落は (a) 検定名を述べ、(b) 両側 p 値を指定し、(c) 95%信頼区間とともにオッズ比を報告し、(d) 平易な言葉で方向性のある解釈を提供し、(e) 読者を度数表に案内しています。
非有意な例
別の研究を考えましょう。健康教育者が、インフルエンザ予防接種に関する配布資料が小規模な職場(N = 22)での接種率を向上させるかどうかを検証します。11人の従業員が配布資料を受け取り、11人は受け取りませんでした。
| | 接種済み | 未接種 | 合計 | |--|---------|-------|------| | 配布資料群 | 5 | 6 | 11 | | 配布資料なし | 3 | 8 | 11 | | 合計 | 8 | 14 | 22 |
Fisher's exact test did not reveal a significant association between handout distribution and vaccination status, p = .395, OR = 2.22, 95% CI [0.38, 13.08]. Although the odds ratio suggested a trend toward higher vaccination in the handout group, the wide confidence interval spanning 1.00 indicates that the effect was not reliably different from zero. The small sample limits statistical power, and this result should be interpreted cautiously.
この報告が適切な理由。 非有意な結果であっても、APA第7版が要求する効果量と信頼区間を報告し、検出力の限界を明示的に記載しています。
Fisherの正確検定の効果量
APA第7版は、すべての推測統計検定に対して効果量を義務づけています。Fisherの正確検定における適切な指標は、表の次元と研究デザインに依存します。
オッズ比(OR) — 2×2表の主要指標
オッズ比は、2×2分割表の自然な効果量です。一方の群における結果のオッズが他方の群と比較してどの程度異なるかを、オッズの比として数量化します。
計算。 セル a, b, c, d(左から右、上から下に読む)を持つ2×2表の場合:
OR = (a × d) / (b × c)
エクスポージャー療法の例を使用すると:OR = (10 × 8) / (3 × 4) = 80 / 12 = 6.67
解釈の基準(Chen et al., 2010を改変):
| OR | 大きさ | |----|-------| | 1.0 | 効果なし | | 1.5 | 小 | | 2.5 | 中 | | 4.3 | 大 |
APA形式:
OR = 6.67, 95% CI [1.18, 37.63]
Cramérの V — より大きな表の場合
分割表が2×2を超える場合、オッズ比は単一の数値として定義されません。Cramérの V はファイ係数を一般化し、任意の表の次元に対応します。0(関連なし)から1(完全な関連)の範囲をとります。
基準(Cohen, 1988、自由度で調整):
| df* | 小 | 中 | 大 | |-----|---|---|---| | 1 | .10 | .30 | .50 | | 2 | .07 | .21 | .35 | | 3 | .06 | .17 | .29 |
*df = min(行数 - 1, 列数 - 1)
R × C表のAPA形式:
The Freeman-Halton extension of Fisher's exact test indicated a significant association between treatment group and response category, p = .021, V = .34 (medium effect).
相対リスク(RR)
相対リスクは、群間の結果の確率(オッズではなく)を比較します。オッズ比よりも直感的な解釈が可能です:RR = 2.0は、一方の群で結果が2倍起こりやすいことを意味します。
RRは、発生率が直接推定可能な前向きデザイン(臨床試験、コホート研究)で推奨されます。症例対照研究では不適切であり、代わりにオッズ比を使用すべきです。
重要な区別。 結果が稀な場合(両群で10%未満)、ORとRRはほぼ同一になります。結果が一般的な場合、ORはRRに対して効果を過大評価します。結果の有病率が10%を超える場合、両方の指標を報告することを検討してください。
解釈基準のまとめ
| 効果量 | 小 | 中 | 大 | 最適な用途 | |--------|---|---|---|----------| | OR | 1.5 | 2.5 | 4.3 | 2×2表(症例対照研究、RCT) | | RR | 1.3 | 1.8 | 3.0 | 発生率データを含む前向き研究 | | Cramérの V | .10 | .30 | .50 | 任意の表サイズ(df = 1) | | ファイ | .10 | .30 | .50 | 2×2表、メタ分析 |
より大きな表のFisherの正確検定(R×C)
Fisherの正確検定は2×2表に限定されません。Freeman-Halton拡張は、固定された周辺を条件として、観測された表(およびそれよりも極端なすべての表)の正確な確率を計算することで、任意のR × C分割表に手続きを一般化します。
Freeman-Halton拡張を使用する場面
以下の場合に使用してください:
- 表が2×2を超える場合(例:2×3、3×3、3×4)
- 期待セル度数がCochranのガイドラインに違反する場合
- 総サンプルがセル数に対して小さい場合
3×3表には9つのセルがあります。すべての期待度数を5以上に維持するには、通常 N > 45が必要です。より小さいサンプルにはFreeman-Halton拡張を使用すべきです。
計算上の考慮事項
表が大きくなるにつれて、正確な計算は指数関数的に困難になります。およそ6×6を超える表では、ほとんどのソフトウェアが モンテカルロ・シミュレーション を使用して正確な p 値を近似します。シミュレーションによる p を報告する場合、反復回数を記載してください:
The Freeman-Halton extension of Fisher's exact test, computed via Monte Carlo simulation (10,000 replications), indicated a significant association between diagnosis category and treatment response, p = .008, 99% CI [.005, .011], V = .29.
事後比較
R × C表の有意なオムニバスFisher正確検定は、関連が存在することを示しますが、それがどこにあるかは示しません。対ごとの2×2 Fisher正確検定でフォローアップし、多重比較の修正を適用してください:
- Bonferroni修正:各 p に比較回数を乗じる(またはアルファを除する)
- Benjamini-Hochberg FDR:偽発見率を制御;Bonferroniよりも強力
修正方法を明記して事後結果を報告してください:
Post-hoc pairwise Fisher's exact tests with Bonferroni correction revealed significant differences between Group A and Group C (p = .004) but not between Group A and Group B (p = .210) or Group B and Group C (p = .085).
よくある間違いと回避方法
間違い1:小さい期待値でカイ二乗検定を使用する
最も頻繁なエラーです。分割表に期待値が5未満のセルがある場合、カイ二乗の p 値は信頼できません。常に最初に期待度数を計算してください。いずれかのセルがCochranのルールに違反する場合、Fisherの正確検定に切り替えてください。
間違い2:効果量を報告しない
APA第7版では、p 値だけでは不十分です。OR = 1.05の有意な結果とOR = 8.50の有意な結果は全く異なる意味を持ちます。常に95%信頼区間とともにオッズ比(2×2の場合)またはCramérの V(より大きな表の場合)を報告してください。
間違い3:片側と両側の p 値を混同する
Fisherの正確検定は片側または両側で計算できます。両側版がデフォルトであり、データ収集前に方向性のある仮説を事前に指定しない限り報告すべきです。結果を見た後に両側から片側に切り替えることは p ハッキングの一形態です。
間違い4:Fisher検定にカイ二乗統計量を報告する
Fisherの正確検定はカイ二乗値を産出しません。「chi-square(1) = 4.52, Fisher's exact p = .038」と書くことは、2つの異なる手続きを混同しています。Fisherの正確 p のみを報告してください:
不正確: chi-square(1, N = 24) = 4.52, Fisher's exact p = .038
正確: Fisher's exact test, p = .038, OR = 3.75, 95% CI [1.05, 13.40]
間違い5:信頼区間を省略する
信頼区間がなければ、読者は効果量推定値の精度を判断できません。これは小標本研究では特に重要で、点推定値が非常に不安定になる可能性があります。OR = 6.00, 95% CI [0.80, 45.00]はOR = 6.00, 95% CI [2.10, 17.10]とは非常に異なる物語を伝えます。
間違い6:分割表を無視する
APAガイドラインは観測度数表の提示を推奨しています。表は要約統計量だけでは伝えられない重要な文脈を提供します。観測度数と、有益な場合には行または列のパーセンテージを含めてください。
間違い7:オッズ比の誤った解釈
オッズ比はオッズを比較するものであり、確率を比較するものではありません。OR = 3.0の場合に「患者が回復する確率が3倍高かった」と述べることは、技術的に不正確です。正しい表現は「回復のオッズが3倍高かった」です。オッズと確率は、結果が一般的な場合(有病率20%超)に大きく乖離します。
提出前のAPAチェックリスト
原稿を提出する前に、Fisherの正確検定の報告に以下が含まれていることを確認してください:
- カイ二乗検定よりもFisherの正確検定を選択した正当化
- 正確な p 値(「有意」や「ns」だけではなく)
- 両側(デフォルト)または正当化付きの片側の指定
- 95% CI付きのオッズ比(2×2の場合)またはCramérの V(より大きな表の場合)
- 観測度数を含む分割表
- 方向性と大きさの平易な解釈
- Fisherの正確 p とともにカイ二乗統計量がないこと
- ソフトウェアと計算方法の記載
計算の正確性
Fisherの正確検定を手計算で行うことは、最も小さな表を除いてすべてにおいて非現実的です。計算には、同一の周辺を持つすべての可能な2×2表を列挙し、観測データと同程度またはそれよりも極端な表の超幾何確率を合計する必要があります。
StatMateのFisherの正確検定計算ツールはこれを自動的に処理します。2×2表を入力すると、計算ツールが以下を返します:
- 正確な両側 p 値
- 95%信頼区間付きのオッズ比
- 原稿にそのままコピーできるAPA形式の結果段落
- 完全な分析のPDFエクスポート
計算ツールは、少なくとも小数点以下4桁の精度を確保するために、R 4.3の fisher.test() 関数と結果を相互検証しています。
よくある質問
カイ二乗検定の代わりにFisherの正確検定を使用すべきなのはいつですか?
分割表の期待セル度数のいずれかが5を下回る場合、総サンプルサイズが20未満の場合、またはいずれかのセルの期待値がゼロの場合にFisherの正確検定を使用してください。一部の臨床ジャーナルでは、最新のコンピュータにより正確な計算が簡単であるため、サンプルサイズに関係なくすべての2×2表にFisherの正確検定を推奨しています。
Fisherの正確検定は検定統計量を産出しますか?
いいえ。カイ二乗検定、分散分析、t検定とは異なり、Fisherの正確検定は検定統計量を生成しません。超幾何分布から直接正確な p 値を計算します。APA形式で報告する際は、「Fisher's exact test, p = .XXX」と記載してください — カイ二乗値を含めないでください。
Fisherの正確検定にはどの効果量を報告すべきですか?
2×2表の場合、95%信頼区間付きのオッズ比(OR)を報告してください。2×2より大きな表の場合、Cramérの V を報告してください。前向きデザイン(臨床試験、コホート研究)の場合、追加で相対リスク(RR)を報告することもできます。APA第7版は、すべての推測統計検定に対して効果量を要求しています。
Fisherの正確検定は2×2より大きな表にも使用できますか?
はい。Freeman-Halton拡張は、Fisherの正確検定を任意のR × C分割表に一般化します。ほとんどの最新ソフトウェアがこの拡張をサポートしています。非常に大きな表(およそ6×6以上)では、正確な列挙の代わりにモンテカルロ・シミュレーションが使用されます。報告の際は、表の次元、p 値、効果量(Cramérの V)、モンテカルロ・シミュレーションの使用有無を記載してください。
Fisherの正確検定の片側と両側の違いは何ですか?
両側検定は、方向に関係なく関連が存在するかどうかを評価します。片側検定は、関連が特定の事前指定された方向に向かっているかどうかを評価します。両側の p は常に大きくなります。デフォルトで両側版を使用すべきです。片側は、データ収集前に方向性のある仮説を述べ、先行研究に基づいてそれを正当化できる場合にのみ使用してください。結果を見た後に片側に切り替えると、第I種の誤り率が膨張します。