Fisher正確確率検定を使用する場面
Fisher正確確率検定は、分割表を扱うデータにおいて、カイ二乗近似が信頼できないほどサンプルが小さい場合に最適な分析方法です。具体的には、以下のいずれかの条件に当てはまる場合、カイ二乗検定の代わりにFisher正確確率検定を選択すべきです。
- 期待度数が5未満のセルが全セルの20%以上を占める
- 総サンプルサイズが20未満
- 期待度数がゼロのセルがある
- 2x2表で少なくとも1つの期待度数が小さい
カイ二乗検定はカイ二乗分布への大標本近似に依存しています。期待度数が低い場合、この近似が崩れ、算出されるp値が不正確になります。Fisher正確確率検定は、漸近的近似に依存せず、帰無仮説の下でデータを観測する正確な確率を計算するため、この問題を完全に回避します。
よくある誤解として、Fisher正確確率検定は極めて小さなデータセットにしか使えないと思われがちです。実際には、どのようなサンプルサイズでも有効な結果を生み出します。大標本でカイ二乗検定がデフォルトとされる理由は計算上の便宜であり、統計的な優位性ではありません。現代の多くの統計ソフトウェアは、大きな表に対してもFisher正確確率検定を効率的に計算できます。
APAの報告テンプレート
カイ二乗検定と異なり、Fisher正確確率検定は検定統計量を生成しません。報告すべきカイ二乗値はありません。報告の中心は正確なp値であり、オッズ比などの効果量指標を併せて記載します。
2x2表のAPAテンプレート:
Fisher正確確率検定の結果、[変数1]と[変数2]の間に有意な関連が認められた(p = .XXX, OR = X.XX, 95% CI [X.XX, X.XX])。
非有意な場合のAPAテンプレート:
Fisher正確確率検定の結果、[変数1]と[変数2]の間に有意な関連は認められなかった(p = .XXX, OR = X.XX, 95% CI [X.XX, X.XX])。
カイ二乗検定の報告との主な違い:
| 要素 | カイ二乗検定 | Fisher正確確率検定 | |------|------------|-------------------| | 検定統計量 | chi-square(df, N = n) = X.XX | なし | | p値 | p = .XXX | p = .XXX | | 効果量(2x2) | ファイ係数 | オッズ比(OR) | | 効果量(大きい表) | CramerのV | CramerのV | | 信頼区間 | 任意 | ORには推奨 |
2x2表におけるオッズ比の理解
オッズ比(OR)は、2x2表におけるFisher正確確率検定の自然な効果量指標です。一方の群と他方の群を比較して、ある結果がどの程度起こりやすいかを記述します。
オッズ比の解釈:
| OR値 | 解釈 | |------|------| | OR = 1.00 | 関連なし;両群のオッズは等しい | | OR > 1.00 | 第1群でその結果がより起こりやすい | | OR < 1.00 | 第2群でその結果がより起こりやすい | | OR = 2.50 | 第1群のオッズは第2群の2.5倍 | | OR = 0.40 | 第1群のオッズは第2群より60%低い |
スポーツ傷害からの回復に新しい治療法が効果的かどうかを調べる研究を考えてみましょう。治療群10名と対照群10名のうち、治療群では8名が完全回復し、対照群では3名が完全回復した場合、治療群の回復オッズは8/2 = 4.0、対照群のオッズは3/7 = 0.43です。オッズ比は4.0 / 0.43 = 9.33となり、治療群は完全回復のオッズが9倍以上あったことを意味します。
相対リスクと異なり、オッズ比は対称的です。比較を逆にすると単にORが逆数になります(1/9.33 = 0.11)。この性質により、どちらの群も自然な「参照」とならない分割表分析に適しています。
ステップバイステップの報告例
シナリオ: 研究者が短時間のマインドフルネス介入が小規模なクラスにおけるテスト不安を軽減するかどうかを調査した。12名の学生が介入を受け、8名が対照群となった。1週間後、各学生は「不安あり」または「不安なし」に分類された。
観測度数:
| | 不安あり | 不安なし | 合計 | |--|---------|---------|------| | 介入群 | 3 | 9 | 12 | | 対照群 | 6 | 2 | 8 | | 合計 | 9 | 11 | 20 |
総サンプルが20であり、いくつかの期待度数が5未満であるため、カイ二乗検定は不適切です。Fisher正確確率検定が正しい選択です。
結果: p = .035(両側)、OR = 0.11、95% CI [0.01, 0.85]。
完全なAPAパラグラフ:
介入条件(マインドフルネス vs. 対照)と不安状態(不安あり vs. 不安なし)の関係を検討するため、2x2分割表を作成した。2つのセルで期待度数が5未満であったため、カイ二乗検定の代わりにFisher正確確率検定を使用した。分析の結果、介入条件と不安状態の間に有意な関連が認められた(p = .035, OR = 0.11, 95% CI [0.01, 0.85])。マインドフルネス群の学生は、対照群と比較して不安を報告するオッズが大幅に低かった。
この報告では、Fisher正確確率検定を選択した正当化、両側p値の報告、信頼区間付きのオッズ比、効果の方向に関する平易な解釈が含まれています。
信頼区間の報告
オッズ比の信頼区間はp値だけよりも多くの情報を提供します。p値は関連が統計的に有意かどうかを示しますが、信頼区間は効果がどれだけ正確に推定されたか、また妥当な効果量の範囲を示します。
ORの信頼区間の解釈ルール:
- 95% CIに1.00が含まれる場合、.05水準で関連は有意でない
- 95% CIが1.00を含まない場合、.05水準で関連は有意である
- 狭いCIは精度の高い推定を示す
- 広いCIはかなりの不確実性を示す(小標本でよく見られる)
たとえば、OR = 3.20、95% CI [0.75, 13.60]は区間が1.00をまたいでいるため有意ではありません。一方、OR = 3.20、95% CI [1.10, 9.30]は区間全体が1.00を上回っているため有意です。
Fisher正確確率検定では、一般的に小標本で使用されるため、信頼区間が広くなることが多いです。これは検定自体の弱点ではなく、小標本が提供する限られた精度を正直に反映しています。CIを報告することで、読者が効果が意味のあるものかどうかを自ら判断できるようになります。
CIを強調したAPAの記述:
Fisher正確確率検定は有意な関連を示した(p = .041, OR = 4.20, 95% CI [1.05, 16.80])。オッズ比は実質的な効果を示唆しているが、広い信頼区間は限られたサンプルサイズを反映しており、下限は1.00に近い。
片側検定 vs 両側検定のFisher正確確率検定
Fisher正確確率検定は片側または両側で実施できます。選択は、仮説が方向を指定しているかどうかに依存します。
両側検定(デフォルト): 方向に関係なく、何らかの関連が存在するかどうかを検定する場合に使用します。これがほとんどの研究における標準であり、方向性仮説の強い事前の根拠がない限り、デフォルトとすべきです。
片側検定: データ収集前に関連の特定の方向を仮説が予測している場合に使用します。たとえば、「治療群は対照群よりも回復率が高い」という場合です。
区別の報告方法:
Fisher正確確率検定(両側)の結果、治療と回復の間に有意な関連が認められた(p = .035)。
仮説が治療群でのより高い回復を予測していたため、片側Fisher正確確率検定を使用した。結果は有意であった(p = .018)。
片側検定を使用する場合は、方法セクションでその選択を正当化する必要があります。両側の結果が有意でなかったため(p = .07)片側検定に切り替えてp = .035を得ようとすることは、pハッキングの一形態であり許容されません。
大きな表(R x C)のFisher正確確率検定
Fisher正確確率検定は2x2表に限定されません。任意のR x C(行×列)分割表に拡張できます。大きな表では計算量が増えますが、現代の統計ソフトウェアはモンテカルロシミュレーションやネットワークアルゴリズムを使用して効率的に処理します。
2x2よりも大きな表では、オッズ比はもはや関連を要約する単一の数値ではありません。代わりに、任意の次元の表に一般化するCramerのVが適切な効果量です。
3x3表のAPA例:
セルの44%で期待度数が5未満であったため、Fisher正確確率検定を実施した。検定の結果、教育水準と投票選好の間に有意な関連が認められた(p = .012, V = .34)。
大きな表に拡張する際の注意点:
- Fisher検定のFreeman-Halton拡張による正確なp値を報告する
- 効果量としてCramerのVを使用し、自由度に依存する解釈ベンチマークを適用する
- ソフトウェアがシミュレーションされたp値(モンテカルロ)を報告する場合、使用した反復回数を注記する
Fisher正確確率検定 vs カイ二乗検定:選択ガイド
Fisher正確確率検定とカイ二乗検定の選択は、カイ二乗近似がデータに対して信頼できるかどうかに帰着します。
| 基準 | カイ二乗検定 | Fisher正確確率検定 | |------|------------|-------------------| | 期待度数 | すべてのセルが5以上 | 5未満のセルがある | | サンプルサイズ | 一般的にN > 20 | 任意のサンプルサイズ | | 表のサイズ | 任意の次元 | 任意の次元(2x2が最も一般的) | | 報告する検定統計量 | chi-square(df) = X.XX | なし(正確なp値のみ) | | 効果量(2x2) | ファイ係数 | オッズ比 | | 効果量(大きい表) | CramerのV | CramerのV | | 計算 | 高速 | 大きな表では低速 | | 精度 | 近似的 | 正確 |
経験則: 迷った場合は両方を実施してください。結果が一致すれば、カイ二乗検定を報告します(読者により馴染みがあるため)。一致しない場合は、近似に依存しないFisher正確確率検定を信頼してください。
一部の方法論者は、サンプルサイズに関係なく2x2表ではFisher正確確率検定を常に優先すべきだと主張しています。現代のコンピューティングでは正確な計算が簡単であるためです。これは、特にサンプルサイズがしばしば控えめな臨床研究や実験研究において、妥当な立場です。
よくある間違い
1. 期待度数が低すぎるのにカイ二乗検定を使用する。 これは最も頻繁に見られる誤りです。分割表に期待度数が5未満のセルがある場合、カイ二乗のp値は不正確になる可能性があります。使用する検定を決定する前に、必ず期待度数を確認してください。
2. Fisher検定にカイ二乗統計量を報告する。 Fisher正確確率検定はカイ二乗値を生成しません。「chi-square(1) = 4.52, Fisherの正確p = .038」と記述することは、2つの異なる検定を混同しています。Fisher正確確率検定のp値を単独で報告してください。
3. オッズ比を省略する。 p値だけでは関連の強さや方向を伝えません。2x2のFisher正確確率検定の結果を解釈するためにオッズ比は不可欠です。
4. 信頼区間を省略する。 信頼区間がなければ、読者はオッズ比の推定の精度を判断できません。点推定が不安定になりやすい小標本研究では特に重要です。
5. 結果を見てから片側検定に切り替える。 事前登録された仮説が非方向性であった場合は、両側p値を報告しなければなりません。事後的に片側検定に切り替えることは、第1種の過誤率を膨張させます。
6. 観測度数の表を無視する。 APA形式では、観測度数とパーセンテージを含む分割表の提示が推奨されています。この表は、要約統計量だけでは伝えられない文脈を提供します。
Fisher正確確率検定のAPAチェックリスト
論文提出前に、Fisher正確確率検定の報告に以下が含まれていることを確認してください。
- カイ二乗検定の代わりにFisher正確確率検定を選択した正当化(例:期待度数が5未満のセル)
- 正確なp値(単に「有意」「非有意」ではなく)
- 片側か両側かの明記
- 2x2表にはオッズ比、大きな表にはCramerのV
- オッズ比の95%信頼区間
- 観測度数を示す分割表(必要に応じてパーセンテージも)
- 効果の方向と大きさに関する平易な解釈
- Fisher正確確率検定のp値と一緒にカイ二乗統計量を報告しない
StatMateの無料Fisher正確確率検定計算ツールをお試しください
Fisher正確確率検定の結果を手作業でフォーマットするのは煩雑でミスが生じやすいです。StatMateのFisher正確確率検定計算ツールは、論文用のAPA出力を自動的に生成します。2x2表を入力するだけで、正確なp値、オッズ比、信頼区間、論文に直接コピーできる完全なAPA形式の結果パラグラフが返されます。
カイ二乗検定が必要ですか?カイ二乗計算ツールは、CramerのV効果量付きで独立性検定と適合度検定の両方に対応しています。両方の計算ツールとも、Proユーザー向けのワンクリックWord エクスポートと、全ユーザー向けの無料PDFエクスポートを搭載しています。