McNemar検定を使用する場面
McNemar検定は、同一の参加者からの2つの関連する測定間で、二値の結果の比率が変化するかどうかを評価します。連続データの対応のあるt検定、順序データのWilcoxon符号順位検定と同様に、カテゴリカルデータに対する対応のある標本の類似物です。
McNemar検定は、以下の3つの条件がすべて満たされる場合に使用してください:
- 対応デザイン。 同一の参加者が2つの時点(介入前/後)または2つの条件(治療A/治療B)で測定されている。
- 二値の結果。 従属変数がちょうど2つのカテゴリ(はい/いいえ、合格/不合格、あり/なし、陽性/陰性)を持つ。
- 変化に関する研究課題。 一方のカテゴリにおける比率が2つの測定間で異なるかどうかを知りたい。
一般的な応用例
McNemar検定は臨床試験、教育研究、プログラム評価で頻繁に登場します:
- 治療前後研究。 介入後に症状Xを持つ患者の比率は減少したか?
- 診断検査の比較。 2つの診断法を同一の患者に適用した場合、陽性率に差があるか?
- 態度変容研究。 情報への曝露後に、ある立場を支持する回答者の比率は変化したか?
- マッチドケースコントロール研究。 マッチされたペア間で、曝露状況は特定の方向に不一致か?
McNemar検定 vs カイ二乗検定 vs Cochranの Q 検定
| デザイン | 群の数 | データ型 | 正しい検定 | |---------|--------|---------|----------| | 2つの独立群、二値の結果 | 2つの独立 | 名義 | カイ二乗 / Fisherの正確検定 | | 同一参加者、2時点、二値 | 2つの関連 | 名義 | McNemar検定 | | 同一参加者、3時点以上、二値 | 3つ以上の関連 | 名義 | Cochranの Q 検定 |
カイ二乗独立性の検定は独立した群用です。McNemar検定は対応のある二値データに特化しています。対応のあるデータにカイ二乗検定を使用すると独立性の仮定に違反し、不正確なp値を産出します。
McNemar検定計算ツールで試してみてください。
2×2分割表の理解
McNemar検定は、各参加者の2つの時点での反応を相互に集計する2×2表に基づいています:
| | 後:陽性 | 後:陰性 | |--|---------|---------| | 前:陽性 | a(一致) | b(不一致) | | 前:陰性 | c(不一致) | d(一致) |
- セルa: 両時点で陽性(変化なし)
- セルd: 両時点で陰性(変化なし)
- セルb: 陽性から陰性に変化(不一致)
- セルc: 陰性から陽性に変化(不一致)
McNemar検定は不一致ペア(セルbとc)のみを検査します。介入に効果がなければ、陽性から陰性に変化した人数(b)と陰性から陽性に変化した人数(c)はほぼ等しくなるはずです。
McNemar検定統計量
カイ二乗近似(大標本):
χ² = (|b - c| - 1)² / (b + c)
-1は連続性修正で、小標本の近似を改善します。一部のソフトウェアはこれを省略します:
χ² = (b - c)² / (b + c)
正確検定(小標本):
不一致ペアの総数(b + c)が小さい場合(通常25未満)、正確な二項検定が推奨されます。これは、bがp = 0.5、n = b + cの二項分布に従うかどうかを検定します。
APA報告テンプレート
カイ二乗近似の場合(大標本)
A McNemar test indicated a statistically significant change in [結果] from [時点1] to [時点2], χ²(1, N = XX) = X.XX, p = .XXX, OR = X.XX.
正確検定の場合(小標本)
A McNemar exact test indicated a statistically significant change in [結果] from [時点1] to [時点2], p = .XXX, OR = X.XX, 95% CI [X.XX, X.XX].
注:正確検定はカイ二乗統計量を産出しません。p値と効果量のみを報告してください。
必須要素
すべてのMcNemar検定の報告には以下を含める必要があります:
- 完全な検定名:初出時に(McNemar検定またはMcNemar正確検定)
- サンプルサイズ(N)
- 各時点の比率
- 2×2表、または少なくとも不一致セルの度数
- 検定統計量(近似の場合はdf = 1の χ²、正確検定の場合はなし)
- 正確なp値(または p < .001)
- 効果量: 95%信頼区間付きのオッズ比(OR)
- 変化の方向性の明示的な記述
ステップバイステップの例:治療前後(二値の結果)
シナリオ
臨床研究者が禁煙プログラムが喫煙状況を変化させるかどうかを評価します。60名の参加者がベースライン(プログラム前)と12週間のフォローアップ(プログラム後)で評価されます。喫煙状況は二値:喫煙者または非喫煙者です。
ステップ1:2×2表の提示
| | フォローアップ:喫煙者 | フォローアップ:非喫煙者 | 合計 | |--|---------------------|----------------------|------| | ベースライン:喫煙者 | 18 (a) | 22 (b) | 40 | | ベースライン:非喫煙者 | 5 (c) | 15 (d) | 20 | | 合計 | 23 | 37 | 60 |
ベースラインでは60名の参加者のうち40名(66.7%)が現在の喫煙者であった。12週間のフォローアップでは60名のうち23名(38.3%)が現在の喫煙者であった。
ステップ2:不一致ペアの特定
McNemar検定の重要な情報は対角外セルにあります:
- 22名 が喫煙者から非喫煙者に変化(b = 22)
- 5名 が非喫煙者から喫煙者に変化(c = 5)
- 不一致ペアの合計:b + c = 27
ステップ3:検定結果の報告
McNemar検定は、ベースラインから12週間のフォローアップまでの喫煙状況の変化が統計的に有意であることを示した, χ²(1, N = 60) = 9.48, p = .002, OR = 4.40, 95% CI [1.66, 14.60]。喫煙者の比率は、ベースラインの66.7%からフォローアップの38.3%に減少した。状況が変化した27名の参加者のうち、22名が禁煙し5名が喫煙を開始し、禁煙に有利なオッズ比4.40を示した。
ステップ4:オッズ比の算出
McNemar検定のオッズ比は以下の通りです:
OR = b / c = 22 / 5 = 4.40
これは、参加者が非喫煙者から喫煙者に変化するよりも喫煙者から非喫煙者に変化する確率が4.40倍高いことを意味し、禁煙プログラムのかなりの効果を示しています。
完全なAPA段落
McNemar検定を用いて、12週間の禁煙プログラムが喫煙状況を変化させたかどうかを評価した(N = 60)。ベースラインでは40名(66.7%)が現在の喫煙者であった。フォローアップでは23名(38.3%)が現在の喫煙者であった。状況が変化した参加者のうち、22名が喫煙者から非喫煙者に移行し、5名が非喫煙者から喫煙者に移行した。McNemar検定は喫煙状況の変化が統計的に有意であることを示した, χ²(1, N = 60) = 9.48, p = .002, OR = 4.40, 95% CI [1.66, 14.60]。参加者は喫煙を開始するよりも禁煙する確率が4.40倍高く、禁煙プログラムが喫煙率の意味のある減少を産出したことを示している。
効果量:オッズ比
McNemar検定の標準的な効果量は、不一致セルから計算されるオッズ比(OR)です:
OR = b / c
オッズ比の解釈
| OR値 | 解釈 | |------|------| | 1.00 | 変化率に差なし;両方向に等しい変化 | | > 1.00 | カテゴリ1からカテゴリ2への変化がより多い(セルb > セルc) | | < 1.00 | カテゴリ2からカテゴリ1への変化がより多い(セルc > セルb) |
ORが1.00から離れるほど、効果は強くなります。Chen et al. (2010) は以下の基準を提案しました:
| OR | 解釈 | |----|------| | 1.5 | 小さい効果 | | 2.5 | 中程度の効果 | | 4.3 | 大きい効果 |
喫煙の例のOR = 4.40は大きい効果を表しています。
オッズ比の信頼区間
ORの95% CIを常に報告してください:
- CIが1.00を除外する場合、結果は統計的に有意です
- CIが1.00を含む場合、結果は有意ではありません
- 狭いCI:精密な推定
- 広いCI:不精密な推定;より多くのデータが必要
正確検定とカイ二乗近似:使い分け
正確二項検定(小標本)
不一致ペアの総数(b + c)が小さい場合(通常25未満)、McNemar正確検定を使用してください。正確検定は二項分布のもとで直接確率を計算します。
A McNemar exact test indicated a statistically significant change in diagnostic outcome, p = .039, OR = 5.00, 95% CI [1.05, 56.15]. Of the 11 discordant pairs, 10 changed from negative to positive and 1 changed from positive to negative.
カイ二乗近似(大標本)
b + c > 25の場合にカイ二乗近似を使用してください。
判断ガイド
| 不一致ペア (b + c) | 方法 | 理由 | |-------------------|------|------| | < 25 | 正確二項 | カイ二乗近似が信頼できない | | 25-40 | 連続性修正付きカイ二乗 | 修正が近似を改善 | | > 40 | カイ二乗(修正あり/なし) | 近似が正確 |
使用した方法を常に記載してください。
非有意なMcNemar結果の報告
McNemar検定を用いて、メディアリテラシーワークショップが参加者の誤情報識別能力を変化させたかどうかを検討した(N = 45)。事前テストでは45名のうち28名(62.2%)が誤情報項目を正しく識別した。事後テストでは45名のうち31名(68.9%)が正しく識別した。McNemar検定は統計的に有意な変化を示さなかった, χ²(1, N = 45) = 1.29, p = .257, OR = 1.67, 95% CI [0.62, 5.15]。誤情報を識別する比率は6.7ポイント増加したが、この変化は統計的に有意ではなかった。オッズ比の信頼区間は1.00を含んでおり、意味のある変化の証拠が不十分であることを示している。
診断検査比較のためのMcNemar検定
一般的な応用として、同一の患者に適用された2つの診断手続きの比較があります:
シナリオ
放射線科医が、MRIとCTスキャンが100名の患者における特定の病変の検出率に差を産出するかどうかを評価します。両方のスキャンがすべての患者に実施されます。
| | CT:陽性 | CT:陰性 | 合計 | |--|---------|---------|------| | MRI:陽性 | 35 (a) | 18 (b) | 53 | | MRI:陰性 | 7 (c) | 40 (d) | 47 | | 合計 | 42 | 58 | 100 |
100名の患者全員にMRIとCTスキャンの両方を実施した。MRIは53名(53.0%)の患者で病変を検出し、CTは42名(42.0%)で検出した。McNemar検定は2つの方法間の検出率に統計的に有意な差を示した, χ²(1, N = 100) = 4.00, p = .046, OR = 2.57, 95% CI [1.07, 7.27]。MRIはCTが見逃した病変を検出する確率が有意に高かった(18症例対7症例)。
仮定と限界
McNemar検定は以下を要求します:
- 対応のある観測。 各参加者が両方の時点で測定されていること。
- 二値の結果。 従属変数がちょうど2つのカテゴリを持つこと。
- ペアの独立性。 異なる参加者の対応のある観測が互いに独立であること。
記載すべき限界:
- 一致ペアの効果量なし。 検定は不一致ペア(bとc)のみを使用。一致ペア(aとd)は変化に関する情報を提供しない。
- 不一致ペアが少ない場合の低い検出力。 ほとんどの参加者が状況を変化させない場合、サンプルサイズに関係なく検出力が限られる。検出力はNではなくb + cに依存する。
- 二値の結果のみ。 順序の対応データにはWilcoxon符号順位検定を使用。3カテゴリ以上の名義データにはStuart-Maxwell検定またはBhapkar検定を使用。
McNemar検定報告のよくある間違い
1. McNemarの代わりにカイ二乗独立性の検定を使用する
最も重大なエラーです。カイ二乗独立性の検定は独立した観測を仮定します。対応のあるデータはこの仮定に違反し、不正確なp値を産出します。
2. 分割表を省略する
2×2表(または少なくとも不一致セルの度数)がなければ、読者は変化のパターンを評価できません。
3. 周辺比率のみを報告する
「事前テストでは65%が陽性、事後テストでは45%が陽性であった」と交差集計なしに述べることは、パターンを曖昧にします。
4. 効果量を忘れる
APA第7版は、すべての推測統計検定に対して効果量を要求しています。McNemar検定には95%信頼区間付きのオッズ比を報告してください。
5. 正確検定と近似を区別しない
特に小標本で選択が重要となるため、正確二項検定とカイ二乗近似のどちらを使用したかを常に記載してください。
6. 不一致ペアが少ない場合の低い検出力を無視する
b + cが非常に小さい場合(例:10未満)、検定の検出力は最小限です。この場合の非有意な結果は慎重に解釈すべきであり、低い検出力を認める必要があります。
7. 非二値の結果にMcNemarを適用する
McNemar検定は2×2表に厳密に限定されます。2時点の順序の結果にはWilcoxon符号順位検定を使用してください。3時点以上の二値の結果にはCochranの Q 検定を使用してください。
McNemar検定APAチェックリスト
提出前に、結果に以下が含まれていることを確認してください:
- 初出時の完全な検定名(McNemar検定またはMcNemar正確検定)
- 総サンプルサイズ(N)
- ラベル付きセルを含む2×2分割表
- 各時点の比率
- 不一致セルの度数(bとc)
- 検定統計量(近似の場合はdf = 1の χ²、正確検定の場合はなし)
- 正確検定と漸近法のどちらを使用したか
- 正確なp値(または p < .001)
- 効果量:95%信頼区間付きのオッズ比(OR)
- 変化の方向性の明示的な記述
- ORの大きさの解釈
よくある質問
McNemar検定は何に使用されますか?
McNemar検定は、同一の参加者からの2つの関連する測定間で、二値の結果の比率が変化するかどうかを評価します。治療前後の研究、診断検査の比較、マッチドケースコントロール研究で使用されます。
McNemar検定とカイ二乗検定の違いは何ですか?
カイ二乗独立性の検定は2つの独立した群用です。McNemar検定は同一の参加者からの対応のある(関連した)観測用です。対応のあるデータにカイ二乗検定を使用すると独立性の仮定に違反し、不正確な結果を産出します。
McNemar正確検定とカイ二乗近似のどちらを使用すべきですか?
不一致ペアの総数(b + c)が25未満の場合、正確二項検定を使用してください。b + cが25を超える場合、カイ二乗近似を使用してください。少数の不一致ペアでは近似が信頼できません。
McNemar検定のオッズ比をどのように計算し解釈しますか?
オッズ比はOR = b / cで、bとcは不一致セルです。OR = 1.00は両方向に等しい変化を意味します。OR > 1は第1カテゴリから第2カテゴリへの変化がより多いことを意味します。基準:OR 1.5は小、2.5は中、4.3は大です。
3つ以上の時点でMcNemar検定を使用できますか?
直接的には使用できません。3つ以上の時点で測定された二値の結果には、Cochranの Q 検定をオムニバス検定として使用し、その後Bonferroni修正による対ごとのMcNemar検定を事後比較として実施してください。
McNemar検定の最小サンプルサイズは?
McNemar検定には十分な不一致ペア(b + c)が必要であり、単に大きな総サンプルだけでは不十分です。b + c < 6では、正確検定はアルファ = .05で有意になることができません。中程度の効果(OR = 2.5)を検出するための十分な検出力(.80)には、少なくとも25〜30の不一致ペアを目標にしてください。
StatMateの無料McNemar検定計算ツール
McNemar検定を手動で計算するには、分割表の作成、不一致ペアの特定、正確法と漸近法の選択、信頼区間付きのオッズ比の算出が必要です。StatMateのMcNemar検定計算ツールはプロセス全体を自動化します:
- 即座のAPA出力。 2×2データを入力すると、APA第7版にフォーマットされた出版可能な結果段落が得られます。
- 自動方法選択。 StatMateは不一致ペアの数に基づいて正確検定とカイ二乗近似を選択します。
- CI付き効果量。 オッズ比と95%信頼区間が自動的に計算されます。
- 視覚出力。 条件間の変化パターンを示すフロー図。
- ワンクリックエクスポート。 クリップボードにコピー、PDF、APA形式のWord文書(Pro)。
手動のセル計数も二項表の参照も不要です。