はじめに
ロジスティック回帰分析は、二項アウトカム(二値結果)をモデル化するために最も広く使われている統計手法の一つです。患者が疾病を発症するか、顧客が離脱するか、学生が試験に合格するかなど、予測変数と「はい/いいえ」の結果を関連付ける原則的な枠組みを提供します。
通常の最小二乗法(OLS)回帰分析が連続値を予測するのに対し、ロジスティック回帰分析はイベント発生の対数オッズをモデル化します。出力は0から1の間の確率であるため、分類問題に最適です。本ガイドでは、研究課題の設定から仮定の検証、モデルの適合、具体的な数値を用いた結果の解釈まで、ロジスティック回帰分析のすべてのステップを解説します。
この記事を読み終えるころには、ロジスティック回帰分析のセットアップ方法、各係数をオッズ比として理解する方法、モデルの適合度を評価する方法、そして論文掲載に適した形式で結果を報告する方法を習得できるでしょう。ご自身のデータでロジスティック回帰分析をすぐに実行したい場合は、ロジスティック回帰計算機をお試しください。
ロジスティック回帰分析を使用する場面
ロジスティック回帰分析は以下の場合に適しています:
- 従属変数が二値型である(例:0/1、はい/いいえ、合格/不合格)。
- 一つ以上の予測変数があり、連続型、カテゴリカル型、またはその混合である。
- アウトカムの確率を推定したい、または各予測変数の効果量を理解したい。
一般的な研究シナリオには、医学診断(疾病あり vs. なし)、マーケティング(購入 vs. 非購入)、教育(卒業 vs. 中退)などがあります。
主要な仮定
モデルを適合させる前に、以下の仮定を検証してください:
1. 二項従属変数
アウトカムは正確に2つのカテゴリーを持つ必要があります。3つ以上の順序なしカテゴリーがある場合は、多項ロジスティック回帰分析を検討してください。
2. 観測値の独立性
各観測値は独立でなければなりません。同一被験者に対する反復測定はこの仮定に違反するため、混合効果ロジスティック回帰分析が必要です。
3. ロジットの線形性
各連続予測変数は、アウトカムの対数オッズと線形関係を持つ必要があります。これは、予測変数を経験的ロジットに対してプロットするか、予測変数とその自然対数の交互作用項を追加することで確認できます。
4. 重度の多重共線性がないこと
予測変数間に高い相関があってはなりません。各予測変数の分散膨張係数(VIF)を計算し、10を超える値は問題を示します。
5. 十分なサンプルサイズ
一般的な目安として、予測変数あたり少なくとも10イベント(EPV)が必要です。5つの予測変数で少ない方のアウトカムカテゴリーに50イベントがあれば最低限の条件を満たします。より保守的なガイドラインでは20 EPVを推奨しています。
6. 極端な外れ値や影響力の強い観測値がないこと
クックの距離とレバレッジ値を確認してください。クックのDが1を超える観測値は精査が必要です。
データセットの例
30日以内に患者が再入院するかどうか(1 = 再入院、0 = 再入院なし)を、年齢、入院日数(LOS)、併存疾患数に基づいて予測したいとします。
| 患者 | 年齢 | 入院日数 | 併存疾患数 | 再入院 | |------|------|----------|------------|--------| | 1 | 72 | 5 | 3 | 1 | | 2 | 45 | 2 | 0 | 0 | | 3 | 68 | 7 | 4 | 1 | | 4 | 55 | 3 | 1 | 0 | | 5 | 80 | 9 | 5 | 1 | | 6 | 42 | 1 | 0 | 0 | | 7 | 63 | 4 | 2 | 0 | | 8 | 77 | 6 | 3 | 1 | | 9 | 50 | 2 | 1 | 0 | | 10 | 74 | 8 | 4 | 1 | | 11 | 61 | 3 | 2 | 0 | | 12 | 83 | 10 | 6 | 1 | | 13 | 47 | 2 | 0 | 0 | | 14 | 70 | 5 | 3 | 1 | | 15 | 59 | 4 | 1 | 0 | | 16 | 66 | 6 | 2 | 1 | | 17 | 78 | 7 | 4 | 1 | | 18 | 41 | 1 | 0 | 0 | | 19 | 73 | 8 | 5 | 1 | | 20 | 52 | 3 | 1 | 0 |
この20名の患者サンプルでは、10名が再入院し、10名が再入院しませんでした。
ステップ1:仮定の検証
ロジットの線形性
連続予測変数を四分位数に分割し、各四分位数におけるイベントの割合を計算します。これらの経験的ロジットを四分位数の中点に対してプロットします。おおよそ線形なパターンが見られれば、仮定は支持されます。
| 年齢四分位数 | 中点 | 再入院率 | 経験的ロジット | |-------------|-------|----------|-----------------| | 41 - 50 | 45.5 | 0.00 | -3.00(境界値) | | 51 - 61 | 56.0 | 0.00 | -3.00(境界値) | | 62 - 73 | 67.5 | 0.60 | 0.41 | | 74 - 83 | 78.5 | 1.00 | 3.00(境界値) |
パターンは単調増加であり、線形性を支持しています。
多重共線性
| 予測変数 | VIF | |-----------|------| | 年齢 | 1.85 | | 入院日数 | 2.41 | | 併存疾患数 | 2.67 |
すべてのVIF値が10を大きく下回っているため、多重共線性は問題ありません。
ステップ2:モデルの適合
ロジスティック回帰方程式は次の通りです:
ln(p / (1-p)) = β₀ + β₁ · Age + β₂ · LOS + β₃ · Comorbidities
最尤推定の結果、以下の係数が得られたとします:
| パラメータ | 係数 (B) | 標準誤差 | ワルドカイ二乗 | p値 | オッズ比 (e^B) | ORの95%信頼区間 | |-----------|---------|---------|--------------|--------|---------------|----------------| | 切片 | -8.524 | 3.210 | 7.05 | 0.008 | -- | -- | | 年齢 | 0.065 | 0.031 | 4.40 | 0.036 | 1.067 | 1.004 - 1.134 | | 入院日数 | 0.312 | 0.148 | 4.45 | 0.035 | 1.366 | 1.022 - 1.826 | | 併存疾患数 | 0.487 | 0.223 | 4.77 | 0.029 | 1.627 | 1.051 - 2.519 |
ステップ3:係数の解釈
オッズ比
ロジスティック回帰分析の結果を解釈する最も直感的な方法はオッズ比(OR)を使うことです:
-
年齢(OR = 1.067): 年齢が1歳増加するごとに、入院日数と併存疾患数を一定に保った場合、30日以内の再入院オッズが6.7%増加します。10歳の年齢差では、オッズは1.067^10 = 1.91倍となり、ほぼ2倍になります。
-
入院日数(OR = 1.366): 入院日数が1日増えるごとに、再入院のオッズが36.6%増加します。7日間入院した患者は、2日間入院した患者と比較して、他の条件が同じ場合、1.366^5 = 4.76倍の再入院オッズを持ちます。
-
併存疾患数(OR = 1.627): 併存疾患が1つ増えるごとに、再入院のオッズが62.7%増加します。併存疾患数が4の患者は、0の患者と比較して、1.627^4 = 7.01倍のオッズを持ちます。
予測確率
75歳、入院日数6日、併存疾患数3の患者の場合:
logit(p) = -8.524 + 0.065(75) + 0.312(6) + 0.487(3) = -8.524 + 4.875 + 1.872 + 1.461 = -0.316
p = 1 / (1 + e⁰·³¹⁶) = 1 / (1 + 1.372) = 0.422
この患者の30日以内の再入院予測確率は約**42.2%**です。
ステップ4:モデルの適合度を評価
モデル全体の有意性
| 検定 | カイ二乗 | 自由度 | p値 | |-----------------------------|---------|--------|---------| | オムニバス / モデルカイ二乗 | 22.14 | 3 | < 0.001 | | Hosmer-Lemeshow検定 | 5.32 | 8 | 0.723 |
- オムニバス検定が有意(p < 0.001)であり、予測変数を含むモデルがヌル(切片のみ)モデルよりも有意に良い適合を示しています。
- Hosmer-Lemeshow検定が非有意(p = 0.723)であり、良好なキャリブレーション(予測確率が観測率と一致している)を示しています。
擬似R二乗
| 指標 | 値 | |--------------------|-------| | Cox & Snell R二乗 | 0.421 | | Nagelkerke R二乗 | 0.562 | | McFadden R二乗 | 0.387 |
これらの擬似R二乗値は、モデルが再入院の変動の中程度から大きな割合を説明していることを示唆しています。
分類テーブル
確率カットオフ0.50を使用した場合:
| 観測値 \ 予測値 | 再入院なし | 再入院あり | 正解率 | |------------------|-----------|-----------|---------| | 再入院なし | 8 | 2 | 80.0% | | 再入院あり | 1 | 9 | 90.0% | | 全体 | | | 85.0% |
モデルは患者の85%を正しく分類しています。感度(真陽性率)は90%、特異度(真陰性率)は80%です。
ステップ5:影響力の強い観測値の確認
各観測値のクックの距離を調べます。1.0を超える値は影響力が大きい可能性があります。
| 患者 | クックの距離 | レバレッジ | |------|------------|-----------| | 7 | 0.87 | 0.35 | | 16 | 0.62 | 0.28 | | その他 | < 0.40 | < 0.25 |
患者7(年齢63歳、入院日数4日、併存疾患数2、再入院なし)が最も高いクックの距離0.87を示していますが、閾値の1.0を下回っています。除去が必要な観測値はありません。
ステップ6:結果の報告
適切な形式の報告例は以下の通りです:
二項ロジスティック回帰分析を実施し、年齢、入院日数、併存疾患数が30日以内の再入院の可能性に及ぼす影響を検討した(N = 20)。モデル全体は統計的に有意であった(カイ二乗(3) = 22.14, p < .001, Nagelkerke R二乗 = .562)。モデルは85.0%の症例を正しく分類した。3つの予測変数すべてが統計的に有意であった:年齢(OR = 1.067, 95% CI [1.004, 1.134], p = .036)、入院日数(OR = 1.366, 95% CI [1.022, 1.826], p = .035)、併存疾患数(OR = 1.627, 95% CI [1.051, 2.519], p = .029)。年齢の増加、入院日数の延長、併存疾患数の増加は、いずれも再入院オッズの上昇と関連していた。
よくある落とし穴とその回避方法
-
完全分離または準完全分離: 予測変数がアウトカムを完全に予測する場合、最尤推定値が無限大になります。解決策:Firthの罰則付き尤度法または正確ロジスティック回帰分析を使用します。
-
ロジットの線形性の仮定を無視する: 有意な非線形関係は係数にバイアスをもたらす可能性があります。解決策:多項式項または制限三次スプラインで検定します。
-
予測変数が多すぎることによる過適合: サンプルサイズが小さい場合、予測変数を追加するごとに過適合のリスクが高まります。解決策:10-20 EPVガイドラインに従い、情報量基準(AIC、BIC)を変数選択に使用します。
-
オッズ比と相対リスクの混同: オッズ比が2.0であっても、アウトカムが2倍起こりやすいということではありません。アウトカムがまれ(< 10%)な場合、ORはRRを近似しますが、アウトカムが一般的な場合、ORはRRを過大評価します。
-
R二乗によるモデル評価: ロジスティック回帰分析の擬似R二乗値は、線形回帰分析と同じ解釈を持ちません。代わりにC統計量(AUC)やキャリブレーションプロットを使用してください。
高度な考慮事項
交互作用項
入院日数の効果が年齢に依存すると疑われる場合、交互作用項(年齢 x 入院日数)を含めます。交互作用が有意であれば、入院日数のORが年齢によって変化することを意味します。
AICによるモデル比較
| モデル | AIC | |------------------------------|-------| | 年齢のみ | 24.8 | | 年齢 + 入院日数 | 20.1 | | 年齢 + 入院日数 + 併存疾患数 | 17.3 | | フルモデル + 年齢 x 入院日数 | 18.9 |
3つの主効果すべてを含むモデル(AIC = 17.3)が最も良い適合を示しています。交互作用項はモデルを改善していません。
ROC曲線とAUC
このモデルの受信者動作特性曲線(ROC)下面積(AUC)は0.92であり、優れた判別能力を示しています。AUCが0.5は偶然レベル、1.0は完全な判別を表します。
ご自身で試してみましょう
ご自身のデータでロジスティック回帰分析を実行する準備はできましたか?ロジスティック回帰計算機を使って変数を入力し、オッズ比、モデル適合度統計量、分類指標を含む結果を即座に取得できます。
関連する分析として、連続アウトカムの場合は重回帰分析計算機、カテゴリカル変数間の関連を調べる場合はカイ二乗検定計算機もご覧ください。
よくある質問
ロジスティック回帰分析に必要な最小サンプルサイズは?
広く引用されているガイドラインは、変数あたり10イベント(EPV)です。少ない方のアウトカム群に50の観測値があり、予測変数が5つあれば最低条件を満たします。安定した推定値のために20 EPVを推奨する研究者もいます。イベント数が少ない場合は、予測変数の数を減らすか、Firthロジスティック回帰分析などの罰則付き手法の使用を検討してください。
3つ以上のアウトカムカテゴリーにロジスティック回帰分析を使えますか?
標準的な二項ロジスティック回帰分析は、正確に2つのアウトカムレベルを必要とします。3つ以上の順序なしカテゴリーの場合は多項ロジスティック回帰分析を使用してください。順序ありカテゴリー(例:軽度/中等度/重度)の場合は順序ロジスティック回帰分析を使用してください。
ロジスティック回帰分析で欠損データをどう扱いますか?
完全ケース分析(リストワイズ削除)はほとんどのソフトウェアのデフォルトですが、データが完全にランダムに欠損(MCAR)していない場合、バイアスを導入する可能性があります。一般的には多重代入法が推奨されます。欠損値を代入し、各代入データセットでモデルを適合させ、Rubinのルールを使って結果をプーリングします。
ワルド検定と尤度比検定の違いは何ですか?
ワルド検定は各係数を個別に評価し、標準出力に報告されます。尤度比検定はネストされたモデルを比較し、特にサンプルサイズが小さい場合に一般的により信頼性が高いです。両者の結論が異なる場合は、尤度比検定を優先してください。
APA形式でロジスティック回帰分析の結果を報告するには?
モデル全体のカイ二乗検定、自由度、p値を報告します。Nagelkerke(またはCox & Snell)R二乗を含めます。各予測変数について、B、SE、ワルドカイ二乗、p値、OR、ORの95%信頼区間を報告します。必要に応じて分類精度も記載します。
ロジスティック回帰分析は連続予測変数を扱えますか?
はい。連続予測変数はそのままモデルに投入されます。得られるオッズ比は、予測変数が1単位増加した場合のオッズの変化を表します。1単位の変化が意味を持たない場合(例:ドル単位の所得)、より解釈しやすいORのために変数を再スケール化(例:1,000ドル単位の増加)することを検討してください。
Hosmer-Lemeshow検定が有意だった場合、どうすべきですか?
Hosmer-Lemeshow検定が有意(p < 0.05)であることは、モデルのキャリブレーションが不良であることを示唆します。非線形項(二次、スプライン)、交互作用項、または追加の予測変数の投入を検討してください。外れ値や影響力の強い観測値も確認してください。非常に大きなサンプルサイズでは、些細なキャリブレーションの不一致でも有意になる場合があることに注意してください。