OLS回帰を使用して複数の予測変数から結果変数を予測します。結果にはR²、VIF付き係数、分散分析表、APA形式の出力が含まれます。
重回帰分析(Multiple Regression Analysis)は、2つ以上の独立変数 (予測変数)が1つの連続型従属変数(結果変数)に与える影響を同時に 分析する統計手法です。単回帰分析が1つの予測変数のみを扱うのに対し、 重回帰分析は複数の予測変数を1つのモデルに組み込むことで、各変数の 独立した寄与を評価できます—これは現実世界の複雑な現象をより 正確に説明するために不可欠です。
回帰分析の歴史は、19世紀後半に Francis Galton が親と子の身長の関係を 研究し、"平均への回帰(regression toward the mean)"という 概念を導入したことに始まります。その後 Karl Pearson とその弟子たちが 数学的基礎を確立し、20世紀初頭に R. A. Fisher が最小二乗法(OLS, Ordinary Least Squares)の統計的性質を体系化しました。OLSは観測値と 予測値の間の残差二乗和を最小化する回帰係数を推定する方法であり— 今日でも重回帰分析の中心的な推定法として広く使用されています。
重回帰分析は以下のような状況で使用します:(1)複数の予測変数が結果 変数にそれぞれどの程度寄与しているかを把握したい場合、(2)他の変数を 統制した状態で特定の変数の純粋な効果を推定したい場合、(3)複数の変数の 情報を総合して結果を予測するモデルを構築したい場合。回帰モデルの一般式は Y = b0 + b1X1 + b2X2 + … + bkXk + e であり、 ここで b0 は切片、b1…bk は各予測変数の非標準化回帰係数、 e は残差(誤差)です。
教育研究者が大学生30名のデータを収集し、学習 時間(週あたり時間)、睡眠時間(1日平均時間)、 出席率(%)がGPA(成績評価、4.5満点)に与える影響を 分析します。
記述統計の要約
| 変数 | M | SD | 範囲 |
|---|---|---|---|
| GPA | 3.25 | 0.58 | 1.80–4.30 |
| 学習時間 | 14.50 | 5.20 | 3–28 |
| 睡眠時間 | 6.80 | 1.10 | 4.5–9.0 |
| 出席率 (%) | 82.00 | 12.50 | 45–100 |
相関行列
| GPA | 学習 | 睡眠 | 出席 | |
|---|---|---|---|---|
| GPA | 1.00 | .72 | .38 | .65 |
| 学習 | .72 | 1.00 | .15 | .45 |
| 睡眠 | .38 | .15 | 1.00 | .10 |
| 出席 | .65 | .45 | .10 | 1.00 |
回帰係数表
| 予測変数 | B | SE | β | t | p | VIF |
|---|---|---|---|---|---|---|
| (切片) | -0.52 | 0.41 | — | -1.27 | .216 | — |
| 学習時間 | 0.055 | 0.010 | .49 | 5.50 | < .001 | 1.26 |
| 睡眠時間 | 0.112 | 0.038 | .21 | 2.95 | .007 | 1.03 |
| 出席率 | 0.018 | 0.004 | .33 | 4.50 | < .001 | 1.25 |
モデル適合度
R² = .72, 調整済み R² = .69
F(3, 26) = 22.29, p < .001
Durbin-Watson = 1.95
結果の解釈
回帰モデルは全体として有意であり(F(3, 26) = 22.29, p < .001)、GPAの分散の約72%を説明しています。3つの予測 変数すべてが統計的に有意な寄与を示しました。標準化係数(β)を 比較すると、学習時間(β = .49)がGPAに最も大きな相対的 影響力を持ち、出席率(β = .33)、睡眠 時間(β = .21)の順です。すべてのVIF値が1.3未満であり 多重共線性の問題はなく、Durbin-Watson統計量(1.95)は残差の独立性 仮定が満たされていることを示しています。
R² と 調整済みR²(Adjusted R²)
R²(決定係数)は、従属変数の分散のうちモデルが説明する 割合を表します。しかし R² は予測変数を追加するほど 常に増加するという問題があります—無意味な変数を投入しても値が 上がります。調整済み R² は予測変数の 数と標本サイズを考慮してペナルティを与えるため、モデル間の比較に より適しています。調整済み R² が R² よりも 著しく低い場合、不要な予測変数が含まれている可能性を示唆します。
F検定(モデル全体の有意性)
F 検定は、モデルに含まれるすべての予測変数が同時に0であるか (すなわち、モデルが結果を全く予測できないか)を検定します。 F 統計量が大きく p 値が小さければ(< .05)、 モデルが全体として有意であると結論づけます。ただし F 検定が 有意であってもすべての予測変数が有意であるとは限らない ため、個別の t 検定も必ず確認する必要があります。
個別予測変数のt検定
各予測変数に対する t 検定は、他の予測変数を統制した状態で 当該変数の回帰係数が0と有意に異なるかを検定します。t = B / SE で計算され、 p 値が.05未満であれば、その予測変数がモデルに有意な寄与を していると解釈します。
標準化係数(β)
非標準化係数(B)は予測変数の元の単位で解釈されるため、異なる 変数間の相対的重要度を直接比較できません。標準化係数(β)は すべての変数を z 得点に変換した後の係数であるため、β の絶対値が大きいほど当該変数の相対的影響力が大きいと 解釈します。例えば β = .49 は β = .21 よりも結果変数に対する影響力が約2.3倍大きいことを意味します。
VIF(分散拡大係数, Variance Inflation Factor)
VIF は予測変数間の多重共線性(multicollinearity)の程度を測定します。 VIF = 1 はその変数が他の予測変数と全く相関がないことを意味し、VIF が 大きくなるほど共線性が深刻です。一般的に VIF < 10 であれば許容範囲とされ、 VIF < 5 を推奨する研究者も多くいます。VIF が高い 場合は、当該変数の除外や主成分分析の使用を検討してください。
Durbin-Watson 統計量
Durbin-Watson 統計量は残差の自己相関(autocorrelation)を検定します。 値の範囲は0–4であり、2に近いほど自己相関が ないことを示します。一般的に1.5–2.5の範囲であれば残差の独立性 仮定が満たされたと判断します。0に近ければ正の自己相関、4に近ければ 負の自己相関を示唆し—時系列データや反復測定デザインでは特に 注意が必要です。
研究デザインと変数の特性に応じて、適切な分析手法が異なります。以下の表は 重回帰分析と類似する分析手法を比較しています。
| 分析手法 | 独立変数 | 従属変数 | 使用場面 |
|---|---|---|---|
| 単回帰 | 連続型1つ | 連続型 | 単一の予測変数と結果変数の関係分析 |
| 重回帰 | 連続型2つ以上 | 連続型 | 複数の予測変数の同時効果の分析と予測 |
| ロジスティック回帰 | 連続型 / カテゴリカル | 二値型 (0/1) | 合格/不合格、疾患の有無など二値型結果の予測 |
| 分散分析(ANOVA) | カテゴリカル(群) | 連続型 | 3群以上の平均値の差の比較 |
注:重回帰分析にダミーコーディングされたカテゴリカル変数を含めると、 ANOVAと同一の結果を得ることができます。実際、ANOVAは回帰分析の特殊な ケースと見なすことができ、一般線形モデル(GLM)の枠組みの中で両方の アプローチは数学的に等価です。
重回帰分析の結果を信頼するためには、以下の6つの仮定が合理的に満たされて いる必要があります。これらの仮定の違反は、偏った推定値、不正確な p 値、または誤った結論につながる可能性があります。
1. 線形性(Linearity)
各予測変数と従属変数の間の関係が線形でなければなりません。残差対予測値 の散布図を確認し、曲線パターンがないか検討します。非線形関係がある場合は 変数変換(対数、平方根など)や多項式回帰を検討してください。
2. 観測の独立性(Independence)
各観測は他の観測と独立でなければなりません。時系列データ、クラスター標本 (同じ学校の学生など)、反復測定デザインでは、この仮定が違反される可能性が あります。Durbin-Watson統計量(1.5–2.5)で残差の独立性を確認 します。
3. 残差の正規性(Normality of Residuals)
残差(観測値 - 予測値)が正規分布に従う必要があります。残差のヒストグラム やQ-Qプロットで確認できます。標本サイズが十分に大きければ(一般的に N ≥ 30)、中心極限定理によりこの仮定の違反に対して頑健です。
4. 等分散性(Homoscedasticity)
残差の分散が予測値のすべての水準で一定でなければなりません。残差対 予測値の散布図で"ラッパ型"(分散が徐々に大きくなるパターン)が 見られる場合は不均一分散(heteroscedasticity)が存在します。この場合、 加重最小二乗法(WLS)やロバスト標準誤差を使用します。
5. 多重共線性なし(No Multicollinearity)
予測変数間に過度の相関があってはなりません。多重共線性が深刻な場合、 回帰係数の標準誤差が膨張し、個別変数の効果を正確に推定できなくなります。VIF < 10(保守的には < 5)を基準とし、 予測変数間の相関係数が |r| > .80 であれば注意が必要です。
6. 自己相関なし(No Autocorrelation)
残差同士が互いに相関していてはなりません。Durbin-Watson統計量が 約 2 に近ければ自己相関がないと判断します。 時系列データで自己相関が検出された場合は、時差変数の追加や 一般化最小二乗法(GLS)の使用を検討します。
APA第7版のガイドラインに従い、重回帰分析の結果にはモデルの R²、 F 統計量、各予測変数の非標準化係数(B)、標準化 係数(β)、t 統計量、p 値を含める 必要があります。以下はテンプレートと計算例です。
報告テンプレート
[予測変数リスト]が[従属変数]に与える影響を検証するために重回帰分析を 実施した。回帰モデルは統計的に有意であり、 F(df回帰, df残差) = [F値], p [< .001 または = 正確な値], R² = [値], 調整済み R² = [値]。[各予測変数の B、 β、t、p を報告]。
計算例の報告
学習時間、睡眠時間、出席率が大学生のGPAに与える影響を検証するために 重回帰分析を実施した。回帰モデルは統計的に有意であり、F(3, 26) = 22.29, p < .001, R² = .72, 調整済み R² = .69 で、 モデルはGPAの分散の約72%を説明した。学習時間(B = 0.055, β = .49, t = 5.50, p < .001)、 出席率(B = 0.018, β = .33, t = 4.50, p < .001)、睡眠時間(B = 0.112, β = .21, t = 2.95, p = .007) のすべてがGPAを有意に予測した。
注:F 値と t 値は小数点第2位まで報告します。p 値は小数点第3位まで報告しますが、.001未満の場合は p < .001 と表記します。R² は小数点第2位まで 報告します。統計記号(F、t、p、 R²、B、β)は常にイタリック体で 表記します。
StatMateの重回帰分析の計算は、Rの lm() 関数および SPSSの回帰分析出力と照合して検証されています。最小二乗法(OLS)を使用して 回帰係数を推定し、F 分布と t 分布にjstatライブラリを 使用しています。すべての回帰係数、標準誤差、t 統計量、p 値、R²、調整済み R²、F 統計量、VIF、Durbin-Watson統計量は、RおよびSPSSの出力と 小数点第4位以上まで一致しています。95%信頼区間は t 分布の 臨界値を使用して正確に計算されます。
t検定
2群の平均値を比較
分散分析
3群以上の平均値を比較
カイ二乗検定
カテゴリ変数の関連を検定
相関分析
関係の強さを測定
記述統計
データを要約
サンプルサイズ
検出力分析・標本計画
1標本t検定
既知の値との比較
マン・ホイットニーU
ノンパラメトリック群間比較
ウィルコクソン検定
ノンパラメトリック対応検定
回帰分析
X-Yの関係をモデル化
クロンバックのα
尺度の信頼性
ロジスティック回帰
二値アウトカムの予測
因子分析
潜在因子構造の探索
クラスカル・ウォリス
ノンパラメトリック3群以上比較
反復測定
被験者内分散分析
二元配置分散分析
要因計画の分析
フリードマン検定
ノンパラメトリック反復測定
フィッシャーの正確検定
2×2表の正確検定
マクネマー検定
対応のある名義データの検定
Excel/スプレッドシートから貼り付け、またはCSVファイルをドロップ
Excel/スプレッドシートから貼り付け、またはCSVファイルをドロップ
Excel/スプレッドシートから貼り付け、またはCSVファイルをドロップ
データを入力して「計算」をクリックしてください
または「サンプルデータを読み込む」をクリックしてお試しください