データに線形モデルを当てはめます。結果にはR²、F検定、回帰係数、散布図、APA形式の出力が含まれます。
単回帰分析(Simple Linear Regression)は、1つの独立変数(X)と従属変数(Y) の関係を、観測データに直線を当てはめることでモデル化する統計手法です。回帰 方程式は ŷ = b₀ + b₁x の形式をとり、b₀はy切片、b₁は回帰直線の傾きを表します。 この手法は最小二乗法(OLS)を用いてパラメータを推定し、 観測値と予測値の差の二乗和を最小化します。
回帰分析は1880年代にFrancis Galton卿が遺伝的身長に関する 研究で開拓し、子どもの身長が母集団平均に"回帰"する傾向を観察した ことに由来します。その後、Karl Pearsonと Ronald Fisherが現代の回帰分析で使用される推測統計 (F検定、係数に対するt検定)の数学的枠組みを確立しました。今日、単回帰 分析は統計学において最も基本的なツールの一つであり、重回帰分析、分散分析 (ANOVA)、そして多くの機械学習アルゴリズムの基礎となっています。
傾き(b₁)
傾きはXが1単位増加したときのYの予測変化量を表します。正の傾きは正の 関係(Xが増加するとYも増加)を、負の傾きは逆の関係を示します。傾きの 有意性は自由度 n - 2 のt検定で検定します。
切片(b₀)
切片はXが0のときのYの予測値です。多くの実用場面ではX = 0が意味を 持たないことがあるため(例:身長から体重を予測する場合)、切片は慎重に 解釈する必要があります。切片の主な役割は回帰直線を正しい位置に配置する ことです。
推定の標準誤差
推定の標準誤差(SEE)は、観測値と回帰直線の間の平均距離を測定します。 値が小さいほどデータポイントが回帰直線の周りに密集していることを示し、 予測精度が高いことを意味します。
R²は独立変数によって説明される従属変数の分散の割合を表します。0から1 の範囲をとり、0はモデルが変動性を全く説明しないこと、1はすべての変動性を 説明することを意味します。調整済みR²は予測変数の数を考慮し、モデル 間の比較に特に有用です。
| R² 値 | 解釈 | 実質的な意味 |
|---|---|---|
| < 0.10 | 非常に弱い | モデルの説明力がほとんどない; Xは弱い予測変数 |
| 0.10 – 0.30 | 弱い | 小さいが潜在的に意味のある予測力 |
| 0.30 – 0.50 | 中程度 | 意味のある予測; 多くの社会科学研究で有用 |
| 0.50 – 0.70 | 強い | かなりの予測精度; 良好なモデル適合度 |
| > 0.70 | 非常に強い | 優れたモデル適合度; XはYの強力な予測変数 |
注:これらの基準は一般的なガイドラインです。物理学や工学の分野ではR² 値が0.90以上であることが一般的です。心理学や社会科学ではR²値が 0.20–0.40でも意味のある水準と見なされることが多いです。
研究者が大学生10名を対象に、学習時間が試験成績を予測するかどうかを 調査します。
学習時間 (X)
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
試験得点 (Y)
2.1, 4.0, 5.8, 8.2, 9.8, 12.1, 14.0, 15.9, 18.2, 19.8
結果
F(1, 8) = 2854.88, p < .001, R² = .997
ŷ = 0.04 + 1.97x
モデルは統計的に有意であり、試験得点の分散の99.7%を説明しています。 学習時間が1時間増えるごとに、予測される試験得点は約1.97点増加します。
回帰分析の結果を解釈する前に、以下の仮定が満たされているか確認する必要が あります。仮定の違反は、偏った推定値、不正確な標準誤差、無効な推論に つながる可能性があります。
1. 線形性
XとYの間の関係は線形でなければなりません。データの散布図を確認し、関係が 曲線的(例:二次、対数)であれば変数の変換や多項式回帰を検討してください。 残差プロットで0の周りにランダムな分散が見られれば線形性を支持します。
2. 誤差の独立性
残差(誤差)は互いに独立でなければなりません。これは連続する観測値が 相関する可能性がある時系列データで特に重要です(自己相関)。 Durbin-Watson検定で自己相関を検出でき、値が2に近ければ自己相関が ないことを示します。
3. 残差の正規性
残差は近似的に正規分布に従う必要があります。この仮定は仮説検定と信頼 区間の構成に重要です。Q-Qプロットやシャピロ・ウィルク検定で正規性を 確認してください。大標本(n > 30)では中心極限定理により、軽度の 非正規性に対して回帰分析は頑健です。
4. 等分散性(分散の均一性)
残差の分散はXのすべての水準でほぼ一定でなければなりません。残差対 予測値プロットで残差の散らばりがおおむね同じであるべきです。散らばりが 扇形に広がる場合(不均一分散)、加重最小二乗法やロバスト標準誤差の 使用を検討してください。
APA第7版のガイドラインに従い、回帰分析の結果には自由度を含むF統計量、 p値、R²、回帰方程式、および個々の係数の統計量を含める必要があります。 以下は使用できるテンプレートです。
単回帰分析
学習時間から試験得点を予測するために単回帰分析を実施した。モデルは 統計的に有意であった、F(1, 8) = 2854.88, p < .001, R² = .997。学習時間は試験得点を有意に予測した、b = 1.97, t(8) = 53.43, p < .001, 95% CI [1.88, 2.05]。学習時間が1時間追加されるごとに、試験得点は 平均1.97点増加した。
非有意の結果
1日のスクリーンタイムから幸福度スコアを予測するために単回帰分析を 実施した。モデルは統計的に有意ではなかった、F(1, 48) = 1.23, p = .274, R² = .025。スクリーンタイムは幸福度 スコアを有意に予測しなかった、b = -0.15, t(48) = -1.11, p = .274, 95% CI [-0.42, 0.12]。
注:回帰係数、t値、F値は小数点第2位まで報告します。p値は小数点第3位まで 報告しますが、.001未満の場合は p < .001と表記します。R² と主要係数の95%信頼区間を必ず含めてください。
| 状況 | 推奨される検定 |
|---|---|
| 予測変数1つ、連続型結果変数1つ | 単回帰分析 |
| 予測変数が複数、連続型結果変数1つ | 重回帰分析 |
| 関係の強さのみを把握(予測は不要) | Pearson / Spearman 相関分析 |
| 二値型結果変数 | ロジスティック回帰 |
| 非線形の関係 | 多項式回帰またはデータ変換 |
| 群間の平均比較(カテゴリカル予測変数) | t検定または分散分析(ANOVA) |
StatMateの回帰分析計算は、Rの lm() および summary.lm() 関数と照合して検証されています。標準正規方程式を使用してOLS回帰を計算し、 jstatライブラリの確率分布を活用してF統計量、t統計量、信頼区間を導出 します。すべての結果はRの出力と小数点第4位まで一致しています。
t検定
2群の平均値を比較
分散分析
3群以上の平均値を比較
カイ二乗検定
カテゴリ変数の関連を検定
相関分析
関係の強さを測定
記述統計
データを要約
サンプルサイズ
検出力分析・標本計画
1標本t検定
既知の値との比較
マン・ホイットニーU
ノンパラメトリック群間比較
ウィルコクソン検定
ノンパラメトリック対応検定
重回帰分析
複数の予測変数
クロンバックのα
尺度の信頼性
ロジスティック回帰
二値アウトカムの予測
因子分析
潜在因子構造の探索
クラスカル・ウォリス
ノンパラメトリック3群以上比較
反復測定
被験者内分散分析
二元配置分散分析
要因計画の分析
フリードマン検定
ノンパラメトリック反復測定
フィッシャーの正確検定
2×2表の正確検定
マクネマー検定
対応のある名義データの検定
Excel/スプレッドシートから貼り付け、またはCSVファイルをドロップ
Excel/スプレッドシートから貼り付け、またはCSVファイルをドロップ
データを入力して「計算」をクリックしてください
または「サンプルデータを読み込む」をクリックしてお試しください