コンテンツへスキップ
S
StatMate
ブログ一覧
使い方ガイド17 min read2026-02-20

単回帰分析の実行方法 — ステップバイステップガイド

単回帰分析を実行するための完全なステップバイステップガイドです。回帰直線の当てはめ、仮定の確認、係数の解釈、モデル適合度の評価まで、計算例を交えて解説します。

はじめに

単回帰分析は、最も基本的で広く使用される統計手法の一つです。予測変数(独立変数)と結果変数(従属変数)の2つの変数間の関係をモデル化することができます。回帰分析では、相関を超えて、予測を可能にする数学的方程式を当てはめます。

広告費から売上を予測する場合、学習時間から試験スコアを予測する場合、あるいは年齢から血圧を予測する場合など、単回帰分析は具体的なモデルと実践的な知見を提供します。このガイドでは、研究課題の設定から仮定の確認、出力の解釈まで、実際の計算例を用いて全過程を解説します。

単回帰分析を使用すべき場面

単回帰分析は以下の条件で適しています:

  • 1つの連続予測変数(X)と1つの連続結果変数(Y)がある場合。
  • XとYの間に線形関係が予想される場合。
  • Xの値からYの値を予測したい、あるいはXの1単位増加あたりのYの変化量を定量化したい場合。

複数の予測変数がある場合は、重回帰分析が必要です。結果変数がカテゴリカル(例:合格/不合格)の場合は、ロジスティック回帰を検討してください。

ステップ1:研究課題を定義する

例題シナリオ: あるマーケティングマネージャーが、広告費(千ドル単位)が小売チェーンの月間収益(千ドル単位)をどの程度予測するかを知りたいと考えています。

  • 研究課題: 広告費は月間収益を予測するか?
  • 予測変数(X): 広告費(千ドル)
  • 結果変数(Y): 月間収益(千ドル)

ステップ2:データを収集し整理する

12か月間にわたって収集された月次データ:

| 月 | 広告費(X) | 収益(Y) | |------|-----------|---------| | 1月 | 8 | 120 | | 2月 | 12 | 155 | | 3月 | 10 | 142 | | 4月 | 15 | 175 | | 5月 | 6 | 105 | | 6月 | 14 | 168 | | 7月 | 11 | 150 | | 8月 | 18 | 200 | | 9月 | 9 | 132 | | 10月 | 13 | 160 | | 11月 | 7 | 115 | | 12月 | 16 | 185 |

ステップ3:データを可視化する

計算を行う前に、XとYの散布図を作成します。これにより以下の確認ができます:

  • 関係がおおよそ線形に見えるかどうか。
  • 潜在的な外れ値の発見。
  • 関係の強さと方向の直感的な理解。

このデータでは、散布図は明確な正の線形傾向を示しています:広告費が増加するにつれて、収益も比例して増加しています。

ステップ4:仮定を確認する

単回帰分析はいくつかの仮定に基づいています。結果を解釈する前にこれらを確認してください。

1. 線形性

XとYの関係が線形であること。ステップ3の散布図がほぼ直線的なパターンを示すはずです。関係が曲線的であれば、線形モデルは不適切です。

2. 残差の独立性

各観測が独立であること。時系列データの場合は、Durbin-Watson検定を使用して自己相関を確認します。2に近い値は自己相関がないことを示します。

3. 等分散性(分散の一定性)

残差の広がりがXのすべての水準でほぼ同じであること。残差を予測値に対してプロットし、扇形やファンネル形がないか確認します。これは分散不均一性を示す兆候です。

4. 残差の正規性

残差(誤差)がほぼ正規分布に従うこと。残差のQ-QプロットまたはShapiro-Wilk検定で確認します。

5. 影響力のある外れ値がないこと

極端な観測値は回帰直線を歪める可能性があります。Cookの距離を確認し、Cookの距離が1より大きい点は影響力が大きいと見なされることが多いです。

ステップ5:回帰方程式を計算する

単回帰方程式は以下のとおりです:

Y = b0 + b1 * X

ここで:

  • b1(傾き)= Xが1単位増加するごとのYの変化量
  • b0(切片)= X = 0のときのYの予測値

傾き(b1)の計算

b1 = [N * sum(XY) - sum(X) * sum(Y)] / [N * sum(X^2) - (sum(X))^2]

データから:

  • N = 12
  • sum(X) = 139
  • sum(Y) = 1,807
  • sum(XY) = 22,331
  • sum(X^2) = 1,771

値を代入すると:

  • 分子:12 * 22,331 - 139 * 1,807 = 267,972 - 251,173 = 16,799
  • 分母:12 * 1,771 - 139^2 = 21,252 - 19,321 = 1,931

b1 = 16,799 / 1,931 = 8.70

切片(b0)の計算

b0 = Mean(Y) - b1 * Mean(X)

  • Mean(X) = 139 / 12 = 11.58
  • Mean(Y) = 1,807 / 12 = 150.58

b0 = 150.58 - 8.70 * 11.58 = 150.58 - 100.75 = 49.83

回帰方程式

収益 = 49.83 + 8.70 * 広告費

これは以下のことを意味します:

  • 広告費が1,000ドル増加するごとに、月間収益は約8,700ドル増加します。
  • 広告費がゼロの場合、予測されるベースライン収益は約49,830ドルです。

ステップ6:モデルの適合度を評価する

R二乗(決定係数)

R二乗は、Xによって説明されるYの分散の割合を示します。

まず、全平方和(SST)、回帰平方和(SSR)、残差平方和(SSE)を計算します:

SST = sum(Yi - Mean(Y))^2 = 8,606.92

SSR = b1^2 * sum(Xi - Mean(X))^2 = 8.70^2 * 160.92 = 75.69 * 160.92 = 8,398.47

SSE = SST - SSR = 8,606.92 - 8,398.47 = 208.45

R^2 = SSR / SST = 8,398.47 / 8,606.92 = 0.976

これは月間収益の分散の97.6%が広告費によって説明されることを意味します。非常に優れた適合度です。

自由度調整済みR二乗

自由度調整済みR二乗は予測変数の数に対してペナルティを課します:

調整済みR^2 = 1 - [(1 - R^2) * (N - 1) / (N - k - 1)]

= 1 - [(1 - 0.976) * 11 / 10] = 1 - [0.024 * 1.1] = 1 - 0.026 = 0.974

推定の標準誤差

SEE = sqrt(SSE / (N - 2)) = sqrt(208.45 / 10) = sqrt(20.85) = 4.57

平均して、予測値は実測値から約4,570ドルのずれがあります。

ステップ7:統計的有意性を検定する

モデル全体のF検定

F = MSR / MSE = (SSR / 1) / (SSE / (N - 2)) = 8,398.47 / 20.85 = 402.80

df1 = 1、df2 = 10で、p < .001 です。モデルは統計的に有意です。

傾きのt検定

t = b1 / SE(b1)

SE(b1) = sqrt(MSE / sum(Xi - Mean(X))^2) = sqrt(20.85 / 160.92) = sqrt(0.1296) = 0.360

t = 8.70 / 0.360 = 24.17

df = 10で、p < .001 です。傾きはゼロと有意に異なります。

傾きの95%信頼区間

b1 +/- t_critical * SE(b1) = 8.70 +/- 2.228 * 0.360 = 8.70 +/- 0.80

傾きの95%信頼区間は [7.90, 9.50] です。広告費が1,000ドル追加されるごとに、収益は7,900ドルから9,500ドルの範囲で増加すると95%の確信を持って言えます。

ステップ8:予測を行う

回帰方程式を使用して、特定の広告費に対する収益を予測します。

例: 会社が広告に20,000ドルを費やす予定の場合:

収益 = 49.83 + 8.70 * 20 = 49.83 + 174.00 = $223,830

外挿に関する注意: データは6,000ドルから18,000ドルの広告費のみをカバーしています。この範囲をはるかに超えた予測(例:50,000ドル)は、線形関係が続かない可能性があるため信頼性が低くなります。

ステップ9:残差を検討する

モデルを当てはめた後、仮定を確認するために残差を調べます:

| 月 | 実測値(Y) | 予測値 | 残差 | |------|-----------|--------|------| | 1月 | 120 | 119.43 | 0.57 | | 2月 | 155 | 154.23 | 0.77 | | 3月 | 142 | 136.83 | 5.17 | | 4月 | 175 | 180.33 | -5.33 | | 5月 | 105 | 102.03 | 2.97 | | 6月 | 168 | 171.63 | -3.63 | | 7月 | 150 | 145.53 | 4.47 | | 8月 | 200 | 206.43 | -6.43 | | 9月 | 132 | 128.13 | 3.87 | | 10月 | 160 | 162.93 | -2.93 | | 11月 | 115 | 110.73 | 4.27 | | 12月 | 185 | 189.03 | -4.03 |

残差は比較的小さく、明らかなパターンは見られません。これはモデルの仮定を支持しています。

ステップ10:結果を報告する

広告費から月間収益を予測するために単回帰分析を実施しました。有意な回帰方程式が得られました。F(1, 10) = 402.80, p < .001, R^2 = .976。広告費は収益を有意に予測しました。b = 8.70, t(10) = 24.17, p < .001, 95% CI [7.90, 9.50]。広告費が1,000ドル追加されるごとに、月間収益は約8,700ドル増加しました。

よくある間違いと注意点

  1. 相関と回帰の混同:相関は関連の強さを測定し、回帰は予測モデルを提供します。明確な予測変数と結果変数がある場合は回帰を使用してください。

  2. データ範囲外への外挿:回帰方程式は観測されたXの値の範囲内でのみ信頼できます。この範囲外での予測は、線形関係が無限に続くことを仮定しますが、これは多くの場合誤りです。

  3. 残差プロットの無視:良いR二乗値はモデルが適切であることを保証しません。残差プロットにおける非ランダムなパターンはモデルの不適切さを示します。

  4. 因果関係の仮定:回帰は関連と予測を示しますが、因果関係を示すものではありません。強い回帰関係があっても、適切な実験デザインなしにはXがYの原因であるとは言えません。

  5. 影響力のある観測値の見落とし:1つの極端なデータ点が回帰直線を劇的に変化させる可能性があります。常にCookの距離とてこ比の値を確認してください。

よくある質問

良いR二乗値とはどれくらいですか?

普遍的な閾値はありません。統制された実験では、R二乗値が.80以上であることが一般的です。社会科学では、.30から.50の値が良好と見なされることがあります。重要なのは、R二乗が特定の目的にとって十分に高いかどうかです。

カテゴリカル予測変数で回帰を使用できますか?

はい。ただし、ダミー変数(0/1)としてコーディングする必要があります。k個のカテゴリーを持つカテゴリカル予測変数には、k - 1個のダミー変数を作成します。これは重回帰分析に自然に拡張されます。

RとR二乗の違いは何ですか?

R(相関係数)は線形関係の強さと方向を測定し、-1から1の範囲です。R二乗はRの2乗で、説明される分散の割合を表し、0から1の範囲です。R二乗はモデル適合度の評価においてより解釈しやすい指標です。

非線形関係にはどのように対処しますか?

散布図が曲線的な関係を示す場合は、変数の変換(例:対数変換、平方根変換)、多項式項の追加(例:X^2)、または非線形回帰手法の使用を検討してください。

残差が正規分布に従わない場合はどうすればよいですか?

軽度の正規性逸脱は回帰係数にほとんど影響しませんが、信頼区間とp値に影響します。重度の正規性逸脱の場合は、結果変数の変換、頑健回帰手法の使用、またはブートストラップ信頼区間の使用を検討してください。

StatMateで回帰分析を実行する

StatMateの回帰計算機は、ワンクリックで単回帰分析を実行します。XとYのデータを入力すると、StatMateが回帰方程式、R二乗、自由度調整済みR二乗、F検定、傾きのt検定、残差分析、診断プロットを計算します。結果はAPA書式でフォーマットされ、研究論文にそのまま使用できます。

今すぐ計算してみましょう

StatMateの無料統計計算ツールでデータを分析し、APA形式の結果を取得しましょう。

計算を始める

統計のヒントを受け取る

統計分析、APAフォーマット、新しい計算ツールの更新情報を毎週お届けします。

スパムはありません。いつでも解除できます。