2つのツール、異なる目的
相関と回帰は研究で最も広く使用される統計手法であり、密接に関連しています。どちらも2つの連続変数間の関係を調べます。しかし、根本的に異なる問いに答えるため、2つを混同すると結果の誤解釈につながる可能性があります。
このガイドでは、各手法が何をするのか、どちらをいつ使うべきか、そして数学的にどうつながっているかを説明します。読み終わる頃には、研究の問いに対して適切なアプローチを自信を持って選択できるようになるでしょう。
相関とは何か?
相関は、2つの変数間の線形関係の強さと方向を測定します。一方の変数が変化するとき、もう一方も同じように変化する傾向があるか、そしてそれがどの程度強いかという問いに答えます。
最も一般的な指標は**ピアソンの相関係数(r)**で、-1から+1の範囲を取ります:
| rの値 | 解釈 | |---------|------| | +1.00 | 完全な正の関係 | | +0.70 ~ +0.99 | 強い正の関係 | | +0.40 ~ +0.69 | 中程度の正の関係 | | +0.10 ~ +0.39 | 弱い正の関係 | | 0.00 | 線形関係なし | | -0.10 ~ -0.39 | 弱い負の関係 | | -0.40 ~ -0.69 | 中程度の負の関係 | | -0.70 ~ -0.99 | 強い負の関係 | | -1.00 | 完全な負の関係 |
相関の主な特徴
- 対称的: XとYの相関はYとXの相関と同じです。どちらの変数も原因や結果として扱われません。
- 無次元: rの値は測定単位に依存しません。身長をセンチメートルで測ってもインチで測っても、体重との相関は同じです。
- 線形関係に限定: ピアソンのrは直線的な関連のみを捉えます。2つの変数が強い曲線的な関係を持っていても、弱いピアソンの相関を示すことがあります。
相関を使うべき場合
相関は以下の場合に適切です:
- より複雑なモデルを構築する前に、2つの変数が関連しているかどうかを探索する
- 方向性を示唆せずに関連の強さを報告する
- 異なる変数ペア間で関連の強さを比較する
- 研究の初期段階で予備分析を行う
例: ある健康研究者が、大学生の睡眠時間と自己報告のストレスレベルが関連しているかどうかを知りたいとします。どちらの変数が他方に影響するかの仮定はありません。ピアソンの相関が適切です。
回帰とは何か?
回帰は相関よりも一歩進んでいます。予測変数(X)と結果変数(Y)の間の具体的な数学的関係をモデル化し、予測を可能にします。単純線形回帰はデータに直線を当てはめ、以下の方程式を生成します:
Y = a + bX
ここで:
- Y は結果変数の予測値
- a は切片(X = 0のときのYの値)
- b は傾き(Xが1単位増加するごとのYの変化量)
- X は予測変数の値
回帰の主な特徴
- 方向性がある: 回帰は明示的に一方の変数を予測変数、他方を結果変数として指定します。YをXに回帰するのとXをYに回帰するのでは異なる結果が得られます。
- 予測的: 回帰方程式により、任意のXの値に対するYの期待値を推定できます。
- 拡張可能: 相関と異なり、回帰は複数の予測変数に自然に拡張されます。重回帰は同じモデルに2つ以上の予測変数を含めます。
回帰を使うべき場合
回帰は以下の場合に適切です:
- 一方の変数に基づいて他方を予測する
- 予測変数の1単位の変化に対して結果がどれだけ変化するかを定量化する
- 追加の変数を共変量として含めることで制御する
- どの変数が結果に影響するかの理論的モデルを検定する
例: ある教育研究者が、勉強時間が試験成績を予測するという仮説を立てています。研究者は勉強時間を予測変数、試験スコアを結果変数として指定します。単純線形回帰により、例えば勉強時間1時間の追加が試験スコアの3.2点の上昇に関連するという方程式が得られます。
主な違いの概要
| 特徴 | 相関 | 回帰 | |------|------|------| | 目的 | 関連の強さを測定 | 関係のモデル化と予測 | | 方向 | 対称(独立/従属の区別なし) | 非対称(予測変数 → 結果) | | 出力 | 相関係数(r) | 方程式(切片 + 傾き) | | 予測 | なし | あり | | 複数の予測変数 | 直接的にはなし | あり(重回帰) | | 単位 | 無次元 | 傾きは元の単位 |
rとR二乗の関係
統計学で最もエレガントな関係の1つが、ピアソンの相関係数と単純線形回帰の決定係数の関係です。
R二乗 = r二乗
単純線形回帰(予測変数が1つ)では、R二乗の値は文字通りピアソンの相関係数の二乗です。勉強時間と試験スコアの相関がr = .60であれば、R二乗 = .36となり、試験スコアの分散の36%が勉強時間で説明できることを意味します。
この関係は予測変数が1つの単純回帰にのみ成立します。複数の予測変数を含む重回帰では、R二乗はすべての予測変数の合計説明力を反映し、単一の相関からは導出できません。
R二乗の解釈
R二乗は、予測変数によって説明される結果変数の分散の割合を示します。いくつかのガイドラインを挙げます:
| R二乗 | 説明される分散 | 一般的な解釈 | |--------|-------------|------------| | .01 | 1% | 非常に小さな効果 | | .09 | 9% | 小さな効果 | | .25 | 25% | 中程度の効果 | | .49以上 | 49%以上 | 大きな効果 |
意味のあるR二乗が何かは、分野によって大きく異なることに留意してください。物理学では、R二乗が.90未満は期待外れかもしれません。社会科学研究では、R二乗が.20でも注目すべき発見となり得ます。
実践的な研究例
例1:健康心理学
ある研究者が200人の成人における日々の運動時間と睡眠の質スコアの関係を調べます。
- 相関アプローチ: ピアソンのrを計算して、運動と睡眠の質が線形に関連しているか、またその関連がどの程度強いかを判断します。結果:r = .45で、中程度の正の関係を示しています。
- 回帰アプローチ: 運動時間を使って睡眠の質スコアを予測します。回帰方程式により、日々の運動が10分増えるごとに睡眠の質が0.8ポイント改善することが明らかになります。
どちらの分析も有効ですが、異なる問いに答えます。相関は変数が関連していることを伝えます。回帰は、運動の特定の変化に対して睡眠の質がどれだけ変化すると予想されるかを伝えます。
例2:マーケティングリサーチ
ある企業が広告費と月間売上高の関係を理解したいとします。
- 相関は、2つの変数が強く正に関連していることを示します(r = .78)。
- 回帰は実行可能なモデルを提供します:広告費が1,000ドル増えるごとに、売上が推定4,200ドル増加します。この予測は予算計画に直接役立ちます。
例3:教育
ある学区が、80の学校において学級規模と標準テストスコアが関連しているかどうかを調べます。
- 相関は中程度の負の関係を明らかにします(r = -.42)。これは、学級が大きいほどスコアが低い傾向があることを示唆しています。
- 回帰は関係を定量化します:重回帰モデルで学校の資金レベルを制御しながら、学級あたりの生徒が1人増えるごとに平均テストスコアが1.5点低下します。
因果関係に関する注意
相関も単純回帰も因果関係を確立しません。アイスクリームの売上と溺水事故の間の強い相関は、アイスクリームが溺水を引き起こすことを意味しません。両者とも第三の変数である暖かい天候の影響を受けています。
同様に、XからYを予測する回帰モデルは、XがYを引き起こすことを証明しません。回帰における方向性は数学的な指定であり、因果的な主張ではありません。因果関係の確立にはランダム割り当てを伴う実験デザイン、または少なくとも縦断データ分析、操作変数、構造方程式モデリングなどの高度な手法が必要です。
結果を執筆する際は、因果関係ではなく関連を反映する表現を使用してください。「XがYを引き起こした」ではなく、「XはYと関連していた」または「XはYを予測した」と書いてください。ただし、研究デザインが真に因果的推論を支持する場合は別です。
StatMateでの相関と回帰の実行
StatMateを使えば、両方の分析を簡単に実行できます。相関分析では、2つの変数を入力するとStatMateがピアソンのr(または非正規データにはスピアマンのロー)を信頼区間と有意性検定とともにAPA形式で計算します。
回帰分析では、予測変数と結果変数を指定すると、StatMateが完全な回帰方程式、R二乗の値、傾きと切片の有意性検定、および仮定を確認するための残差分析を生成します。すべての結果は論文に直接挿入できる形式になっています。
関連を探索する場合も予測モデルを構築する場合も、相関と回帰の違いを理解することで、適切なツールを選択し、結果を正確に解釈することができます。