はじめに
相関分析は、2つの変数間の関係の強さと方向を測定する手法です。統計学において最も基本的な技法の一つであり、心理学、教育学から経済学、生物学まで、事実上あらゆる研究分野で使用されています。
このガイドでは、最も広く使用される2つの相関手法を解説します:Pearsonの積率相関係数(連続変数間の線形関係用)とSpearmanの順位相関係数(単調関係または順序データ用)。適切な方法の選択方法、仮定の確認方法、相関係数の計算方法、そして結果を自信を持って解釈する方法を学びます。
相関分析を使用すべき場面
相関分析は以下の場合に適しています:
- 2つの変数間の関係の強さと方向を測定したい場合。
- 両方の変数が少なくとも順序尺度(Spearman)または間隔尺度/比率尺度(Pearson)で測定されている場合。
- 予測ではなく関連性に興味がある場合(予測には回帰分析を使用してください)。
Pearson vs. Spearman:どちらを選ぶべきか?
| 特徴 | Pearson(r) | Spearman(rs) | |------|----------------|-----------------| | データの種類 | 連続変数(間隔/比率尺度) | 順序データまたは連続変数 | | 関係の種類 | 線形 | 単調(線形または非線形) | | 外れ値の影響 | 受けやすい | 受けにくい | | 仮定 | 正規性、線形性 | 正規性は不要 |
経験則: まずPearsonを試みてください。データが正規性や線形性の仮定に違反している場合、または順序データの場合は、Spearmanに切り替えてください。
パート1:Pearson相関
ステップ1:仮説を立てる
例題シナリオ: ある研究者が、12名の大学生における週あたりの学習時間と試験スコアの間に線形関係があるかどうかを調べたいと考えています。
- H0: 学習時間と試験スコアの間に線形関係はない(rho = 0)。
- H1: 学習時間と試験スコアの間に線形関係がある(rho ≠ 0)。
ステップ2:データを収集し整理する
| 学生 | 学習時間(X) | 試験スコア(Y) | |------|-------------|---------------| | 1 | 4 | 58 | | 2 | 8 | 72 | | 3 | 6 | 65 | | 4 | 12 | 85 | | 5 | 2 | 50 | | 6 | 10 | 80 | | 7 | 7 | 70 | | 8 | 15 | 92 | | 9 | 5 | 62 | | 10 | 9 | 75 | | 11 | 3 | 55 | | 12 | 11 | 82 |
ステップ3:仮定を確認する
1. 線形性
XとYの散布図を作成します。データ点がほぼ線形のパターンに従っているはずです。このデータでは、学習時間と試験スコアの間に明確な線形傾向が見られます。
2. 正規性
両変数がほぼ正規分布に従うこと。n = 12の場合、Shapiro-Wilk検定やQ-Qプロットで確認できます。Pearsonの r は、n > 10の場合、正規性からの軽度の逸脱に対して比較的頑健です。
3. 著しい外れ値がないこと
極端な値はPearsonの r に大きな影響を与える可能性があります。散布図を調べて、一般的なパターンから大きく離れた点がないか確認してください。このデータには重大な外れ値は見られません。
4. 等分散性
Yの変動性がXのすべての値にわたってほぼ一定であること。これは散布図から視覚的に評価できます。
ステップ4:Pearson相関係数を計算する
Pearsonの r の公式は以下のとおりです:
r = [N * sum(XY) - sum(X) * sum(Y)] / sqrt([N * sum(X^2) - (sum(X))^2] * [N * sum(Y^2) - (sum(Y))^2])
データから必要な合計を計算します:
- N = 12
- sum(X) = 92
- sum(Y) = 846
- sum(XY) = 7,071
- sum(X^2) = 854
- sum(Y^2) = 61,440
値を代入すると:
- 分子:12 * 7,071 - 92 * 846 = 84,852 - 77,832 = 7,020
- 分母:sqrt[(12 * 854 - 92^2) * (12 * 61,440 - 846^2)]
- = sqrt[(10,248 - 8,464) * (737,280 - 715,716)]
- = sqrt[1,784 * 21,564]
- = sqrt[38,470,176]
- = 6,202.4
r = 7,020 / 6,202.4 = 0.987
ステップ5:統計的有意性を検定する
r がゼロと異なるかどうかを検定するt統計量は:
t = r * sqrt(N - 2) / sqrt(1 - r^2)
- t = 0.987 * sqrt(10) / sqrt(1 - 0.974)
- t = 0.987 * 3.162 / sqrt(0.026)
- t = 3.121 / 0.161
- t = 19.38
df = N - 2 = 10で、p < .001 です。
ステップ6:決定係数を計算する
r^2 = 0.987^2 = 0.974
これは、試験スコアの分散の97.4%が学習時間との線形関係によって説明できることを意味します。
ステップ7:結果を解釈する
週あたりの学習時間と試験スコアの間に、非常に強い正の相関が認められました。r(10) = .99, p < .001。学習時間が増加すると、試験スコアも比例して増加しました。決定係数(r^2 = .97)は、学習時間が試験スコアの変動の約97%を説明することを示しています。
パート2:Spearman順位相関
ステップ1:Spearmanを使用すべき場面
Spearmanの順位相関は以下の場合に適しています:
- データが順序データ(順位データ)である場合。
- 関係は単調であるが、必ずしも線形ではない場合。
- Pearsonの r の正規性の仮定が違反されている場合。
- 除去したくない外れ値がある場合。
ステップ2:例題データ
シナリオ: あるマネージャーが10名の従業員のリーダーシップスキルと仕事のパフォーマンスの両方に順位を付けています。
| 従業員 | リーダーシップ順位(X) | パフォーマンス順位(Y) | |--------|----------------------|----------------------| | A | 1 | 2 | | B | 2 | 1 | | C | 3 | 4 | | D | 4 | 3 | | E | 5 | 5 | | F | 6 | 8 | | G | 7 | 6 | | H | 8 | 7 | | I | 9 | 10 | | J | 10 | 9 |
ステップ3:順位差を計算する
| 従業員 | 順位X | 順位Y | d = X - Y | d^2 | |--------|-------|-------|-----------|-----| | A | 1 | 2 | -1 | 1 | | B | 2 | 1 | 1 | 1 | | C | 3 | 4 | -1 | 1 | | D | 4 | 3 | 1 | 1 | | E | 5 | 5 | 0 | 0 | | F | 6 | 8 | -2 | 4 | | G | 7 | 6 | 1 | 1 | | H | 8 | 7 | 1 | 1 | | I | 9 | 10 | -1 | 1 | | J | 10 | 9 | 1 | 1 |
sum(d^2) = 12
ステップ4:Spearmanの rs を計算する
rs = 1 - (6 * sum(d^2)) / (N * (N^2 - 1))
rs = 1 - (6 * 12) / (10 * 99) = 1 - 72 / 990 = 1 - 0.073 = 0.927
ステップ5:有意性を検定する
N = 10の場合、t検定近似を使用できます:
t = rs * sqrt(N - 2) / sqrt(1 - rs^2) = 0.927 * sqrt(8) / sqrt(1 - 0.859) = 0.927 * 2.828 / 0.375 = 6.99
df = 8で、p < .001 です。
ステップ6:結果を解釈する
リーダーシップスキルの順位と仕事のパフォーマンスの順位の間に、強い正の相関が認められました。rs(8) = .93, p < .001。リーダーシップの順位が高い従業員は、仕事のパフォーマンスの順位も高い傾向がありました。
相関の強さの解釈
相関係数の絶対値を解釈するための一般的な基準は以下のとおりです:
| |r| の範囲 | 解釈 | |-------------|------| | 0.00 - 0.09 | ごくわずか | | 0.10 - 0.29 | 小(弱い) | | 0.30 - 0.49 | 中(中程度) | | 0.50 - 0.69 | 大(強い) | | 0.70 - 1.00 | 非常に大きい(非常に強い) |
これらはあくまで目安です。相関の実質的な意義は研究の文脈に依存します。
よくある間違いと注意点
-
因果関係の推定:相関は因果関係を意味しません。XとYの間に強い相関があっても、XがYの原因であるとは限りません。両方を駆動する交絡変数が存在する可能性があります。
-
非線形関係の無視:Pearsonの r は線形関係のみを捉えます。強い曲線的関係があっても、低い r 値が得られる可能性があります。常に散布図を確認してください。
-
範囲の制限:標本が一方の変数の狭い範囲のみを含む場合、相関は人為的に弱められます。標本が関心のある範囲全体をカバーするようにしてください。
-
外れ値の影響:1つの極端なデータ点がPearsonの r を劇的に膨張または縮小させることがあります。正当な理由がある場合は、Spearmanの相関を使用するか外れ値を除去してください。
-
r と r^2 の混同:r = .50の相関はr^2 = .25を意味し、共有される分散は25%に過ぎません。相関係数自体が関連の強さを過大評価する場合があります。
-
多重比較:多数の相関を実行すると、偽の有意な結果を見つけるリスクが増加します。複数の相関を検定する場合はBonferroni補正などを適用してください。
よくある質問
相関分析に必要な標本サイズはどれくらいですか?
一般的に20〜30の観測数が推奨されます。中程度の効果(r = .30)を検出力80%、有意水準.05で検出するには、約84名の参加者が必要です。予想される効果量に応じた正確な標本サイズを決定するには、検定力分析を使用してください。
二値変数と連続変数の相関を求めることはできますか?
はい。これは点双列相関と呼ばれ、一方の変数が二値(0/1)で他方が連続変数の場合のPearsonの r と数学的に等価です。
相関が有意だが非常に小さい場合はどうすればよいですか?
統計的に有意だが小さな相関(例:大標本でr = .10)は、実質的に意味がない場合があります。相関係数を報告し、読者がその重要性を文脈の中で判断できるようにしてください。p値だけでなく、効果量(r またはr^2)に注目してください。
欠測データはどのように扱いますか?
一般的なアプローチには、ペアワイズ削除(変数の各ペアについて利用可能なすべてのデータを使用)とリストワイズ削除(欠測値のあるケースをすべて除去)があります。多重代入法は、欠測データを扱うためのより精緻な方法です。
相関と回帰の違いは何ですか?
相関は2つの変数間の線形関係の強さと方向を測定します。回帰はさらに進んで、一方の変数から他方を予測できる方程式で関係をモデル化します。XとYに相関がある場合、回帰を使用してXの特定の値からYを推定できます。
StatMateで相関分析を実行する
StatMateの相関計算機は、PearsonおよびSpearman相関係数を即座に計算します。対になったデータを入力すると、StatMateが相関係数、p値、信頼区間、決定係数、インタラクティブな散布図を生成します。また、仮定の確認を実行し、外れ値や非線形性などの潜在的な問題を警告します。