두 변수 간의 Pearson r 또는 Spearman rho를 계산합니다. 산점도, p값, APA 형식 결과를 제공합니다.
상관분석은 두 변수 간 관계의 강도와 방향을 정량화하는 통계적 측정 방법입니다. 상관계수는 -1(완벽한 음의 관계)에서 +1(완벽한 양의 관계)까지의 범위를 가지며, 0은 선형 관계가 없음을 나타냅니다. 상관분석은 심리학, 교육학, 의학, 경제학, 사회과학에서 가장 널리 사용되는 기법 중 하나입니다.
상관의 개념은 Sir Francis Galton이 1880년대에 유전과 평균으로의 회귀에 대한 연구에서 개척했습니다. 그의 연구는 Karl Pearson에 의해 체계화되었으며, 1896년에 오늘날까지 사용되는 수학적 기반인 적률상관계수(Pearson의 r)를 개발했습니다. 1904년에는 Charles Spearman이 서열 데이터와 단조 관계를 위한 비모수적 대안인 순위상관계수(Spearman의 rho)를 도입했습니다. 이 두 측정치가 현대 이변량 상관분석의 근간을 이루고 있습니다.
Pearson의 r은 두 연속형 변수 간의 선형 관계의 강도를 측정합니다. 두 변수의 공분산을 각 표준편차의 곱으로 나누어 계산됩니다. 두 변수가 모두 등간 또는 비율 척도로 측정되고, 관계가 대략 선형이며, 데이터가 대략 정규분포를 따를 때 Pearson을 사용합니다.
Spearman의 rho(rs)는 원시 값 대신 순위를 사용하여 두 변수 간의 단조 관계를 평가하는 비모수적 측정치입니다. 데이터가 서열형(예: 리커트 척도)이거나, 관계가 단조적이지만 반드시 선형이 아닌 경우, 또는 이상값이 우려되는 경우 Spearman을 사용합니다. 순위를 기반으로 하기 때문에 Spearman의 rho는 Pearson의 r보다 극단값에 더 강건합니다.
심리학 교수가 주간 학습 시간이 시험 성적을 예측하는지 알아보기 위해 10명의 학생 데이터를 수집했습니다. 각 학생은 평균 주간 학습 시간을 보고하고, 기말시험 점수(100점 만점)가 기록되었습니다.
학습 시간 (X)
2, 4, 6, 8, 10, 12, 14, 16, 18, 20
M = 11.00, SD = 6.06
시험 점수 (Y)
52, 58, 61, 68, 72, 78, 81, 85, 90, 95
M = 74.00, SD = 14.23
산점도 설명
10개의 데이터 포인트를 그래프에 표시하면 뚜렷한 상승 추세를 볼 수 있습니다: 학습 시간이 2시간에서 20시간으로 증가함에 따라 시험 점수가 52점에서 95점으로 상승합니다. 데이터 포인트들은 상향 회귀선 주위에 밀집되어 있어, 산포가 적은 강한 양의 선형 관계를 나타냅니다.
결과
r(8) = .85, p < .001, 95% CI [.50, .96]
주간 학습 시간과 시험 점수 간에 강한 양의 상관이 나타났습니다. 주당 더 많은 시간을 공부한 학생들이 기말시험에서 상당히 높은 점수를 받는 경향을 보였습니다. 결정계수(r2 = .72)는 학습 시간이 시험 점수 분산의 약 72%를 설명함을 나타냅니다.
올바른 상관 방법을 선택하는 것은 데이터 유형, 분포, 그리고 예상되는 관계의 성격에 따라 달라집니다. 다음은 결정을 돕기 위한 나란히 놓은 비교표입니다:
| 특성 | Pearson r | Spearman rs |
|---|---|---|
| 유형 | 모수적 | 비모수적 |
| 데이터 수준 | 등간 / 비율 | 서열 / 등간 / 비율 |
| 탐지 관계 | 선형만 | 모든 단조 관계 |
| 정규성 필요 | 예 (이변량 정규성) | 아니오 |
| 이상값 민감도 | 예, 매우 민감 | 더 강건 |
| 적합한 경우 | 연속형, 정규분포 데이터 | 순위 데이터, 비정규 분포, 서열 척도 |
| 사용 예시 | 키 vs. 체중 | 고객 만족도(1-5) vs. 재구매 빈도 |
상관계수의 절대값은 관계의 강도를 나타냅니다. 맥락이 중요하고 분야마다 기준이 다르지만, 다음 가이드라인(Evans, 1996 기반)은 일반적인 틀을 제공합니다:
| |r| 값 | 강도 | 해석 |
|---|---|---|
| .00 – .19 | 무시할 수준 | 무시할 만한 관계; 실질적 예측 가치 없음 |
| .20 – .39 | 약한 | 작지만 잠재적으로 의미 있는 관계 |
| .40 – .59 | 보통 | 눈에 띄는 관계로 의미 있는 예측력 보유 |
| .60 – .79 | 강한 | 실질적인 관계; 좋은 예측 정확도 |
| .80 – 1.00 | 매우 강한 | 거의 완벽한 관계; 우수한 예측 정확도 |
참고: 이 기준은 양의 상관과 음의 상관 모두에 동일하게 적용됩니다. r = -.85는 r = +.85와 동일한 강도이며, 방향만 다릅니다.
상관 결과를 해석하기 전에 다음 가정들이 충족되었는지 확인하세요:
1. 연속형 데이터
Pearson의 r을 사용하려면 두 변수 모두 연속 척도(등간 또는 비율)로 측정되어야 합니다. 어느 한 변수라도 서열형(예: 리커트형 평정, 석차)인 경우, 순위를 기반으로 하며 연속형 측정을 필요로 하지 않는 Spearman의 rho를 사용하세요.
2. 선형성
Pearson의 r은 두 변수 간 선형 관계를 가정합니다. 항상 먼저 산점도를 확인하세요. 관계가 곡선형(예: U자형 또는 로그형)인 경우, Pearson의 r은 실제 연관성의 강도를 과소평가합니다. 이러한 경우 Spearman의 rho나 비선형 변환을 고려하세요.
3. 이변량 정규성 (Pearson만 해당)
Pearson의 r은 두 변수 모두 대략 정규분포를 따른다고 가정합니다. 이 가정은 주로 유의성 검정과 신뢰구간에 중요합니다. 표본 크기가 30 이상이면 중간 정도의 위반에도 검정은 상당히 강건합니다. 비정규 데이터의 경우 Spearman의 rho를 대신 사용하세요.
4. 이상값 없음
이상값은 Pearson의 r을 극적으로 높이거나 낮출 수 있습니다. 단 하나의 극단적 데이터 포인트가 상관을 거의 0에서 강한 수준으로 (또는 그 반대로) 이동시킬 수 있습니다. 항상 산점도로 데이터를 시각화하여 이상값을 확인하세요. 이상값이 있는 경우, 근거를 들어 제거하거나 Spearman의 rho로 전환하는 것을 고려하세요.
통계학에서 가장 중요한 원칙 중 하나는 상관이 인과를 의미하지 않는다는 것입니다. 두 변수 간의 강한 상관은 그들이 함께 변하는 경향이 있음을 의미하지만, 한 변수가 다른 변수의 변화를 야기한다는 것을 증명하지는 않습니다.
관측된 상관에 대해 세 가지 가능한 설명이 있습니다:
고전적 예시: 아이스크림 판매량과 익사 사망 건수는 강한 양의 상관관계가 있습니다. 아이스크림이 익사를 유발할까요? 물론 아닙니다. 혼입변수는 기온입니다—더운 날씨가 아이스크림 소비와 수영 활동을 모두 증가시켜 익사 사고가 더 많아집니다. 기온을 통제하지 않으면 아이스크림과 익사 간에 인과 관계가 있다고 잘못된 결론을 내리게 됩니다.
인과 관계를 확립하려면 무작위 배정을 포함한 잘 설계된 실험 연구나 도구변수, 회귀불연속설계, 이중차분법 등의 고급 기법이 필요합니다.
APA 7판 지침에 따르면, 상관 결과 보고에는 상관계수, 자유도(N - 2), p-값, 그리고 가능하면 95% 신뢰구간이 포함되어야 합니다. 다음은 실제 수치가 포함된 템플릿입니다:
Pearson 상관
주간 학습 시간과 시험 점수 간의 관계를 평가하기 위해 Pearson 상관분석을 실시하였다. 두 변수 간에 강한 양의 상관이 나타났다, r(8) = .85, p < .001, 95% CI [.50, .96]. 주당 더 많은 시간을 공부한 학생들이 더 높은 시험 점수를 받는 경향이 있었다.
Spearman 상관
고객 만족도 평점과 재구매 빈도 간의 관계를 평가하기 위해 Spearman 순위상관분석을 실시하였다. 보통 수준의 양의 상관이 나타났다, rs(48) = .52, p < .001. 더 높은 만족도를 보고한 고객들이 더 자주 재구매하는 경향이 있었다.
참고: 상관계수는 앞에 0을 붙이지 않고 소수점 둘째 자리까지 보고합니다 (예: 0.87이 아닌 .87). p-값은 소수점 셋째 자리까지 보고하되, .001 미만인 경우 p < .001로 표기합니다. 상관의 자유도는 N - 2입니다.
StatMate의 상관 계산은 R의 cor.test() 함수로 검증되었습니다. Pearson의 r은 표준 적률 공식을, Spearman의 rho는 순위 값을 사용하여 계산합니다. 유의성 검정은 N - 2 자유도의 t-분포를 사용합니다. Pearson의 r에 대한 95% 신뢰구간은 Fisher의 z-변환을 통해 계산됩니다. 모든 결과는 R 출력과 소수점 넷째 자리까지 일치합니다.
T-검정
두 집단의 평균 비교
분산분석
3개 이상 집단의 평균 비교
카이제곱
범주형 변수의 연관성 검정
기술통계
데이터 요약
표본 크기
검정력 분석 및 표본 계획
일표본 T
알려진 값과 비교
Mann-Whitney U
비모수 집단 비교
Wilcoxon
비모수 대응표본 검정
회귀분석
X-Y 관계 모델링
다중회귀
다중 예측변수 분석
Cronbach's Alpha
척도 신뢰도 분석
로지스틱 회귀
이항 결과 예측
요인분석
잠재 요인 구조 탐색
Kruskal-Wallis
비모수 3개 이상 집단 비교
반복측정
피험자 내 분산분석
이원배치 분산분석
요인설계 분석
Friedman 검정
비모수 반복측정
Fisher 정확검정
2×2 분할표 정확 검정
McNemar 검정
대응 명목 데이터 검정
Excel/Sheets에서 붙여넣기 또는 CSV 파일 드래그
Excel/Sheets에서 붙여넣기 또는 CSV 파일 드래그
데이터를 입력하고 계산을 클릭하세요
또는 "예시 데이터"를 클릭해 사용해보세요