데이터에 선형 모형을 적합합니다. R², F검정, 회귀계수, 산점도, APA 형식 결과를 제공합니다.
단순선형회귀(Simple Linear Regression)는 하나의 독립변수(X)와 종속변수(Y) 간의 관계를 관측된 데이터에 직선을 적합시켜 모형화하는 통계 방법입니다. 회귀 방정식은 ŷ = b₀ + b₁x 형태를 취하며, b₀은 y절편이고 b₁은 회귀선의 기울기입니다. 이 방법은 최소제곱법(OLS)을 사용하여 모수를 추정하며, 관측값과 예측값 간 차이의 제곱합을 최소화합니다.
회귀분석은 1880년대 Francis Galton 경이 유전적 신장에 관한 연구에서 개척했으며, 자녀의 키가 모집단 평균으로 "회귀"하는 경향을 관찰한 것에서 유래했습니다. 이후 Karl Pearson과 Ronald Fisher가 현대 회귀분석에서 사용되는 추론통계(F-검정, 계수에 대한 t-검정)의 수학적 체계를 정립했습니다. 오늘날 단순선형회귀는 통계학에서 가장 기본적인 도구 중 하나로, 다중회귀, 분산분석(ANOVA), 그리고 많은 기계학습 알고리즘의 기초가 됩니다.
기울기 (b₁)
기울기는 X가 1단위 증가할 때 Y의 예상 변화량을 나타냅니다. 양의 기울기는 양의 관계(X 증가 시 Y 증가)를, 음의 기울기는 역의 관계를 나타냅니다. 기울기의 유의성은 자유도 n - 2인 t-검정으로 검정합니다.
절편 (b₀)
절편은 X가 0일 때 Y의 예측값입니다. 많은 실제 상황에서 X = 0이 의미가 없을 수 있으므로 (예: 키로 체중을 예측하는 경우), 절편은 신중하게 해석해야 합니다. 절편의 주된 역할은 회귀선을 올바른 위치에 놓는 것입니다.
추정의 표준오차
추정의 표준오차(SEE)는 관측값과 회귀선 사이의 평균 거리를 측정합니다. 값이 작을수록 데이터 포인트가 회귀선 주위에 더 밀집해 있음을 나타내며, 예측 정확도가 더 높음을 시사합니다.
R²는 독립변수에 의해 설명되는 종속변수 분산의 비율을 나타냅니다. 0에서 1 사이의 값을 가지며, 0은 모형이 변동성을 전혀 설명하지 못함을, 1은 모든 변동성을 설명함을 의미합니다. 조정된 R²는 예측변수의 수를 고려하며, 모형 간 비교 시 특히 유용합니다.
| R² 값 | 해석 | 실질적 의미 |
|---|---|---|
| < 0.10 | 매우 약한 | 모형이 분산을 거의 설명하지 못함; X는 약한 예측변수 |
| 0.10 – 0.30 | 약한 | 작지만 잠재적으로 의미 있는 예측력 |
| 0.30 – 0.50 | 보통 | 의미 있는 예측; 많은 사회과학 연구에서 유용 |
| 0.50 – 0.70 | 강한 | 상당한 예측 정확도; 좋은 모형 적합도 |
| > 0.70 | 매우 강한 | 우수한 모형 적합도; X는 Y의 강력한 예측변수 |
참고: 이 기준은 일반적인 지침입니다. 물리학이나 공학 분야에서는 R² 값이 0.90 이상인 경우가 흔합니다. 심리학과 사회과학에서는 R² 값이 0.20–0.40이면 의미 있는 수준으로 간주되는 경우가 많습니다.
한 연구자가 대학생 10명을 대상으로 학습시간이 시험 성적을 예측하는지 조사합니다.
학습시간 (X)
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
시험점수 (Y)
2.1, 4.0, 5.8, 8.2, 9.8, 12.1, 14.0, 15.9, 18.2, 19.8
결과
F(1, 8) = 2854.88, p < .001, R² = .997
ŷ = 0.04 + 1.97x
모형은 통계적으로 유의하며 시험 점수 분산의 99.7%를 설명합니다. 학습시간이 1시간 추가될 때마다 예측 시험 점수는 약 1.97점 증가합니다.
회귀 결과를 해석하기 전에, 다음 가정들이 충족되는지 확인해야 합니다. 가정을 위반하면 편향된 추정치, 부정확한 표준오차, 유효하지 않은 추론을 초래할 수 있습니다.
1. 선형성
X와 Y 사이의 관계는 선형이어야 합니다. 데이터의 산점도를 확인하고, 관계가 곡선형(예: 이차, 로그)이면 변수 변환이나 다항 회귀를 고려하십시오. 잔차 그림에서 0 주변으로 무작위 분산을 보이면 선형성을 지지합니다.
2. 오차의 독립성
잔차(오차)는 서로 독립적이어야 합니다. 이는 연속 관측치가 상관될 수 있는 시계열 데이터에서 특히 중요합니다 (자기상관). Durbin-Watson 검정으로 자기상관을 탐지할 수 있으며, 값이 2에 가까우면 자기상관이 없음을 나타냅니다.
3. 잔차의 정규성
잔차는 근사적으로 정규분포를 따라야 합니다. 이 가정은 가설검정과 신뢰구간 구성에 중요합니다. Q-Q 도표나 Shapiro-Wilk 검정으로 정규성을 확인하십시오. 큰 표본(n > 30)에서는 중심극한정리에 의해 약간의 비정규성에도 회귀분석이 강건합니다.
4. 등분산성 (분산의 동질성)
잔차의 분산은 X의 모든 수준에서 대략 일정해야 합니다. 잔차 대 적합값 그림에서 잔차의 퍼짐이 대체로 동일해야 합니다. 퍼짐이 부채꼴 형태로 벌어지면(이분산성) 가중 최소제곱법이나 강건 표준오차의 사용을 고려하십시오.
APA 제7판 지침에 따르면, 회귀분석 결과에는 자유도가 포함된 F-통계량, p-값, R², 회귀 방정식, 개별 계수 통계량을 포함해야 합니다. 다음은 적용할 수 있는 보고 양식입니다:
단순선형회귀
학습시간으로 시험 점수를 예측하기 위해 단순선형회귀를 실시했다. 모형은 통계적으로 유의했다, F(1, 8) = 2854.88, p < .001, R² = .997. 학습시간은 시험 점수를 유의하게 예측했다, b = 1.97, t(8) = 53.43, p < .001, 95% CI [1.88, 2.05]. 학습시간이 1시간 추가될 때마다 시험 점수는 평균 1.97점 증가했다.
비유의 결과
일일 스크린 타임으로 행복 점수를 예측하기 위해 단순선형회귀를 실시했다. 모형은 통계적으로 유의하지 않았다, F(1, 48) = 1.23, p = .274, R² = .025. 스크린 타임은 행복 점수를 유의하게 예측하지 못했다, b = -0.15, t(48) = -1.11, p = .274, 95% CI [-0.42, 0.12].
참고: 회귀계수, t-값, F-값은 소수점 둘째 자리까지 보고합니다. p-값은 소수점 셋째 자리까지 보고하되, .001 미만인 경우 p < .001로 표기합니다. R²와 주요 계수의 95% 신뢰구간을 항상 포함하십시오.
| 상황 | 권장 검정 |
|---|---|
| 예측변수 1개, 연속형 결과변수 1개 | 단순선형회귀 |
| 예측변수 여러 개, 연속형 결과변수 1개 | 다중선형회귀 |
| 관계의 강도만 파악 (예측 불필요) | Pearson / Spearman 상관분석 |
| 이분형 결과변수 | 로지스틱 회귀 |
| 비선형 관계 | 다항 회귀 또는 데이터 변환 |
| 집단 평균 비교 (범주형 예측변수) | T-검정 또는 분산분석(ANOVA) |
StatMate의 회귀분석 계산은 R의 lm() 및 summary.lm() 함수와 대조하여 검증되었습니다. 표준 정규방정식을 사용하여 OLS 회귀를 계산하고, jstat 라이브러리의 확률 분포를 활용하여 F-통계량, t-통계량, 신뢰구간을 도출합니다. 모든 결과는 R 출력과 소수점 넷째 자리까지 일치합니다.
T-검정
두 집단의 평균 비교
분산분석
3개 이상 집단의 평균 비교
카이제곱
범주형 변수의 연관성 검정
상관분석
관계의 강도 측정
기술통계
데이터 요약
표본 크기
검정력 분석 및 표본 계획
일표본 T
알려진 값과 비교
Mann-Whitney U
비모수 집단 비교
Wilcoxon
비모수 대응표본 검정
다중회귀
다중 예측변수 분석
Cronbach's Alpha
척도 신뢰도 분석
로지스틱 회귀
이항 결과 예측
요인분석
잠재 요인 구조 탐색
Kruskal-Wallis
비모수 3개 이상 집단 비교
반복측정
피험자 내 분산분석
이원배치 분산분석
요인설계 분석
Friedman 검정
비모수 반복측정
Fisher 정확검정
2×2 분할표 정확 검정
McNemar 검정
대응 명목 데이터 검정
Excel/Sheets에서 붙여넣기 또는 CSV 파일 드래그
Excel/Sheets에서 붙여넣기 또는 CSV 파일 드래그
데이터를 입력하고 계산을 클릭하세요
또는 "예시 데이터"를 클릭해 사용해보세요