p값만으로는 왜 부족한가?
학술 논문에서 "통계적으로 유의하다(p < .05)"라는 문장은 가장 자주 등장하는 표현 중 하나입니다. 하지만 p 값은 효과가 존재하는지 여부만 알려줄 뿐, 그 효과가 얼마나 큰지는 말해 주지 않습니다.
예를 들어, 10,000명을 대상으로 한 연구에서 두 집단의 평균 차이가 0.3점에 불과하더라도 p < .001이 나올 수 있습니다. 반대로 30명을 대상으로 한 연구에서 두 집단의 평균 차이가 15점이나 되더라도 p = .08이 나올 수 있습니다. 표본 크기가 커지면 아무리 작은 차이도 통계적으로 유의해지기 때문입니다.
이것이 바로 **효과크기(effect size)**가 필요한 이유입니다. 효과크기는 표본 크기에 덜 영향을 받으면서 효과의 실질적 크기를 수량화합니다. APA 7판에서는 모든 통계 검정에 효과크기를 함께 보고하도록 권장하고 있으며, 많은 학술지에서 이를 필수로 요구합니다.
이 글에서는 연구에서 가장 많이 사용되는 효과크기 지표를 하나씩 살펴보고, 각각의 해석 기준과 APA 형식 보고 방법을 구체적인 예시와 함께 안내합니다.
Cohen's d — 두 집단 평균 차이의 효과크기
언제 사용하는가
Cohen's d는 두 집단의 평균 차이를 표준편차 단위로 나타낸 값입니다. 독립표본 t-검정이나 대응표본 t-검정 결과를 보고할 때 가장 널리 사용되는 효과크기입니다.
계산 원리
Cohen's d는 두 집단의 평균 차이를 통합 표준편차(pooled standard deviation)로 나눈 값입니다. 값이 클수록 두 집단 간의 차이가 크다는 의미입니다.
해석 기준
Cohen(1988)이 제안한 해석 기준은 다음과 같습니다.
| Cohen's d | 해석 | 실질적 의미 | |-------------|------|-----------| | 0.20 | 작은 효과 (small) | 주의 깊게 봐야 차이를 알 수 있는 수준 | | 0.50 | 중간 효과 (medium) | 눈에 보이는 차이 | | 0.80 | 큰 효과 (large) | 누구나 알 수 있는 뚜렷한 차이 |
d = 0.50이라면 두 집단의 분포가 약 67% 겹치고, d = 0.80이라면 약 53% 겹친다고 이해할 수 있습니다.
APA 7판 보고 예시
독립표본 t-검정:
독립표본 t-검정 결과, 실험집단(M = 82.40, SD = 10.25)이 통제집단(M = 74.60, SD = 11.30)보다 사후 검사 점수가 통계적으로 유의하게 높았다, t(58) = 2.89, p = .005, d = 0.75.
대응표본 t-검정:
대응표본 t-검정 결과, 중재 후 우울 점수(M = 18.30, SD = 5.40)가 중재 전(M = 24.10, SD = 6.20)에 비해 통계적으로 유의하게 감소하였다, t(34) = 4.52, p < .001, d = 0.76.
두 경우 모두 d 값에는 앞의 0을 포함하여 보고합니다. Cohen's d는 1을 초과할 수 있는 값이기 때문입니다.
η² / partial η² — 분산분석(ANOVA)의 효과크기
언제 사용하는가
에타제곱(η², eta squared)과 부분 에타제곱(partial η²)은 분산분석(ANOVA) 결과를 보고할 때 사용하는 효과크기입니다. 종속변수의 전체 변동 중 독립변수가 설명하는 비율을 나타냅니다.
η²와 partial η²의 차이
이 두 지표의 차이를 정확히 이해하는 것이 중요합니다.
- η²(에타제곱): 종속변수의 전체 변동 중 해당 요인이 설명하는 비율. 모든 요인의 η² 합이 1을 초과하지 않습니다.
- partial η²(부분 에타제곱): 다른 요인의 효과를 제거한 나머지 변동 중 해당 요인이 설명하는 비율. 여러 요인이 있을 때 각 요인의 partial η² 합이 1을 초과할 수 있습니다.
일원배치 ANOVA(요인이 하나)에서는 η²와 partial η²가 동일하지만, 이원배치 이상의 ANOVA에서는 두 값이 달라집니다. 현재 대부분의 통계 소프트웨어(SPSS 포함)는 partial η²를 기본으로 출력하며, 학술지에서도 partial η²를 더 많이 사용합니다.
해석 기준
Cohen(1988)이 제시한 η²의 해석 기준은 다음과 같습니다. partial η²도 동일한 기준을 적용합니다.
| η² / partial η² | 해석 | |-----------------|------| | .01 | 작은 효과 (small) | | .06 | 중간 효과 (medium) | | .14 | 큰 효과 (large) |
예를 들어, partial η² = .10이라면 다른 요인을 통제했을 때 해당 독립변수가 종속변수 변동의 10%를 설명한다는 의미입니다.
APA 7판 보고 예시
일원배치 ANOVA:
일원배치 분산분석 결과, 교수법에 따른 학업 성취도에 통계적으로 유의한 차이가 있었다, F(2, 87) = 5.34, p = .007, η² = .11.
이원배치 ANOVA(상호작용 효과 포함):
이원배치 분산분석 결과, 교수법과 성별의 상호작용 효과가 통계적으로 유의하였다, F(2, 84) = 3.92, p = .024, partial η² = .09.
η²와 partial η²는 1을 초과할 수 없는 비율이므로, p 값과 마찬가지로 앞의 0을 생략하여 보고합니다(.11, .09 등).
r / R² — 상관분석과 회귀분석의 효과크기
언제 사용하는가
Pearson 상관계수 r은 두 연속형 변수 간의 선형 관계의 강도와 방향을 나타냅니다. 상관계수 자체가 효과크기 역할을 합니다. 회귀분석에서는 결정계수 R²가 모형이 설명하는 변동 비율을 나타내며 효과크기로 사용됩니다.
해석 기준
| r (절댓값) | 해석 | |-------------|------| | .10 | 작은 효과 (small) | | .30 | 중간 효과 (medium) | | .50 | 큰 효과 (large) |
R²는 r의 제곱이므로, r = .30일 때 R² = .09(약 9% 설명력)입니다.
| R² | 해석 | |------|------| | .01 | 작은 효과 | | .09 | 중간 효과 | | .25 | 큰 효과 |
APA 7판 보고 예시
상관분석:
학습 시간과 시험 점수 간에 통계적으로 유의한 정적 상관이 있었다, r(48) = .42, p = .003.
회귀분석:
회귀모형은 통계적으로 유의하였으며, F(2, 97) = 18.45, p < .001, 학습 시간과 출석률이 시험 점수 변동의 27.5%를 설명하였다, R² = .28, adjusted R² = .26.
상관계수 r과 결정계수 R²는 모두 1을 초과할 수 없으므로 앞의 0을 생략하여 보고합니다.
Cramér's V — 카이제곱 검정의 효과크기
언제 사용하는가
Cramér's V는 카이제곱 독립성 검정에서 두 범주형 변수 간의 연관성 강도를 나타내는 효과크기입니다. 2x2 교차표에서는 파이 계수(φ)와 동일하지만, 더 큰 교차표에서도 사용할 수 있어 범용성이 높습니다.
해석 기준
Cramér's V의 해석 기준은 자유도(df)에 따라 달라집니다. 아래는 df* = 1(2x2 표)일 때의 기준입니다.
| Cramér's V (df* = 1) | 해석 | |------------------------|------| | .10 | 작은 효과 (small) | | .30 | 중간 효과 (medium) | | .50 | 큰 효과 (large) |
여기서 df는 교차표의 (행 수 - 1)과 (열 수 - 1) 중 작은 값입니다. df가 커지면 기준값이 낮아지므로 주의가 필요합니다.
APA 7판 보고 예시
카이제곱 독립성 검정 결과, 성별과 전공 선택 간에 통계적으로 유의한 연관성이 있었다, χ²(2, N = 200) = 12.56, p = .002, V = .25.
효과크기 종합 비교표
아래 표는 주요 효과크기 지표를 한눈에 비교한 것입니다.
| 통계 검정 | 효과크기 지표 | 작은 효과 | 중간 효과 | 큰 효과 | |----------|-------------|----------|----------|---------| | t-검정 | Cohen's d | 0.20 | 0.50 | 0.80 | | ANOVA | η² / partial η² | .01 | .06 | .14 | | 상관분석 | r | .10 | .30 | .50 | | 회귀분석 | R² | .01 | .09 | .25 | | 카이제곱 검정 | Cramér's V | .10 | .30 | .50 |
중요: 이 기준값은 Cohen이 제시한 일반적 지침이지 절대적 기준이 아닙니다. 연구 분야에 따라 "작은 효과"도 매우 중요할 수 있습니다. 예를 들어, 의학 연구에서 d = 0.20의 치료 효과는 수천 명의 환자에게 영향을 미칠 수 있습니다. 항상 연구 맥락을 고려하여 효과크기를 해석하세요.
흔한 실수와 주의사항
1. η²와 partial η²를 혼동하여 보고
가장 빈번한 실수입니다. SPSS는 기본적으로 partial η²를 출력하면서 레이블에 "Partial Eta Squared"라고 표시합니다. 그런데 이를 논문에서 η²로 잘못 보고하는 경우가 매우 많습니다. 이원배치 이상의 ANOVA에서는 두 값이 다르므로, 자신이 보고하는 값이 η²인지 partial η²인지 반드시 명시해야 합니다. 특히 partial η²는 기호 앞에 "partial"을 붙여 partial η²로 쓰거나, ηp²로 표기합니다.
2. 유의성만 보고하고 효과크기 누락
"통계적으로 유의하였다(p < .05)"로만 결과를 보고하는 것은 APA 7판 기준에 부합하지 않습니다. 유의한 결과든 유의하지 않은 결과든 반드시 효과크기를 함께 보고해야 합니다. 유의하지 않은 결과에서도 효과크기를 보고하면 후속 연구의 검정력 분석이나 메타분석에 유용한 정보를 제공합니다.
3. 효과크기 해석 기준의 기계적 적용
Cohen의 기준(작은/중간/큰)을 모든 연구에 기계적으로 적용하는 것은 바람직하지 않습니다. Cohen 자신도 이 기준이 "구체적인 맥락이 없을 때의 일반적 참조"라고 밝힌 바 있습니다. 자신의 연구 분야에서 축적된 선행 연구의 효과크기와 비교하여 해석하는 것이 더 적절합니다.
4. 효과크기에 앞의 0을 잘못 처리
앞서 설명했듯이, APA 형식에서 1을 초과할 수 없는 값(p, r, η², R², V)에는 앞의 0을 생략하고, 1을 초과할 수 있는 값(Cohen's d, M, SD)에는 앞의 0을 포함합니다. 이 규칙을 혼동하는 실수가 자주 발생합니다.
5. 카이제곱 검정에서 효과크기 미보고
카이제곱 검정 결과를 보고할 때 χ² 값과 p 값만 보고하고 Cramér's V를 빠뜨리는 경우가 많습니다. 범주형 데이터 분석에서도 효과크기는 반드시 포함해야 합니다.
StatMate로 효과크기를 자동으로 계산하기
StatMate의 각 통계 계산기는 검정 결과와 함께 효과크기를 자동으로 계산합니다.
- t-검정 계산기: Cohen's d와 95% 신뢰구간을 자동 산출
- ANOVA 계산기: η²와 partial η²를 모두 제공
- 상관분석 계산기: r과 R²를 함께 출력
- 카이제곱 계산기: Cramér's V를 자동 계산
모든 결과는 APA 7판 형식에 맞게 출력되므로, 효과크기 공식을 직접 계산하거나 보고 형식을 고민할 필요 없이 바로 논문에 활용할 수 있습니다. 수기 계산에서 발생하기 쉬운 오류를 방지하고, 논문 작성 시간을 크게 절약해 보세요.
마무리
효과크기는 연구 결과의 실질적 의미를 전달하는 핵심 지표입니다. p 값이 통계적 유의성을 판단하는 도구라면, 효과크기는 그 결과가 현실에서 얼마나 의미 있는 차이인지를 보여 줍니다. 이 글에서 소개한 Cohen's d, η²/partial η², r/R², Cramér's V의 해석 기준과 APA 보고 형식을 숙지하면, 어떤 통계 검정을 사용하든 효과크기를 정확하게 보고할 수 있을 것입니다. 유의성과 효과크기를 함께 보고하는 것이 신뢰할 수 있는 연구 결과의 완성입니다.