p값만으로는 왜 부족한가?
학술 논문에서 "통계적으로 유의하다(p < .05)"라는 문장은 가장 자주 등장하는 표현 중 하나입니다. 하지만 p 값은 효과가 존재하는지 여부만 알려줄 뿐, 그 효과가 얼마나 큰지는 말해 주지 않습니다.
예를 들어, 10,000명을 대상으로 한 연구에서 두 집단의 평균 차이가 0.3점에 불과하더라도 p < .001이 나올 수 있습니다. 반대로 30명을 대상으로 한 연구에서 두 집단의 평균 차이가 15점이나 되더라도 p = .08이 나올 수 있습니다. 표본 크기가 커지면 아무리 작은 차이도 통계적으로 유의해지기 때문입니다.
이것이 바로 **효과크기(effect size)**가 필요한 이유입니다. 효과크기는 표본 크기에 덜 영향을 받으면서 효과의 실질적 크기를 수량화합니다. APA 7판에서는 모든 통계 검정에 효과크기를 함께 보고하도록 권장하고 있으며, 많은 학술지에서 이를 필수로 요구합니다.
이 글에서는 연구에서 가장 많이 사용되는 효과크기 지표를 하나씩 살펴보고, 각각의 해석 기준과 APA 형식 보고 방법을 구체적인 예시와 함께 안내합니다.
Cohen's d — 두 집단 평균 차이의 효과크기
언제 사용하는가
Cohen's d는 두 집단의 평균 차이를 표준편차 단위로 나타낸 값입니다. 독립표본 t-검정이나 대응표본 t-검정 결과를 보고할 때 가장 널리 사용되는 효과크기입니다.
계산 원리
Cohen's d는 두 집단의 평균 차이를 통합 표준편차(pooled standard deviation)로 나눈 값입니다. 값이 클수록 두 집단 간의 차이가 크다는 의미입니다.
해석 기준
Cohen(1988)이 제안한 해석 기준은 다음과 같습니다.
| Cohen's d | 해석 | 실질적 의미 | |-------------|------|-----------| | 0.20 | 작은 효과 (small) | 주의 깊게 봐야 차이를 알 수 있는 수준 | | 0.50 | 중간 효과 (medium) | 눈에 보이는 차이 | | 0.80 | 큰 효과 (large) | 누구나 알 수 있는 뚜렷한 차이 |
d = 0.50이라면 두 집단의 분포가 약 67% 겹치고, d = 0.80이라면 약 53% 겹친다고 이해할 수 있습니다.
APA 7판 보고 예시
독립표본 t-검정:
독립표본 t-검정 결과, 실험집단(M = 82.40, SD = 10.25)이 통제집단(M = 74.60, SD = 11.30)보다 사후 검사 점수가 통계적으로 유의하게 높았다, t(58) = 2.89, p = .005, d = 0.75.
대응표본 t-검정:
대응표본 t-검정 결과, 중재 후 우울 점수(M = 18.30, SD = 5.40)가 중재 전(M = 24.10, SD = 6.20)에 비해 통계적으로 유의하게 감소하였다, t(34) = 4.52, p < .001, d = 0.76.
두 경우 모두 d 값에는 앞의 0을 포함하여 보고합니다. Cohen's d는 1을 초과할 수 있는 값이기 때문입니다.
Hedges' g — 소표본에서의 Cohen's d 보정
소표본 편향 문제
Cohen's d는 집단 비교에서 가장 널리 보고되는 효과크기이지만, 알려진 한계가 있습니다. 집단별 표본 크기가 작을 때(대략 n < 20) 모집단의 진정한 효과크기를 체계적으로 과대추정합니다. 이는 소표본에서 표본 표준편차가 모집단 표준편차를 과소추정하는 경향이 있어, 결과적으로 d 값이 부풀려지기 때문입니다.
Hedges' g의 보정 원리
Hedges' g는 Cohen's d에 보정 계수를 적용하여 이 소표본 편향을 조정합니다. 보정을 통해 효과크기 추정치가 약간 줄어들어, 모집단 효과크기에 대한 덜 편향된 추정치를 산출합니다. 표본이 작을수록 보정 폭이 커지고, 표본이 커질수록 보정은 무시할 수 있는 수준이 됩니다.
언제 사용하는가
- 집단별 참가자가 20명 미만인 연구
- 메타분석 — 다양한 표본 크기의 연구에서 효과크기를 합산할 때 비편향 추정치가 필요
- 파일럿 연구 — 본질적으로 표본 크기가 작은 예비 연구
실용적 기준
집단별 n > 30이면 Cohen's d와 Hedges' g는 거의 동일합니다(일반적으로 1% 미만 차이). 이 경우 어느 것을 보고해도 무방합니다. 집단별 n < 20이면 Hedges' g가 더 적절한 선택입니다.
APA 7판 보고 예시
독립표본 t-검정 결과, 마음챙김 집단(M = 4.20, SD = 1.15)이 통제집단(M = 5.10, SD = 1.30)보다 스트레스 수준이 통계적으로 유의하게 낮았다, t(18) = 2.45, p = .025, g = 0.72.
보고 형식은 Cohen's d와 동일합니다. d 대신 g로 표기하면 됩니다. 집단별 참가자가 20명 미만인 연구에서 Hedges' g를 사용하면 방법론적 엄밀성을 보여줄 수 있습니다.
η² / partial η² — 분산분석(ANOVA)의 효과크기
언제 사용하는가
에타제곱(η², eta squared)과 부분 에타제곱(partial η²)은 분산분석(ANOVA) 결과를 보고할 때 사용하는 효과크기입니다. 종속변수의 전체 변동 중 독립변수가 설명하는 비율을 나타냅니다.
η²와 partial η²의 차이
이 두 지표의 차이를 정확히 이해하는 것이 중요합니다.
- η²(에타제곱): 종속변수의 전체 변동 중 해당 요인이 설명하는 비율. 모든 요인의 η² 합이 1을 초과하지 않습니다.
- partial η²(부분 에타제곱): 다른 요인의 효과를 제거한 나머지 변동 중 해당 요인이 설명하는 비율. 여러 요인이 있을 때 각 요인의 partial η² 합이 1을 초과할 수 있습니다.
일원배치 ANOVA(요인이 하나)에서는 η²와 partial η²가 동일하지만, 이원배치 이상의 ANOVA에서는 두 값이 달라집니다. 현재 대부분의 통계 소프트웨어(SPSS 포함)는 partial η²를 기본으로 출력하며, 학술지에서도 partial η²를 더 많이 사용합니다.
해석 기준
Cohen(1988)이 제시한 η²의 해석 기준은 다음과 같습니다. partial η²도 동일한 기준을 적용합니다.
| η² / partial η² | 해석 | |-----------------|------| | .01 | 작은 효과 (small) | | .06 | 중간 효과 (medium) | | .14 | 큰 효과 (large) |
예를 들어, partial η² = .10이라면 다른 요인을 통제했을 때 해당 독립변수가 종속변수 변동의 10%를 설명한다는 의미입니다.
APA 7판 보고 예시
일원배치 ANOVA:
일원배치 분산분석 결과, 교수법에 따른 학업 성취도에 통계적으로 유의한 차이가 있었다, F(2, 87) = 5.34, p = .007, η² = .11.
이원배치 ANOVA(상호작용 효과 포함):
이원배치 분산분석 결과, 교수법과 성별의 상호작용 효과가 통계적으로 유의하였다, F(2, 84) = 3.92, p = .024, partial η² = .09.
η²와 partial η²는 1을 초과할 수 없는 비율이므로, p 값과 마찬가지로 앞의 0을 생략하여 보고합니다(.11, .09 등).
오메가 제곱(ω²) — 에타제곱보다 편향이 적은 대안
에타제곱이 과대추정하는 이유
에타제곱(η²)은 표본 데이터를 기술하는 통계량이지만, 모집단의 효과크기를 체계적으로 과대추정합니다. 이 과대추정은 표본 크기가 작거나 집단 수가 많을수록 더 두드러집니다. η²의 분자에 체계적 변동(진정한 효과)뿐만 아니라 일부 오차 변동도 포함되기 때문입니다.
오메가 제곱의 보정 원리
오메가 제곱(ω²)은 모집단에서 설명되는 변동 비율에 대해 덜 편향된 추정치를 제공합니다. 집단 수와 표본 크기를 반영한 보정을 적용하여 보다 보수적이고 정확한 추정치를 산출합니다. 실제로 ω² 값은 동일 데이터에서 산출된 η² 값보다 항상 작습니다.
해석 기준
오메가 제곱은 에타제곱과 동일한 해석 기준을 사용합니다.
| ω² | 해석 | |----|------| | .01 | 작은 효과 (small) | | .06 | 중간 효과 (medium) | | .14 | 큰 효과 (large) |
APA 7판 보고 예시
일원배치 분산분석 결과, 처치 조건에 따른 불안 점수에 통계적으로 유의한 차이가 있었다, F(3, 76) = 4.82, p = .004, ω² = .12.
언제 사용하는가
점점 더 많은 방법론 전문가와 학술지에서 표본 크기가 작은 연구에서 η² 대신 ω²를 권장하고 있습니다. 연구 분야나 대상 학술지에서 특별한 선호를 명시하지 않는 경우, 가장 널리 사용되는 ANOVA 효과크기인 partial η²를 보고하는 것도 무방합니다. 다만 partial η²와 함께 ω²를 병행 보고하면 편향 문제에 대한 인식을 보여 줄 수 있어 방법론 섹션을 더 강화할 수 있습니다.
r / R² — 상관분석과 회귀분석의 효과크기
언제 사용하는가
Pearson 상관계수 r은 두 연속형 변수 간의 선형 관계의 강도와 방향을 나타냅니다. 상관계수 자체가 효과크기 역할을 합니다. 회귀분석에서는 결정계수 R²가 모형이 설명하는 변동 비율을 나타내며 효과크기로 사용됩니다.
해석 기준
| r (절댓값) | 해석 | |-------------|------| | .10 | 작은 효과 (small) | | .30 | 중간 효과 (medium) | | .50 | 큰 효과 (large) |
R²는 r의 제곱이므로, r = .30일 때 R² = .09(약 9% 설명력)입니다.
| R² | 해석 | |------|------| | .01 | 작은 효과 | | .09 | 중간 효과 | | .25 | 큰 효과 |
APA 7판 보고 예시
상관분석:
학습 시간과 시험 점수 간에 통계적으로 유의한 정적 상관이 있었다, r(48) = .42, p = .003.
회귀분석:
회귀모형은 통계적으로 유의하였으며, F(2, 97) = 18.45, p < .001, 학습 시간과 출석률이 시험 점수 변동의 27.5%를 설명하였다, R² = .28, adjusted R² = .26.
상관계수 r과 결정계수 R²는 모두 1을 초과할 수 없으므로 앞의 0을 생략하여 보고합니다.
Cramér's V — 카이제곱 검정의 효과크기
언제 사용하는가
Cramér's V는 카이제곱 독립성 검정에서 두 범주형 변수 간의 연관성 강도를 나타내는 효과크기입니다. 2x2 교차표에서는 파이 계수(φ)와 동일하지만, 더 큰 교차표에서도 사용할 수 있어 범용성이 높습니다.
해석 기준
Cramér's V의 해석 기준은 자유도(df)에 따라 달라집니다. 아래는 df* = 1(2x2 표)일 때의 기준입니다.
| Cramér's V (df* = 1) | 해석 | |------------------------|------| | .10 | 작은 효과 (small) | | .30 | 중간 효과 (medium) | | .50 | 큰 효과 (large) |
여기서 df는 교차표의 (행 수 - 1)과 (열 수 - 1) 중 작은 값입니다. df가 커지면 기준값이 낮아지므로 주의가 필요합니다.
APA 7판 보고 예시
카이제곱 독립성 검정 결과, 성별과 전공 선택 간에 통계적으로 유의한 연관성이 있었다, χ²(2, N = 200) = 12.56, p = .002, V = .25.
실제 연구 사례로 이해하기
추상적인 기준값만으로는 효과크기의 의미를 실감하기 어렵습니다. 아래 예시들은 동일한 효과크기 지표가 연구 맥락에 따라 어떻게 다른 실질적 함의를 가지는지를 보여 줍니다.
사례 1: 교육 중재
한 교육청에서 또래 튜터링 프로그램을 도입하고 표준화 수학 점수에 미치는 영향을 측정했습니다. 결과는 d = 0.40이었습니다. 이는 튜터링 없이 50번째 백분위에 있던 학생이 튜터링을 받으면 약 66번째 백분위 수준의 성취를 보일 수 있다는 의미입니다. 30명 학급 기준으로 약 5명의 학생이 추가로 학급 중앙값 이상의 성적을 달성하는 셈입니다. 비용이 적게 드는 교육 중재로서 이는 의미 있는 개선입니다.
사례 2: 임상심리
범불안장애에 대한 인지행동치료(CBT)의 무선통제시험(RCT) 결과, d = 0.75가 나왔습니다. 이는 CBT를 받은 환자 중 평균적인 환자가 대기 통제집단 환자의 약 77%보다 더 많이 개선되었다는 의미입니다. 임상적으로는 불안 장애 진단 기준을 충족하는 것과 충족하지 않는 것의 차이, 즉 환자의 삶을 실질적으로 변화시키는 수준의 효과입니다.
사례 3: 공중보건
대규모 백신 연구에서 감염 위험에 대한 오즈비가 0.30으로 보고되었습니다. 이는 백신 접종자가 미접종자에 비해 감염 확률이 70% 낮았다는 의미입니다. 표준화된 효과크기로 환산하면 비교적 작은 값이지만, 수백만 명에게 적용되면 수십만 건의 감염을 예방할 수 있습니다.
핵심 교훈
동일한 d 값이라도 연구 영역, 중재 비용, 결과의 심각성, 영향을 받는 인구 규모에 따라 실질적 의의가 크게 달라집니다. 교육 분야에서 d = 0.20은 그리 중요하지 않을 수 있지만, 생명을 구하는 의학적 치료에서 d = 0.20은 매우 중요할 수 있습니다. 효과크기는 반드시 연구 질문의 구체적인 맥락 안에서 해석해야 합니다.
효과크기의 신뢰구간
점추정치만으로는 왜 부족한가
APA 7판에서는 효과크기의 **점추정치뿐만 아니라 신뢰구간(CI)**을 함께 보고할 것을 명시적으로 권장합니다. d = 0.75라는 점추정치는 모집단 효과크기에 대한 최선의 단일 추정값을 알려 주지만, 그 추정이 얼마나 정밀한지는 말해 주지 않습니다.
효과크기 신뢰구간의 의미
Cohen's d의 95% 신뢰구간은 진정한 모집단 효과크기가 존재할 수 있는 그럴듯한 값의 범위를 제공합니다. 예를 들어, d = 0.75, 95% CI [0.32, 1.18]은 진정한 효과크기가 0.32(작은~중간 효과)에서 1.18(큰 효과) 사이에 있을 가능성이 높다는 의미입니다.
신뢰구간의 너비 해석
- 넓은 CI (예: [0.10, 1.40]): 정밀도가 낮음. 진정한 효과가 무시할 수 있을 만큼 작거나 매우 클 수 있음. 보통 소표본에서 발생합니다.
- 좁은 CI (예: [0.60, 0.90]): 정밀도가 높음. 효과크기를 비교적 정확하게 추정한 것임. 보통 대표본에서 발생합니다.
- 0을 포함하는 CI (예: [-0.15, 0.85]): 진정한 효과가 0이거나 반대 방향일 수 있음. 이는 통계적으로 유의하지 않은 결과와 일치합니다.
APA 7판 보고 예시
실험집단이 통제집단보다 유의하게 높은 점수를 받았다, t(58) = 2.89, p = .005, d = 0.75, 95% CI [0.22, 1.27].
신뢰구간은 점추정치만으로는 전달할 수 없는 중요한 맥락을 제공합니다. 위 예시에서 d = 0.75는 중간~큰 효과를 시사하지만, CI는 진정한 효과가 0.22(작은 효과)에서 1.27(매우 큰 효과)까지 가능함을 보여 줍니다. 이러한 수준의 투명성은 독자가 연구 결과의 견고성을 평가하는 데 도움이 됩니다.
효과크기 시각화: 분포 겹침
추상적 숫자를 직관적으로 이해하기
효과크기의 의미를 이해하는 가장 효과적인 방법 중 하나는 두 집단의 분포가 얼마나 겹치는지를 시각화하는 것입니다. 두 집단의 평균이 동일할 때(d = 0.0) 분포는 완전히 겹칩니다. d가 커질수록 분포는 점점 분리됩니다.
효과크기별 분포 겹침 정도
| Cohen's d | 분포 겹침 | 실질적 의미 | |-------------|----------|-----------| | 0.0 | 100% | 동일한 분포 | | 0.2 | ~85% | 거의 구별 불가; 집합적으로만 차이 확인 가능 | | 0.5 | ~67% | 눈에 띄는 차이; 대부분의 개인은 여전히 겹침 | | 0.8 | ~53% | 뚜렷한 차이; 분포의 약 절반이 여전히 겹침 | | 1.0 | ~45% | 매우 명확한 차이; 절반 이하만 겹침 | | 1.5 | ~30% | 극적인 차이; 겹침이 최소화됨 | | 2.0 | ~19% | 극단적 차이; 분포가 거의 겹치지 않음 |
Cohen's U3 통계량
효과크기를 해석하는 또 다른 방법은 Cohen's U3입니다. U3은 높은 점수를 받은 집단의 평균적인 사람이 낮은 점수를 받은 집단의 몇 퍼센트를 초과하는지를 나타냅니다.
| Cohen's d | U3 (상위 집단의 백분위) | |-------------|----------------------| | 0.2 | 58% | | 0.5 | 69% | | 0.8 | 79% | | 1.0 | 84% | | 1.5 | 93% |
d = 0.8일 때, 상위 집단의 평균적인 사람은 하위 집단 구성원의 79%보다 높은 성과를 보입니다. 이처럼 표준편차 단위를 백분위로 환산하면 통계에 익숙하지 않은 독자(임상가, 교육자, 정책 입안자 등)에게도 효과크기를 즉시 이해시킬 수 있습니다.
분야별 효과크기 기준의 차이
Cohen의 기준은 기본값이지 보편적 규칙이 아니다
Cohen(1988)은 자신이 제안한 작은/중간/큰 기준을 연구자들이 더 나은 참조 기준이 없을 때 사용할 일반적 지침이라고 설명했습니다. 이 기준은 모든 분야에 기계적으로 적용하도록 의도된 것이 결코 아닙니다. 실제로 의미 있는 효과크기가 무엇인지는 분야에 따라 크게 다릅니다.
교육학
Hattie(2009)는 800건 이상의 교육 중재 메타분석을 종합하여 d = 0.40을 **"전환점(hinge point)"**으로 제시했습니다. 이 기준을 초과하는 효과는 학생이 자연적으로 발달하는 것 이상의 의미 있는 개선을 만드는 중재를 의미합니다. 이 기준에 따르면 Cohen의 기준으로 "작은" 효과에 해당하는 많은 중재가 실제로는 교육적으로 유의미한 결과를 산출하고 있습니다.
임상심리학
임상심리학에서는 대상 질환이 심각한 경우 d = 0.20도 임상적으로 의미가 있을 수 있습니다. 정신병, 자살 충동, 만성 통증 증상의 작은 감소만으로도 삶의 질이 크게 개선될 수 있습니다. 효과의 임상적 유의성은 장애의 심각도와 대안적 치료의 가용성에 따라 달라집니다.
사회심리학
사회심리학의 메타분석에 따르면 전형적인 효과크기는 d = 0.20에서 d = 0.40 사이입니다. Cohen의 기준으로 "작은" 효과에 해당하는 것이 이 분야에서는 실제로 꽤 전형적인 수준입니다. 미묘한 사회적 조작에서 큰 효과를 기대하는 것은 비현실적이며, 이 분야의 연구자는 그에 맞게 기대치를 조정해야 합니다.
의학 연구와 공중보건
의학 연구에서는 1.0에 가까운 오즈비(예: OR = 0.95)로 측정되는 아주 작은 효과라도 인구 규모로 적용하면 수천 명의 생명을 구할 수 있습니다. 심장마비 위험을 5% 줄이는 약물은 효과크기 관점에서 사소해 보일 수 있지만, 수백만 명의 환자에게 적용하면 수만 건의 심장마비를 예방합니다.
권장 사항
Cohen의 일반적 기준에만 의존하기보다, 자신의 연구 분야에서 보고된 선행 연구들의 효과크기 분포와 비교하는 것을 권장합니다. 현재 많은 분야에서 분야별 참조 기준을 제공하는 메타분석적 벤치마크를 출판하고 있습니다. 이러한 접근 방식은 일률적인 레이블을 적용하는 것보다 더 의미 있는 해석을 가능하게 합니다.
효과크기 종합 비교표
아래 표는 주요 효과크기 지표를 한눈에 비교한 것입니다.
| 통계 검정 | 효과크기 지표 | 작은 효과 | 중간 효과 | 큰 효과 | |----------|-------------|----------|----------|---------| | t-검정 | Cohen's d | 0.20 | 0.50 | 0.80 | | ANOVA | η² / partial η² | .01 | .06 | .14 | | 상관분석 | r | .10 | .30 | .50 | | 회귀분석 | R² | .01 | .09 | .25 | | 카이제곱 검정 | Cramér's V | .10 | .30 | .50 |
중요: 이 기준값은 Cohen이 제시한 일반적 지침이지 절대적 기준이 아닙니다. 연구 분야에 따라 "작은 효과"도 매우 중요할 수 있습니다. 예를 들어, 의학 연구에서 d = 0.20의 치료 효과는 수천 명의 환자에게 영향을 미칠 수 있습니다. 항상 연구 맥락을 고려하여 효과크기를 해석하세요.
흔한 실수와 주의사항
1. η²와 partial η²를 혼동하여 보고
가장 빈번한 실수입니다. SPSS는 기본적으로 partial η²를 출력하면서 레이블에 "Partial Eta Squared"라고 표시합니다. 그런데 이를 논문에서 η²로 잘못 보고하는 경우가 매우 많습니다. 이원배치 이상의 ANOVA에서는 두 값이 다르므로, 자신이 보고하는 값이 η²인지 partial η²인지 반드시 명시해야 합니다. 특히 partial η²는 기호 앞에 "partial"을 붙여 partial η²로 쓰거나, ηp²로 표기합니다.
2. 유의성만 보고하고 효과크기 누락
"통계적으로 유의하였다(p < .05)"로만 결과를 보고하는 것은 APA 7판 기준에 부합하지 않습니다. 유의한 결과든 유의하지 않은 결과든 반드시 효과크기를 함께 보고해야 합니다. 유의하지 않은 결과에서도 효과크기를 보고하면 후속 연구의 검정력 분석이나 메타분석에 유용한 정보를 제공합니다.
3. 효과크기 해석 기준의 기계적 적용
Cohen의 기준(작은/중간/큰)을 모든 연구에 기계적으로 적용하는 것은 바람직하지 않습니다. Cohen 자신도 이 기준이 "구체적인 맥락이 없을 때의 일반적 참조"라고 밝힌 바 있습니다. 자신의 연구 분야에서 축적된 선행 연구의 효과크기와 비교하여 해석하는 것이 더 적절합니다.
4. 효과크기에 앞의 0을 잘못 처리
앞서 설명했듯이, APA 형식에서 1을 초과할 수 없는 값(p, r, η², R², V)에는 앞의 0을 생략하고, 1을 초과할 수 있는 값(Cohen's d, M, SD)에는 앞의 0을 포함합니다. 이 규칙을 혼동하는 실수가 자주 발생합니다.
5. 카이제곱 검정에서 효과크기 미보고
카이제곱 검정 결과를 보고할 때 χ² 값과 p 값만 보고하고 Cramér's V를 빠뜨리는 경우가 많습니다. 범주형 데이터 분석에서도 효과크기는 반드시 포함해야 합니다.
자주 묻는 질문
Cohen's d가 1보다 클 수 있나요?
네. Cohen's d는 상한이 없으며 어떤 양수 값이든 가질 수 있습니다. d = 1.0은 두 집단 평균이 정확히 1표준편차만큼 차이 난다는 의미이고, d = 1.5는 1.5표준편차만큼 차이 난다는 의미입니다. 1.0 이상의 값은 흔하지 않지만, 강한 조작이나 뚜렷하게 구별되는 집단을 비교하는 연구(예: 전문 음악가와 비음악가의 청각 과제 비교)에서 규칙적으로 관찰됩니다.
음수 효과크기는 무엇을 의미하나요?
음수 효과크기는 효과의 크기가 아니라 차이의 방향을 반영합니다. "집단 1"로 지정한 집단이 "집단 2"보다 낮은 점수를 받았다는 의미일 뿐입니다. 집단 레이블을 바꾸면 부호도 바뀝니다. 크기를 해석할 때는 절댓값을 사용하세요. 예를 들어, d = -0.60과 d = 0.60은 반대 방향의 동일한 크기의 효과를 나타냅니다.
내 분석에 어떤 효과크기를 보고해야 하나요?
적절한 효과크기는 사용하는 통계 검정에 따라 다릅니다. t-검정에는 Cohen's d(소표본이면 Hedges' g)를 보고합니다. ANOVA에는 partial η²(또는 ω²)를 보고합니다. 상관분석에서는 r 자체가 효과크기입니다. 회귀분석에는 R²를 보고합니다. 카이제곱 검정에는 Cramér's V를 보고합니다. 위의 종합 비교표를 참조하세요.
큰 효과크기가 인과관계를 증명하나요?
아닙니다. 효과크기는 관계나 차이의 크기를 수량화할 뿐 인과관계를 확립하지 않습니다. 관찰 연구에서 큰 d 값은 인과적 메커니즘이 아니라 혼입 변수를 반영할 수 있습니다. 인과적 주장은 큰 효과크기가 아니라 적절한 연구 설계(예: 무선통제시험)를 필요로 합니다.
비모수 검정의 효과크기는 무엇인가요?
Mann-Whitney U 검정에서는 순위-이연 상관(rank-biserial correlation, r)이 표준 효과크기입니다. Wilcoxon 부호순위 검정에서는 r = Z / sqrt(N)가 흔히 사용됩니다. Kruskal-Wallis 검정에서는 엡실론 제곱(ε²) 또는 순위 기반 에타제곱을 보고할 수 있습니다. Friedman 검정에서는 Kendall's W가 효과크기 역할을 합니다. 이 지표들은 모수적 대응 지표와 동일한 작은/중간/큰 해석 체계를 사용합니다.
SPSS에서 효과크기는 어떻게 출력되나요?
SPSS는 ANOVA 절차에서 기본적으로 partial η²를 보고합니다("효과크기 추정" 옵션을 선택하면 "대상 간 효과 검정" 표에 나타남). 그러나 SPSS는 t-검정에 대해 Cohen's d를 자동으로 계산하지 않으므로 직접 계산하거나 전용 도구를 사용해야 합니다. 회귀분석에서는 모형 요약 표에 R²가 제공됩니다. 카이제곱의 경우, 교차표 절차에서 Cramér's V를 별도로 요청해야 합니다(통계량 > 파이 및 Cramér's V).
표본 크기와 효과크기의 관계는 무엇인가요?
효과크기와 표본 크기는 이론적으로 독립적입니다. 큰 표본이 더 큰 효과크기를 만들지 않고, 작은 표본이 더 작은 효과크기를 만들지 않습니다. 그러나 소표본은 효과크기 추정의 정밀도가 낮아(신뢰구간이 넓어) 관찰된 d가 진정한 모집단 d와 상당히 다를 수 있습니다. 이것이 소표본에서 Hedges' g 보정을 권장하는 이유 중 하나입니다.
유의하지 않은 결과에도 효과크기를 보고해야 하나요?
네. APA 7판은 통계적으로 유의한지 여부에 관계없이 모든 추론 통계 검정에 효과크기를 보고하도록 요구합니다. 유의하지 않은 결과의 효과크기 추정치는 여러 가지 이유에서 가치가 있습니다: 후속 연구의 검정력 분석에 정보를 제공하고, 메타분석에 기여하며, 증거의 전체 그림을 제공하여 출판 편향을 방지합니다. d = 0.45인 유의하지 않은 결과와 d = 0.02인 유의하지 않은 결과는 매우 다른 이야기를 합니다.
StatMate로 효과크기를 자동으로 계산하기
StatMate의 각 통계 계산기는 검정 결과와 함께 효과크기를 자동으로 계산합니다.
- t-검정 계산기: Cohen's d와 95% 신뢰구간을 자동 산출
- ANOVA 계산기: η²와 partial η²를 모두 제공
- 상관분석 계산기: r과 R²를 함께 출력
- 카이제곱 계산기: Cramér's V를 자동 계산
모든 결과는 APA 7판 형식에 맞게 출력되므로, 효과크기 공식을 직접 계산하거나 보고 형식을 고민할 필요 없이 바로 논문에 활용할 수 있습니다. 수기 계산에서 발생하기 쉬운 오류를 방지하고, 논문 작성 시간을 크게 절약해 보세요.
마무리
효과크기는 연구 결과의 실질적 의미를 전달하는 핵심 지표입니다. p 값이 통계적 유의성을 판단하는 도구라면, 효과크기는 그 결과가 현실에서 얼마나 의미 있는 차이인지를 보여 줍니다. 이 글에서 소개한 Cohen's d, η²/partial η², r/R², Cramér's V의 해석 기준과 APA 보고 형식을 숙지하면, 어떤 통계 검정을 사용하든 효과크기를 정확하게 보고할 수 있을 것입니다. 유의성과 효과크기를 함께 보고하는 것이 신뢰할 수 있는 연구 결과의 완성입니다.