소개: 세 집단 이상의 비교
연구에서 세 개 이상의 집단을 동시에 비교해야 하는 상황은 매우 흔합니다. 세 가지 교수법의 효과, 네 개 지역의 만족도, 다섯 가지 약물의 반응 시간 등이 대표적입니다.
이때 사용할 수 있는 두 가지 대표적인 검정이 있습니다.
- 일원배치 분산분석(One-way ANOVA): 집단 간 평균을 비교하는 모수적 검정
- Kruskal-Wallis H 검정: 집단 간 순위 분포를 비교하는 비모수적 검정
두 검정 모두 "적어도 하나의 집단이 다른 집단과 다른가?"라는 전체적(omnibus) 질문에 답하며, 유의한 결과가 나오면 사후비교를 통해 구체적으로 어떤 집단 간에 차이가 있는지 확인합니다.
이 글에서는 두 검정의 원리, 가정, 장단점을 체계적으로 비교하고, 동일한 데이터에 두 검정을 적용하여 결과를 비교합니다.
핵심 비교 요약
| 특성 | 일원배치 ANOVA | Kruskal-Wallis H | |------|-------------|-----------------| | 비교 대상 | 집단 평균 | 순위 분포 | | 데이터 유형 | 연속형 (등간/비율 척도) | 서열형 또는 연속형 | | 정규성 가정 | 필요 | 불필요 | | 등분산 가정 | 필요 (Welch ANOVA로 완화) | 유사한 분포 형태 권장 | | 이상치 민감도 | 높음 | 낮음 | | 검정력 | 가정 충족 시 더 높음 | 약간 낮음 (~95% 수준) | | 효과크기 | 에타제곱 (eta-squared) | 에타제곱 (H 기반) | | 사후비교 | Tukey HSD, Bonferroni 등 | Dunn의 검정 |
일원배치 ANOVA의 원리
ANOVA는 전체 변동을 **집단 간 변동(between-group)**과 **집단 내 변동(within-group)**으로 분해합니다. 집단 간 변동이 집단 내 변동에 비해 충분히 크면, 집단 간 평균에 유의한 차이가 있다고 판단합니다.
F 통계량:
F = 집단 간 평균제곱(MSB) / 집단 내 평균제곱(MSW)
F 값이 클수록 집단 간 차이가 유의할 가능성이 높습니다.
StatMate ANOVA 계산기에서 직접 확인해보세요.
ANOVA의 가정
- 독립성: 모든 관측치가 독립적
- 정규성: 각 집단의 종속변수가 정규분포
- 등분산성: 모든 집단의 분산이 동일 (Levene 검정으로 확인)
- 등간/비율 척도: 종속변수가 연속형
Kruskal-Wallis H 검정의 원리
Kruskal-Wallis H 검정은 모든 집단의 데이터를 합쳐서 순위를 매긴 후, 각 집단의 순위 합(또는 평균 순위)을 비교합니다. 집단 간 평균 순위에 유의한 차이가 있으면, 적어도 하나의 집단이 다르다고 판단합니다.
H 통계량: 자유도 (k-1)인 카이제곱 분포에 근사합니다 (k = 집단 수).
StatMate Kruskal-Wallis 계산기에서 직접 확인해보세요.
Kruskal-Wallis의 가정
- 독립성: 모든 관측치가 독립적
- 서열 척도 이상: 데이터를 순서대로 나열할 수 있어야 함
- 유사한 분포 형태: 중앙값 비교 해석을 위해 분포 형태가 유사해야 함
예제 데이터: 세 가지 운동 프로그램의 체중 감소 효과
세 가지 운동 프로그램(유산소, 근력, 복합)의 8주 후 체중 감소량(kg)을 비교합니다. 각 프로그램에 12명씩 무작위 배정했습니다.
원시 데이터
| 순서 | 유산소 | 근력 | 복합 | |------|--------|------|------| | 1 | 3.2 | 2.1 | 4.5 | | 2 | 4.1 | 2.8 | 5.2 | | 3 | 3.5 | 1.9 | 4.8 | | 4 | 2.8 | 3.0 | 5.5 | | 5 | 3.9 | 2.5 | 4.1 | | 6 | 4.3 | 2.2 | 5.8 | | 7 | 3.0 | 1.7 | 4.3 | | 8 | 3.7 | 2.6 | 5.0 | | 9 | 4.5 | 3.1 | 4.7 | | 10 | 3.3 | 2.0 | 5.3 | | 11 | 3.6 | 2.4 | 4.9 | | 12 | 4.0 | 2.7 | 5.1 |
기술통계
| 프로그램 | N | 평균 (M) | 표준편차 (SD) | 중앙값 (Mdn) | |---------|---|---------|--------------|-------------| | 유산소 | 12 | 3.66 | 0.52 | 3.60 | | 근력 | 12 | 2.42 | 0.43 | 2.45 | | 복합 | 12 | 4.93 | 0.48 | 4.95 |
가정 검증
정규성 (Shapiro-Wilk):
| 집단 | W | p 값 | 판정 | |------|---|------|------| | 유산소 | 0.957 | .743 | 정규성 충족 | | 근력 | 0.964 | .836 | 정규성 충족 | | 복합 | 0.952 | .668 | 정규성 충족 |
등분산성 (Levene):
| F | df1 | df2 | p 값 | 판정 | |---|-----|-----|------|------| | 0.27 | 2 | 33 | .764 | 등분산 가정 충족 |
모든 가정이 충족되므로 ANOVA가 적합합니다. 비교를 위해 Kruskal-Wallis도 함께 실행합니다.
분석 결과 비교
일원배치 ANOVA 결과
| 변동원 | 제곱합 (SS) | 자유도 (df) | 평균제곱 (MS) | F | p 값 | |--------|-----------|------------|-------------|------|------| | 집단 간 | 37.86 | 2 | 18.93 | 82.26 | < .001 | | 집단 내 | 7.59 | 33 | 0.23 | | | | 전체 | 45.45 | 35 | | | |
| 효과크기 | 값 | 해석 | |---------|-----|------| | 에타제곱 (eta-squared) | .833 | 매우 큰 효과 | | 오메가제곱 (omega-squared) | .821 | 매우 큰 효과 |
Kruskal-Wallis H 결과
| 통계량 | 값 | |--------|-----| | H | 29.70 | | 자유도 | 2 | | p 값 | < .001 | | 에타제곱 (H 기반) | .838 |
사후비교 결과
ANOVA: Tukey HSD
| 비교 쌍 | 평균차 | 95% 신뢰구간 | p 값 | 유의 여부 | |---------|--------|-------------|------|----------| | 유산소 vs 근력 | 1.24 | [0.79, 1.69] | < .001 | 유의함 | | 유산소 vs 복합 | -1.27 | [-1.72, -0.82] | < .001 | 유의함 | | 근력 vs 복합 | -2.51 | [-2.96, -2.06] | < .001 | 유의함 |
Kruskal-Wallis: Dunn의 검정 (Bonferroni 보정)
| 비교 쌍 | Z | p 값 (보정) | 유의 여부 | |---------|---|-----------|----------| | 유산소 vs 근력 | 3.10 | .006 | 유의함 | | 유산소 vs 복합 | -3.20 | .004 | 유의함 | | 근력 vs 복합 | -6.30 | < .001 | 유의함 |
두 검정 모두 세 집단 간 모든 쌍에서 유의한 차이를 확인했습니다. 복합 운동이 가장 효과적이며, 유산소가 그 다음, 근력이 가장 낮은 체중 감소량을 보였습니다.
가정 위반 시: ANOVA가 부적절한 상황
이번에는 데이터에 이상치가 있고 정규성이 위반된 경우를 살펴봅시다.
정규성 위반 데이터 예시
한 연구에서 세 가지 광고 유형(A: 유머, B: 감성, C: 정보 제공)에 대한 소비자 선호도를 7점 리커트 척도로 측정했습니다.
| 통계량 | 유머 (A) | 감성 (B) | 정보 (C) | |--------|---------|---------|---------| | N | 15 | 15 | 15 | | 평균 | 5.27 | 4.60 | 3.47 | | 중앙값 | 6.00 | 5.00 | 3.00 | | 왜도 | -1.42 | -0.85 | 0.67 | | Shapiro-Wilk p | .003 | .021 | .045 |
세 집단 모두 정규성이 위반되었습니다(p < .05). 또한 리커트 7점 척도라는 서열 척도 특성을 고려하면, Kruskal-Wallis H 검정이 적합합니다.
검정 선택 의사결정 트리
1단계: 데이터 척도 확인
- 서열 척도(리커트, 순위 등)라면 → Kruskal-Wallis
- 연속형(등간/비율 척도)이라면 → 2단계로
2단계: 집단 수 확인
- 2개 집단이라면 → t-검정 또는 Mann-Whitney U (이 글의 범위 밖)
- 3개 이상이라면 → 3단계로
3단계: 표본 크기 확인
- 각 집단 n < 15이면 → 정규성 검정 신뢰도 낮음, Kruskal-Wallis 고려
- 각 집단 n >= 15이면 → 4단계로
4단계: 정규성 검정
- 모든 집단에서 p > .05이면 → 5단계로
- 하나 이상에서 p < .05이면 → 6단계로
5단계: 등분산성 검정
- Levene 검정 p > .05이면 → ANOVA (또는 Welch ANOVA)
- Levene 검정 p < .05이면 → Welch ANOVA 또는 Kruskal-Wallis
6단계: 표본 크기와 정규성 위반 정도
- 각 집단 n >= 30이면 → 중심극한정리에 의해 ANOVA 가능
- 각 집단 n < 30이고 정규성 위반이면 → Kruskal-Wallis
ANOVA의 강건성에 대하여
ANOVA는 가정 위반에 대해 상당히 **강건(robust)**한 검정입니다. 특히 다음 조건에서 그렇습니다.
| 조건 | ANOVA 강건성 | |------|-------------| | 표본 크기가 균등 | 등분산 위반에 강건 | | 각 집단 n >= 30 | 정규성 위반에 강건 | | 비대칭이 경미 | 결과에 미미한 영향 | | 분산비 < 3:1 | 등분산 위반에 비교적 강건 |
그러나 다음 상황에서는 ANOVA 결과를 신뢰하기 어렵습니다.
- 표본 크기가 매우 작고 불균등한 경우
- 극단적 이상치가 있는 경우
- 분산비가 4:1 이상인 경우
- 심한 비정규 분포(강한 편향)인 경우
Welch ANOVA: 중간 대안
등분산 가정이 위반되었지만 정규성이 충족되는 경우, Welch의 ANOVA가 좋은 대안입니다.
| 검정 | 정규성 | 등분산성 | 특징 | |------|--------|---------|------| | 일원배치 ANOVA | 필요 | 필요 | 가장 높은 검정력 | | Welch ANOVA | 필요 | 불필요 | 등분산 위반에 강건 | | Kruskal-Wallis | 불필요 | 불필요 | 가장 유연, 검정력 약간 낮음 |
APA 형식 보고 방법
ANOVA 보고
일원배치 분산분석 결과, 운동 프로그램에 따른 체중 감소량에 유의한 차이가 있었다, F(2, 33) = 82.26, p < .001, eta-squared = .833. Tukey HSD 사후비교 결과, 세 집단 간 모든 쌍에서 유의한 차이가 나타났다(모든 p < .001). 복합 프로그램(M = 4.93, SD = 0.48)이 유산소(M = 3.66, SD = 0.52)와 근력(M = 2.42, SD = 0.43)보다 유의하게 높았다.
Kruskal-Wallis 보고
Kruskal-Wallis H 검정 결과, 운동 프로그램에 따른 체중 감소량에 유의한 차이가 있었다, H(2) = 29.70, p < .001, eta-squared = .838. Dunn의 사후비교(Bonferroni 보정) 결과, 세 집단 간 모든 쌍에서 유의한 차이가 나타났다. 복합 프로그램(Mdn = 4.95)이 유산소(Mdn = 3.60)와 근력(Mdn = 2.45)보다 유의하게 높았다.
자주 묻는 질문 (FAQ)
Q1: ANOVA 대신 t-검정을 여러 번 하면 안 되나요?
안 됩니다. 세 집단을 t-검정으로 쌍별 비교하면 3번의 검정을 수행하게 되고, 각 검정에서 5%의 1종 오류 확률이 누적됩니다. 세 번의 비교에서 적어도 하나의 거짓 양성이 나올 확률은 약 14.3%로 급증합니다. 집단 수가 많아질수록 이 문제는 더 심각해집니다. ANOVA나 Kruskal-Wallis는 한 번의 검정으로 전체적 차이를 평가하여 이 문제를 해결합니다.
Q2: Kruskal-Wallis에서 유의한 결과 후 어떤 사후비교를 사용하나요?
가장 일반적으로 **Dunn의 검정(Bonferroni 보정)**을 사용합니다. 이 방법은 모든 쌍별 비교에서 순위를 기반으로 차이를 검정하고, 다중비교 보정을 적용합니다. 대안으로 Conover의 검정, Nemenyi 검정 등도 있습니다.
Q3: 집단의 표본 크기가 다르면 어떻게 하나요?
ANOVA에서 표본 크기가 불균등하면 등분산 위반의 영향이 커집니다. 작은 집단의 분산이 큰 경우 1종 오류가 증가합니다. 이때 Welch ANOVA가 더 안전합니다. Kruskal-Wallis는 불균등 표본에 상대적으로 덜 민감합니다.
Q4: 에타제곱의 해석 기준은 무엇인가요?
Cohen의 기준에 따르면 다음과 같습니다.
| 에타제곱 | 해석 | |---------|------| | .01 | 작은 효과 | | .06 | 중간 효과 | | .14 이상 | 큰 효과 |
본 예제의 에타제곱 .833은 운동 프로그램이 체중 감소량 변동의 약 83%를 설명한다는 의미로, 매우 큰 효과입니다.
Q5: Kruskal-Wallis 검정이 유의하지 않으면 사후비교를 할 필요가 없나요?
맞습니다. Kruskal-Wallis(또는 ANOVA)의 전체 검정이 유의하지 않으면(p > .05), 어떤 집단 간에도 유의한 차이가 없다고 결론짓습니다. 이 경우 사후비교를 수행할 필요가 없습니다.
Q6: 반복측정 설계에서 세 조건을 비교해야 하면 어떻게 하나요?
반복측정 설계(동일한 대상을 여러 조건에서 측정)에서는 ANOVA 대신 **반복측정 분산분석(Repeated Measures ANOVA)**을, Kruskal-Wallis 대신 Friedman 검정을 사용해야 합니다. 독립표본용 검정을 대응표본 데이터에 적용하면 결과가 부정확합니다.
직접 해보기
StatMate에서 두 검정을 직접 실행해볼 수 있습니다.
- ANOVA 계산기 — F 검정, 에타제곱, Tukey HSD 사후비교
- Kruskal-Wallis 계산기 — H 통계량, 효과크기, Dunn의 사후비교
동일한 데이터를 두 계산기에 입력하면 모수적 검정과 비모수적 검정의 결과를 직접 비교할 수 있습니다.