소개: 두 집단 비교의 두 가지 길
연구에서 가장 흔한 분석 상황 중 하나는 두 독립 집단의 차이를 비교하는 것입니다. 실험집단과 통제집단의 점수 차이, 남성과 여성의 반응 시간 차이 등이 대표적인 예입니다.
이때 선택할 수 있는 두 가지 검정이 있습니다.
- 독립표본 t-검정: 두 집단의 평균을 비교하는 모수적 검정
- Mann-Whitney U 검정: 두 집단의 순위 분포를 비교하는 비모수적 검정
어떤 검정을 선택해야 하는지는 취향이나 관습이 아니라, 데이터의 특성에 따라 결정됩니다. 이 글에서는 두 검정의 원리, 가정, 장단점을 체계적으로 비교하고, 동일한 데이터에 두 검정을 모두 적용하여 결과를 비교합니다.
핵심 비교 요약
| 특성 | 독립표본 t-검정 | Mann-Whitney U 검정 | |------|---------------|-------------------| | 비교 대상 | 평균 (Mean) | 순위 분포 (Rank distribution) | | 데이터 유형 | 연속형 (등간/비율 척도) | 서열형 또는 연속형 | | 정규성 가정 | 필요 | 불필요 | | 등분산 가정 | 필요 (Welch 보정으로 완화) | 유사한 분포 형태 권장 | | 이상치 민감도 | 높음 | 낮음 | | 검정력 | 가정 충족 시 더 높음 | 가정 충족 시 약간 낮음 | | 효과크기 | Cohen의 d | 순위 이연상관 r | | 표본 크기 권장 | 집단당 n >= 30 (강건) | 소표본에서도 사용 가능 |
독립표본 t-검정의 원리
t-검정은 두 집단의 평균 차이를 표준오차로 나눈 t 통계량을 계산합니다.
기본 공식:
t = (M1 - M2) / SE(M1 - M2)
여기서 M1, M2는 각 집단의 평균이고, SE는 평균 차이의 표준오차입니다. t 값이 클수록 두 집단 간 차이가 우연에 의한 것이 아닐 확률이 높습니다.
StatMate t-검정 계산기에서 직접 확인해보세요.
t-검정의 가정
- 독립성: 두 집단의 관측치가 서로 독립적
- 정규성: 각 집단의 종속변수가 정규분포를 따름
- 등분산성: 두 집단의 분산이 동일 (Welch의 t-검정으로 완화 가능)
- 등간/비율 척도: 종속변수가 연속형
Mann-Whitney U 검정의 원리
Mann-Whitney U 검정은 두 집단의 데이터를 합쳐서 순위를 매긴 후, 한 집단의 순위가 체계적으로 높은지 낮은지를 평가합니다.
핵심 논리: 두 집단이 동일한 모집단에서 왔다면, 순위가 두 집단에 골고루 섞여 있을 것입니다. 만약 한 집단의 값이 일관되게 높다면, 해당 집단의 순위 합이 기대값보다 유의하게 커집니다.
StatMate Mann-Whitney U 계산기에서 직접 확인해보세요.
Mann-Whitney U의 가정
- 독립성: 두 집단의 관측치가 서로 독립적
- 서열 척도 이상: 데이터가 최소한 순서를 매길 수 있어야 함
- 유사한 분포 형태: 중앙값 비교를 위해서는 두 집단의 분포 형태가 유사해야 함
정규성 가정이 불필요하다는 것이 가장 큰 차이점입니다.
예제 데이터: 두 교수법의 성적 비교
새로운 교수법(실험집단)과 기존 교수법(통제집단)의 효과를 비교합니다. 각 집단 15명의 학생에게 동일한 시험을 실시했습니다.
| 순서 | 실험집단 | 통제집단 | |------|---------|---------| | 1 | 78 | 72 | | 2 | 85 | 68 | | 3 | 82 | 75 | | 4 | 90 | 70 | | 5 | 76 | 65 | | 6 | 88 | 74 | | 7 | 84 | 69 | | 8 | 79 | 71 | | 9 | 91 | 73 | | 10 | 86 | 67 | | 11 | 83 | 76 | | 12 | 80 | 66 | | 13 | 87 | 70 | | 14 | 77 | 72 | | 15 | 81 | 68 |
기술통계
| 집단 | N | 평균 | 표준편차 | 중앙값 | |------|---|------|---------|--------| | 실험집단 | 15 | 83.13 | 4.63 | 83.00 | | 통제집단 | 15 | 70.40 | 3.31 | 70.00 |
가정 검증
정규성 (Shapiro-Wilk):
| 집단 | W | p 값 | 판정 | |------|---|------|------| | 실험집단 | 0.955 | .608 | 정규성 충족 | | 통제집단 | 0.963 | .732 | 정규성 충족 |
등분산성 (Levene):
| F | p 값 | 판정 | |---|------|------| | 1.82 | .188 | 등분산 가정 충족 |
이 데이터는 t-검정의 모든 가정을 충족하므로 t-검정이 적합합니다. 하지만 교육 목적으로 두 검정을 모두 실행해보겠습니다.
분석 결과 비교
독립표본 t-검정 결과
| 통계량 | 값 | |--------|-----| | t | 8.71 | | 자유도 (df) | 28 | | p 값 | < .001 | | 평균차 | 12.73 | | 95% 신뢰구간 | [9.74, 15.73] | | Cohen의 d | 3.18 |
Mann-Whitney U 결과
| 통계량 | 값 | |--------|-----| | U | 6.50 | | Z | -4.53 | | p 값 | < .001 | | 순위 이연상관 r | .94 |
결과 해석 비교
두 검정 모두 p < .001로 유의한 차이를 보여줍니다. 이 경우 가정이 충족되었으므로 결론이 동일합니다. 하지만 몇 가지 차이가 있습니다.
- 비교 대상: t-검정은 평균 차이(12.73점)를 직접 보고할 수 있지만, Mann-Whitney U는 순위에 기반하므로 평균 차이를 직접 제공하지 않습니다.
- 효과크기: t-검정의 Cohen's d = 3.18은 해석이 직관적이며(표준편차의 3.18배 차이), Mann-Whitney의 r = .94도 큰 효과를 나타냅니다.
- 신뢰구간: t-검정은 평균 차이의 95% 신뢰구간을 제공하여 차이의 범위를 추정할 수 있습니다.
가정이 위반될 때: 이상치의 영향
이제 실험집단의 데이터에 극단값(이상치)이 하나 포함된 경우를 살펴봅시다. 1번 참가자의 점수가 78이 아니라 28이라고 가정합니다.
이상치 포함 시 기술통계
| 집단 | 평균 | 중앙값 | |------|------|--------| | 실험집단 (이상치 포함) | 79.80 | 83.00 | | 통제집단 | 70.40 | 70.00 |
평균이 83.13에서 79.80으로 하락했지만, 중앙값은 83.00으로 변하지 않았습니다.
이상치 포함 시 검정 결과
| 검정 | 통계량 | p 값 | 효과크기 | |------|--------|------|---------| | t-검정 | t = 4.22 | < .001 | d = 1.54 | | Mann-Whitney U | U = 14.50 | < .001 | r = .87 |
두 검정 모두 여전히 유의하지만, t-검정의 효과크기가 d = 3.18에서 d = 1.54로 절반 이하로 줄었습니다. 반면 Mann-Whitney U의 효과크기는 r = .94에서 r = .87로 소폭만 감소했습니다. 이것이 바로 **비모수 검정이 이상치에 강건(robust)**하다고 하는 이유입니다.
검정 선택 의사결정 트리
다음 단계를 순서대로 따라가면 적합한 검정을 선택할 수 있습니다.
1단계: 데이터 유형 확인
- 서열 척도(리커트, 순위 등)라면 → Mann-Whitney U
- 연속형(등간/비율 척도)이라면 → 2단계로
2단계: 표본 크기 확인
- 집단당 n < 15이면 → 정규성 검정이 검정력 부족, Mann-Whitney U 고려
- 집단당 n >= 15이면 → 3단계로
3단계: 정규성 검정
- Shapiro-Wilk p > .05이면 → 정규성 충족, t-검정 적합
- Shapiro-Wilk p < .05이면 → 4단계로
4단계: 표본 크기와 정규성 위반 정도 평가
- 집단당 n >= 30이면 → 중심극한정리에 의해 t-검정 여전히 강건
- 집단당 n < 30이고 정규성 위반이면 → Mann-Whitney U
5단계: 이상치 확인
- 극단적 이상치가 있다면 → Mann-Whitney U 고려
- 이상치가 없다면 → 위 결과에 따라 선택
흔한 실수와 주의사항
실수 1: 무조건 비모수 검정이 안전하다는 생각
비모수 검정은 가정이 적어 "안전한 선택"처럼 보이지만, 가정이 충족될 때 모수 검정(t-검정)이 더 높은 **검정력(statistical power)**을 가집니다. 즉, 실제로 차이가 있을 때 이를 발견할 확률이 높습니다. 불필요하게 비모수 검정을 사용하면 유의한 결과를 놓칠 수 있습니다.
실수 2: 정규성 검정에만 의존
Shapiro-Wilk 검정은 대표본에서 사소한 비정규성에도 유의하게 나올 수 있습니다. **시각적 방법(Q-Q 플롯, 히스토그램)**을 함께 활용하고, 왜도와 첨도 값을 확인하는 것이 바람직합니다.
실수 3: Mann-Whitney U를 중앙값 검정으로만 이해
Mann-Whitney U는 정확히 말하면 두 집단의 순위 분포가 동일한지를 검정합니다. 중앙값 비교로 해석하려면 두 집단의 분포 형태가 유사해야 합니다. 분포 형태가 다르면 중앙값이 아닌 순위의 확률적 우위(stochastic dominance)를 비교하는 것입니다.
실수 4: 효과크기를 보고하지 않음
p 값만으로는 차이의 실질적 크기를 알 수 없습니다. t-검정에서는 Cohen's d, Mann-Whitney U에서는 순위 이연상관 r을 반드시 보고하세요.
| 효과크기 | 작은 효과 | 중간 효과 | 큰 효과 | |---------|----------|----------|---------| | Cohen's d | 0.20 | 0.50 | 0.80 | | r (순위 이연상관) | 0.10 | 0.30 | 0.50 |
두 검정을 모두 실행해야 하는 경우
다음과 같은 상황에서는 두 검정을 모두 보고하는 것이 유용합니다.
- 가정 충족 여부가 경계선인 경우
- 논문 심사자가 두 가지 결과를 모두 요구하는 경우
- 두 검정의 결론이 일치하면 결과의 강건성(robustness)을 보여줄 수 있음
두 검정의 결론이 다른 경우에는, 데이터 특성(이상치 유무, 분포 형태)을 면밀히 검토하고 가정에 더 적합한 검정의 결과를 주로 보고합니다.
단계별 의사결정 플로차트: t-검정인가 Mann-Whitney인가?
두 검정 사이에서 고민할 때, 다음 5가지 질문을 순서대로 따라가면 명확한 답을 얻을 수 있습니다.
질문 1: 두 집단이 독립적인가?
먼저 두 집단이 서로 다른 참가자로 구성되어 있는지 확인하세요. 만약 동일한 참가자를 두 번 측정한 것이라면(예: 사전-사후 검사), 독립표본 비교가 아니라 대응표본 t-검정이나 Wilcoxon 부호순위 검정을 사용해야 합니다. 반복 측정은 t-검정과 Mann-Whitney 모두가 요구하는 독립성 가정을 위반합니다.
질문 2: 종속변수가 연속형인가?
t-검정은 수치적 차이가 의미 있는 등간 또는 비율 척도 데이터를 필요로 합니다. 결과 변수가 범주형(예/아니오, 합격/불합격)이라면 카이제곱 검정이나 Fisher 정확 검정을 고려하세요. 변수가 서열형(순위, 리커트 척도 항목)이라면 Mann-Whitney로 바로 가세요. Mann-Whitney는 원래 값이 아닌 순위에 기반하므로 서열 데이터를 자연스럽게 처리할 수 있습니다.
질문 3: 집단당 표본 크기가 30 이상인가?
표본 크기가 중요한 이유는 중심극한정리 때문입니다. 집단당 30개 이상의 관측치가 있으면, 원래 데이터의 분포와 무관하게 평균의 표본분포가 정규분포에 근접합니다. 이는 큰 표본에서 t-검정이 중간 정도의 비정규성에 강건해진다는 의미입니다. 집단이 30 미만이라면 질문 4로 넘어가서 분포의 형태를 주의 깊게 살펴보세요.
질문 4: 데이터가 정규성 검정을 통과하는가?
각 집단에 대해 Shapiro-Wilk 검정을 별도로 실시하세요. 두 집단 모두 p > 0.05이면 정규성 가정이 합리적으로 지지됩니다 — t-검정을 사용하세요. 한쪽이라도 정규성에서 유의하게 벗어나면(p < 0.05), Q-Q 플롯과 히스토그램의 시각적 검토 결과와 함께 판단하세요. 소표본에서 명확한 비정규성이 보이면 Mann-Whitney가 더 안전합니다. 대표본(n > 30)에서 경미한 비정규성이면 t-검정이 여전히 적합합니다.
질문 5: 분산이 동질적인가?
Levene의 등분산 검정을 실시하세요. 분산이 대략 같으면(Levene's p > 0.05) Student의 t-검정이 적합합니다. 분산이 유의하게 다르면(Levene's p < 0.05) 등분산을 가정하지 않는 Welch의 t-검정을 사용하세요. 분산이 다르다고 해서 반드시 Mann-Whitney를 써야 하는 것은 아닙니다 — Welch 보정이 모수적 틀 안에서 이 문제를 효과적으로 해결합니다.
요약 경로:
- 서열 데이터 → Mann-Whitney
- 연속형, 대표본, 대략 정규 → t-검정 (Student's 또는 Welch's)
- 연속형, 소표본, 비정규 → Mann-Whitney
- 연속형, 대표본, 심한 비정규 + 극단적 이상치 → Mann-Whitney
APA 보고 형식 비교: 나란히 놓고 보기
어떤 검정을 선택했느냐에 따라 보고 형식이 달라집니다. 동일한 연구를 두 가지 방식으로 보고한 예시를 통해 APA 출력이 어떻게 변하는지 확인하세요.
연구 맥락: 마음챙김 훈련을 받은 학생 집단(n = 30)과 통제 집단(n = 30)의 시험 불안 점수를 비교합니다.
t-검정 APA 보고 예시
독립표본 t-검정 결과, 마음챙김 집단(M = 42.3, SD = 8.7)이 통제 집단(M = 48.9, SD = 9.2)보다 시험 불안이 유의하게 낮았다, t(58) = 2.89, p = .005, d = 0.75.
핵심 요소: 평균, 표준편차, 자유도가 포함된 t 통계량, p 값, Cohen's d.
Mann-Whitney U APA 보고 예시
Mann-Whitney U 검정 결과, 마음챙김 집단(Mdn = 41.5)이 통제 집단(Mdn = 49.0)보다 시험 불안 점수가 유의하게 낮았다, U = 287, z = -2.67, p = .008, r = .35.
핵심 요소: 중앙값, U 통계량, z 점수, p 값, 순위 이연상관 r.
두 보고의 차이점
| 요소 | t-검정 | Mann-Whitney | |------|--------|-------------| | 중심경향치 | 평균(M)과 표준편차 | 중앙값(Mdn) | | 검정 통계량 | t(df) | U와 z | | 효과크기 | Cohen's d | 순위 이연상관 r | | 효과크기 기준 | 0.2 / 0.5 / 0.8 | 0.1 / 0.3 / 0.5 | | 신뢰구간 | 평균 차이에 대해 | 중앙값 차이에 대해 (선택) |
동일한 데이터임에도 p 값이 다소 다릅니다(0.005 vs 0.008). t-검정은 정규분포 데이터에서 더 많은 정보를 추출하여 더 작은 p 값을 산출합니다. 효과크기도 서로 다른 척도를 사용합니다: d = 0.75는 Cohen 기준 중간~큰 효과이고, r = 0.35는 순위 이연상관 기준 중간 효과입니다. d와 r 사이의 직접적인 수치 비교는 타당하지 않습니다.
비모수 검정에 대한 흔한 오해
비모수 검정에 대해 널리 퍼져 있는 몇 가지 믿음은 잘못되었거나 오해의 소지가 있습니다.
오해 1: 비모수 검정은 항상 검정력이 낮다
사실: 이상적인 조건(정규 데이터, 이상치 없음)에서 t-검정이 Mann-Whitney보다 약 5% 높은 검정력을 가집니다. 그러나 데이터가 비정규적일 때 — 꼬리가 두껍거나, 편향되었거나, 이상치가 포함된 경우 — Mann-Whitney가 상당히 더 높은 검정력을 보일 수 있습니다. 관측값의 5-10%만 다른 분포에서 온 오염 정규분포에서는 Mann-Whitney가 t-검정보다 자주 우수합니다. "비모수 검정은 검정력을 희생한다"는 말은 모수적 가정이 완벽하게 충족될 때만 사실입니다.
오해 2: Mann-Whitney U 검정은 중앙값을 비교한다
사실: Mann-Whitney는 한 집단의 값이 다른 집단의 값보다 체계적으로 큰 경향이 있는지를 검정합니다. 기술적으로는 확률적 우위(stochastic dominance)를 평가합니다 — 한 집단에서 무작위로 선택한 관측값이 다른 집단에서 무작위로 선택한 관측값을 초과할 확률입니다. 두 집단의 분포 형태(편향도, 산포)가 같을 때만 중앙값 비교로 단순화됩니다. 분포 형태가 다르면 중앙값이 같아도 Mann-Whitney가 유의할 수 있고, 중앙값이 달라도 비유의할 수 있습니다.
오해 3: 검정을 선택하기 전에 항상 정규성을 검정해야 한다
사실: 모든 분석 전에 정규성 검정을 루틴처럼 하는 것이 항상 필요하거나 바람직한 것은 아닙니다. 대표본(n > 30)에서 Shapiro-Wilk 같은 정규성 검정은 실질적 영향이 없는 사소한 편차에도 정규성을 기각하는 과검정력 문제가 있습니다. 일부 분야에서는 연구 설계나 측정 척도에 따라 검정이 결정됩니다. 예를 들어, 종속변수가 5점 리커트 척도라면 정규성 검정 결과와 무관하게 Mann-Whitney가 적합합니다. 설계 맥락을 고려하고, 플롯을 시각적으로 검토하며, 단일 정규성 검정의 p 값에 전체 분석 전략을 의존하지 마세요.
오해 4: 대표본이면 항상 t-검정이 정당화된다
사실: 대표본은 t-검정을 중간 정도의 비정규성에 강건하게 만들지만, 모든 문제를 없애지는 않습니다. 심한 이상치는 n = 200 이상에서도 여전히 평균과 표준편차를 왜곡할 수 있습니다. 데이터의 5%가 극단값(측정 오류나 별개의 하위 집단에서 온 값)이라면, 표본 크기와 무관하게 t-검정의 평균 기반 비교가 오해를 줄 수 있습니다. 또한 대표본이 측정의 근본적 문제를 해결하지도 않습니다 — 변수가 진정으로 서열형이라면, 1000개의 관측값에 t-검정을 사용하는 것이 Mann-Whitney보다 더 적합해지지 않습니다.
두 검정이 서로 다른 결과를 줄 때
데이터 분석에서 가장 당혹스러운 상황 중 하나는 동일한 데이터에 두 검정을 모두 적용했을 때 상반된 결론이 나오는 것입니다 — 하나는 유의하고 다른 하나는 그렇지 않은 경우. 교과서가 암시하는 것보다 이런 상황은 더 자주 발생하며, 왜 그런지 이해하면 적절하게 대처할 수 있습니다.
불일치가 발생하는 이유
가장 흔한 원인은 효과가 최소 하나의 검정에서 탐지 임계값 근처에 있기 때문입니다. t-검정과 Mann-Whitney는 데이터의 서로 다른 측면(평균 vs 순위 분포)을 평가하므로, 경계선 효과는 한 검정에서만 유의성 임계값을 넘을 수 있습니다. 다른 원인으로는:
- 이상치가 t-검정을 팽창/수축시킴. 소수의 극단값이 t-검정을 유의 쪽으로 밀거나 비유의 쪽으로 밀 수 있지만, Mann-Whitney는 거의 영향받지 않습니다.
- 집단 간 분포 차이. 한 집단은 편향되고 다른 집단은 대칭적이면, 두 검정이 사실상 다른 질문을 하고 있으므로 다른 답이 나와도 놀랍지 않습니다.
- 동점(tied values)이 Mann-Whitney 검정력을 약화시킴. 데이터에 동일한 값이 많으면 순위의 변동성이 줄어들어 Mann-Whitney의 민감도가 떨어질 수 있습니다.
대처 방법
- 두 결과를 투명하게 보고하세요. 두 검정을 모두 실행했다면 두 결과를 모두 보고하세요. 유의한 것만 선택적으로 보고하는 것은 p-hacking입니다.
- 불일치를 논의하세요. 데이터 특성(이상치, 편향, 동점)에 기반하여 왜 검정들이 다를 수 있는지 설명하세요.
- 데이터에 맞는 검정을 우선시하세요. 정규성이 위반되면 Mann-Whitney 결과가 더 신뢰할 수 있습니다. 가정이 충족되면 t-검정 결과가 더 무겁습니다.
- 효과크기에 집중하세요. p 값이 상충하는 메시지를 줄 때, 효과크기가 더 명확한 이야기를 해줍니다. 경계선 유의성을 가진 작은~중간 효과크기는 단순히 연구가 해당 효과를 확정적으로 탐지하기에 충분한 검정력을 갖지 못했다는 의미입니다.
- 민감도 분석을 고려하세요. 이상치 포함/제거, 또는 다른 변환을 적용하여 결론이 얼마나 강건한지 확인하세요.
자주 묻는 질문 (FAQ)
Q1: 데이터가 약간 비정규적이어도 t-검정을 사용할 수 있나요?
네. t-검정은 중간 정도의 정규성 위반에 강건합니다. 특히 집단당 표본 크기가 30 이상이면 중심극한정리에 의해 평균의 표본분포가 정규에 근접합니다. 그러나 심한 편향, 두꺼운 꼬리, 또는 소표본(n < 15)에서는 분포 형태에 의존하지 않는 Mann-Whitney U 검정이 더 적합합니다.
Q2: Mann-Whitney U에는 어떤 효과크기를 보고해야 하나요?
순위 이연상관 r을 보고하세요. r = Z / sqrt(N)으로 계산하며, Z는 표준화된 검정 통계량이고 N은 전체 표본 크기입니다. 해석 기준은 Pearson의 r과 같습니다: .10은 작은 효과, .30은 중간 효과, .50은 큰 효과. 일부 연구자는 공통언어효과크기(CLES)도 보고하는데, 이는 한 집단에서 무작위로 선택한 관측값이 다른 집단의 관측값을 초과할 확률을 나타냅니다.
Q3: Mann-Whitney는 Wilcoxon 순위합 검정과 같은 건가요?
네. Mann-Whitney U 검정과 Wilcoxon 순위합 검정은 두 독립 집단을 비교하는 수학적으로 동등한 검정입니다. 같은 p 값을 산출하고 같은 결론에 이릅니다 — 단지 서로 다른 검정 통계량(U vs W)을 사용할 뿐이며 상호 변환이 가능합니다. 이것을 대응표본을 위한 Wilcoxon 부호순위 검정과 혼동하지 마세요.
Q4: 검정을 선택하기 전에 항상 정규성 검정을 해야 하나요?
반드시 그렇지는 않습니다. 대표본(집단당 n > 30)에서 Shapiro-Wilk 같은 정규성 검정은 t-검정에 실질적 영향이 없는 사소한 편차에도 정규성을 기각하는 경우가 많습니다. 먼저 연구 맥락과 측정 척도를 고려하세요. Q-Q 플롯과 히스토그램을 시각적으로 검토하여 분포가 합리적으로 대칭적인지 평가하세요. 정규성 검정의 p 값에만 의존하기보다, 데이터의 전체적인 형태, 이상치 유무, 측정 수준에 기반하여 결정하세요.
Q5: Mann-Whitney는 동점(tied values)을 처리할 수 있나요?
네, 하지만 동점이 많으면 검정력이 떨어집니다. 표준 Mann-Whitney 공식에는 U 통계량의 분산을 조정하는 동점 보정 인자가 포함되어 있습니다. 두 집단 전체에서 15-20% 이상의 값이 동점이면(이산형 데이터나 조잡한 측정 척도에서 흔함) 검정의 민감도가 감소합니다. 이 경우 동점 보정된 z 통계량을 보고하고, 동점을 줄이기 위해 측정을 정교화할 수 있는지 고려하세요.
Q6: Mann-Whitney 검정에 필요한 최소 표본 크기는?
의미 있는 결과를 얻으려면 집단당 최소 5개의 관측치가 필요합니다. 정규 근사(z-검정)의 정확성을 위해서는 집단당 최소 8-10개가 권장됩니다. 중간 효과(r = .30)를 탐지하기에 충분한 검정력을 갖추려면 집단당 최소 20-30개를 목표로 하세요. 예상 효과크기와 원하는 검정력에 맞는 정확한 표본 크기는 검정력 분석 계산기를 사용하세요.
Q7: Welch의 t-검정은 t-검정과 Mann-Whitney의 좋은 절충안인가요?
Welch의 t-검정은 하나의 특정 가정 위반 — 불균등한 분산 — 을 해결하지만, 데이터가 대략적으로 정규분포를 따른다는 가정은 여전히 유지합니다. 분산이 같을 때 Student의 t-검정과 동등하게 수행되고 다를 때 더 나으므로 훌륭한 기본 선택입니다. 그러나 비정규성 문제를 해결하지는 않습니다. 관심사가 분포의 형태에 관한 것이라면 Mann-Whitney가 적절한 선택으로 남습니다.
Q8: 서열 데이터에 Mann-Whitney를 사용할 수 있나요?
네. Mann-Whitney U 검정은 원래 값이 아닌 순위에 기반하여 작동하므로 서열 데이터에 특별히 적합하게 설계되었습니다. 데이터 포인트 간의 등간격을 가정하지 않으므로, 리커트 척도 항목, 중증도 평가, 만족도 순위 등 순서가 있는 범주형 변수에 적합합니다. 사실 서열 데이터는 t-검정 대신 Mann-Whitney를 선택하는 가장 강력한 근거 중 하나입니다.
Q1(기존): t-검정의 정규성 가정이 위반되면 결과가 완전히 무효인가요?
아닙니다. t-검정은 정규성 위반에 대해 상당히 **강건(robust)**합니다. 특히 표본 크기가 클수록(집단당 30 이상) 중심극한정리에 의해 정규성 위반의 영향이 줄어듭니다. 다만 소표본에서 심한 비정규성(강한 편향이나 극단적 이상치)이 있으면 결과가 왜곡될 수 있습니다.
Q2: Welch의 t-검정과 Student의 t-검정 중 어느 것을 사용해야 하나요?
현대 통계학에서는 Welch의 t-검정을 기본으로 사용하는 것을 권장합니다. Welch 검정은 등분산 가정이 충족될 때도 Student t-검정과 거의 동일한 결과를 내면서, 등분산이 위반될 때도 정확한 결과를 제공합니다.
Q3: 표본 크기가 두 집단에서 다르면 어떤 검정이 더 좋은가요?
표본 크기가 크게 다른 경우(예: n1 = 50, n2 = 10), t-검정은 분산이 큰 집단의 표본이 작을 때 왜곡될 수 있습니다. Mann-Whitney U는 표본 크기 불균형에 상대적으로 덜 민감합니다. Welch의 t-검정도 좋은 대안입니다.
Q4: 리커트 5점 척도 데이터에는 어떤 검정을 사용하나요?
리커트 5점 척도는 엄밀히 서열 척도이므로 Mann-Whitney U가 이론적으로 적합합니다. 그러나 실무에서는 리커트 척도를 연속형으로 간주하고 t-검정을 적용하는 연구자도 많습니다. 보수적으로 접근하거나, 척도의 범위가 좁다면(5점) Mann-Whitney U를 사용하세요.
Q5: 두 검정의 p 값이 서로 크게 다르면 어떻게 해야 하나요?
p 값이 크게 다르면 대부분 데이터에 이상치, 심한 비대칭, 또는 분산 차이 등의 문제가 있습니다. 이 경우 원시 데이터를 다시 검토하고, 어떤 검정의 가정에 더 부합하는지 판단한 후 해당 검정의 결과를 주로 보고합니다.
Q6: 단측검정(one-tailed)을 사용할 수 있나요?
두 검정 모두 단측검정과 양측검정이 가능합니다. 단, 단측검정은 방향에 대한 사전 가설이 명확할 때만 사용해야 합니다. 데이터를 본 후에 방향을 결정하는 것은 적절하지 않습니다.
직접 해보기
StatMate에서 두 검정을 모두 직접 실행해볼 수 있습니다.
- 독립표본 t-검정 계산기 — 평균 비교, Cohen's d, 신뢰구간
- Mann-Whitney U 계산기 — 순위 비교, 효과크기 r, APA 보고
동일한 데이터로 두 검정의 결과를 비교하면서, 어떤 상황에서 결론이 달라지는지 직접 확인해보세요.