모수 검정의 한계
t-검정이나 ANOVA와 같은 모수 검정은 추론 통계학의 핵심 도구입니다. 강력하고, 잘 이해되어 있으며, 널리 교육되고 있습니다. 그러나 이들은 정규분포, 등간/비율 척도, 등분산성, 관측치의 독립성이라는 일련의 가정에 기반합니다. 데이터가 이러한 가정을 하나 이상 위반할 때, 비모수 검정은 분포에 대한 가정을 최소화하는 강건한 대안을 제공합니다.
이 가이드는 비모수 검정에 대해 연구자가 알아야 할 모든 것을 다룹니다: 비모수 검정이 진정으로 필요한 시점, 올바른 검정의 선택 방법, APA 형식의 결과 보고법, 그리고 가장 흔한 실수를 피하는 방법까지. 서열형 설문 데이터를 분석하든, 소표본을 다루든, 심하게 편향된 분포를 처리하든, 이 가이드가 통계적 접근법에 대한 올바른 결정을 내리는 데 도움이 될 것입니다.
비모수 검정을 사용해야 할 때
비모수 검정의 선택은 가볍게 내릴 결정이 아니며, 과도한 조심성에서 기본 선택지로 삼아서도 안 됩니다. 핵심 질문은 데이터가 완벽하게 정규분포인지가 아니라 — 실제 데이터가 완벽하게 정규분포인 경우는 없습니다 — 가정 위반이 모수 검정 결과를 무효화할 만큼 심각한지입니다.
비모수 검정을 선택하는 주요 이유
1. 서열 척도 데이터. 종속 변수가 리커트 척도, 통증 심각도 평정, 교육 수준 등의 서열 척도로 측정된 경우, 응답 범주 간 간격이 반드시 동일하지 않으므로 모수 검정은 부적절합니다. 4점 평정이 반드시 2점 평정의 두 배를 의미하는 것은 아닙니다. 비모수 검정은 원점수가 아닌 순위에 기반하여 작동하므로 서열 데이터에 적합합니다.
2. 정규성의 심각한 위반. 모수 검정은 일반적으로 정규성의 중등도 이탈에 대해 강건하지만(특히 큰 표본에서), 심한 편향, 두꺼운 꼬리, 또는 다봉 분포는 p값과 신뢰구간을 왜곡할 수 있습니다. Shapiro-Wilk 검정과 시각적 검토(히스토그램, Q-Q 도표)를 함께 사용하여 정규성을 평가하세요. 분포가 명백히 비정규이고 데이터 변환(로그, 제곱근, 역수)으로도 문제가 해결되지 않으면 비모수 검정이 정당합니다.
3. 소표본. 그룹당 관측치가 15~20개 미만이면 중심극한정리의 보호 효과가 미미하고, 표본평균의 표집분포가 정규분포에 근사하지 않을 수 있습니다. 이러한 경우 모수 검정 통계량의 타당성이 의문시되며, 비모수 검정이 더 안전한 대안을 제공합니다.
4. 제거할 수 없는 이상치. 극단값은 평균과 분산에 불균형적인 영향을 미쳐 모수 검정 통계량을 팽창시키거나 축소시킵니다. 이상치가 측정 오류가 아닌 진정한 데이터 포인트이고 정당하게 제거할 수 없는 경우, 순위에 기반한 비모수 검정은 이상치의 영향에 훨씬 덜 민감합니다.
5. 순위 또는 선호도 데이터. 참여자가 항목을 순위화하거나, 선호도를 판단하거나, 본질적으로 서열적인 데이터를 생성할 때 비모수 검정이 자연스러운 선택입니다.
의사결정 기준: 실용적 체크리스트
비모수 검정으로 기본 설정하기 전에 다음 체크리스트를 확인하세요:
- 종속 변수가 최소 등간 척도인가? 아니라면(서열 데이터), 비모수를 사용합니다.
- Shapiro-Wilk 검정을 실행합니다. p < .05인가? 그렇다면 시각적으로 검토합니다.
- 히스토그램과 Q-Q 도표를 검토합니다. 정규성으로부터의 이탈이 심각한가?
- 데이터 변환(로그, 제곱근)이 분포를 정규화할 수 있는가?
- 표본 크기가 중심극한정리가 적용될 만큼 충분한가(그룹당 n > 30)?
- 평균에 실질적으로 영향을 미치는 극단적 이상치가 있는가?
여러 위험 신호에 "예"라고 답하고 변환이 도움이 되지 않는다면 비모수 대안을 사용하세요. 경미한 위반이 하나만 존재하고 표본이 합리적으로 크다면 모수 검정이 여전히 유효할 가능성이 높습니다.
비모수 검정 대응표 (완전판)
다음 표는 각 대표적 모수 검정을 그에 대응하는 비모수 검정과 적절한 효과크기와 함께 정리한 것입니다:
| 연구 설계 | 모수 검정 | 비모수 대안 | 효과크기 | |---|---|---|---| | 독립 2그룹 | 독립표본 t-검정 | Mann-Whitney U 검정 | r = Z / sqrt(N) | | 대응 2그룹 | 대응표본 t-검정 | Wilcoxon 부호순위 검정 | r = Z / sqrt(N) | | 독립 3그룹 이상 | 일원배치 ANOVA | Kruskal-Wallis H 검정 | eta-squared (H) | | 반복측정 3조건 이상 | 반복측정 ANOVA | Friedman 검정 | Kendall's W | | 이변량 관련성 (연속) | Pearson 상관 (r) | Spearman 순위상관 (rho) | rho 자체 | | 2x2 분할표 (소표본) | 카이제곱 검정 | Fisher 정확 검정 | 오즈비, phi |
이 대응 관계를 이해하는 것은 올바른 검정을 선택하는 데 필수적입니다. 모수 버전과 비모수 버전은 동일한 연구 질문을 다루지만 가정과 분석하는 데이터 유형이 다릅니다.
Mann-Whitney U 검정
사용 시기
Mann-Whitney U 검정(Wilcoxon 순위합 검정이라고도 함)은 종속 변수가 서열적이거나 연속 변수가 정규성 가정을 심각하게 위반할 때 두 독립 그룹을 비교합니다. 순위 분포를 비교하여 한 그룹이 다른 그룹보다 더 큰 값을 가지는 경향이 있는지를 검정합니다.
가정
흔히 "가정이 없다"고 표현되지만, Mann-Whitney U 검정에도 가정은 있습니다:
- 관측치는 그룹 간 및 그룹 내에서 독립적이어야 합니다.
- 종속 변수는 최소 서열 척도여야 합니다.
- 두 그룹의 분포가 동일한 형태를 가져야 합니다(중앙값 비교로 해석하려면). 형태가 다르면 검정은 중심경향치가 아닌 확률적 우위를 비교합니다.
APA 보고 형식
Mann-Whitney U 검정의 표준 APA 형식은 다음과 같습니다:
Mann-Whitney U 검정 결과, 실험집단의 만족도 점수(Mdn = 4.50)가 통제집단(Mdn = 3.00)보다 유의하게 높았다, U = 45.00, z = -2.52, p = .012, r = .38.
포함해야 할 핵심 요소:
- 각 그룹의 중앙값(및 사분위범위), 평균이 아님
- U 통계량
- z 근사값(특히 큰 표본에서)
- 정확한 p값
- 효과크기, 일반적으로 r = Z / sqrt(N)
효과크기 해석
Mann-Whitney U 검정의 효과크기 r은 Pearson의 r과 동일한 기준을 따릅니다:
| r 값 | 해석 | |---|---| | .10 | 작은 효과 | | .30 | 중간 효과 | | .50 | 큰 효과 |
z 통계량을 전체 표본 크기의 제곱근으로 나누어 r을 계산합니다: r = |Z| / sqrt(N). 이는 그룹 간 차이의 크기에 대한 표준화된 측정치를 제공합니다.
Wilcoxon 부호순위 검정
사용 시기
Wilcoxon 부호순위 검정은 대응표본 t-검정의 비모수 대안입니다. 두 관련 측정값(예: 사전-사후 검사, 또는 두 대응 조건)이 있고 차이 점수의 분포가 정규성을 위반할 때 사용합니다. 쌍 간 중앙값 차이가 0과 유의하게 다른지를 검정합니다.
작동 원리
검정은 대응 관측치 간의 차이를 기반으로 작동합니다:
- 각 쌍에 대해 차이를 계산합니다.
- 절대 차이의 순위를 매깁니다(0인 차이는 제외).
- 원래 차이의 부호를 각 순위에 부여합니다.
- 양의 순위와 음의 순위를 각각 합산합니다.
- 검정 통계량 T는 이 두 합계 중 작은 값입니다.
APA 보고 형식
Wilcoxon 부호순위 검정 결과, 통증 점수가 중재 전(Mdn = 65.00)에서 중재 후(Mdn = 78.00)로 유의하게 증가했다, T = 12.00, z = -2.98, p = .003, r = .52.
핵심 요소:
- 두 조건의 중앙값
- T 통계량(빈도가 적은 부호의 순위합)
- z 근사값
- 정확 또는 점근적 p값
- 효과크기 r = |Z| / sqrt(N), 여기서 N은 0이 아닌 차이의 수
효과크기
Mann-Whitney U 검정에서 사용된 것과 동일한 r 지표가 적용됩니다. 위 예시의 r = .52는 큰 효과를 나타냅니다. 통계적 유의성만으로는 발견의 실질적 중요성을 전달하지 못하므로 항상 효과크기를 보고해야 합니다. 매우 큰 표본에서는 사소할 정도로 작은 차이도 통계적으로 유의할 수 있습니다.
특별 고려사항
- 동순위: 여러 차이 점수가 동일한 절대값을 가질 때, 차지했을 순위의 평균을 부여합니다. 대부분의 소프트웨어가 이를 자동으로 처리합니다.
- 차이가 0인 경우: 사전-사후 점수가 동일한 쌍은 분석에서 제외되어 유효 표본 크기가 줄어듭니다.
- 정확 vs 점근적 p값: 소표본(n < 25)에서는 정규 근사에 의존하기보다 정확 p값을 요청하세요.
Kruskal-Wallis H 검정
사용 시기
Kruskal-Wallis H 검정은 일원배치 ANOVA의 비모수 대안입니다. 서열 또는 비정규 연속 종속 변수에서 세 그룹 이상의 독립 그룹을 비교할 때 사용합니다. ANOVA처럼 모든 그룹이 동일 모집단에서 추출되었다는 귀무가설을 검정하지만, 평균이 아닌 순위에 기반하여 작동합니다.
가정
- 관측치는 그룹 간 및 그룹 내에서 독립적이어야 합니다.
- 종속 변수는 최소 서열 척도여야 합니다.
- 모든 그룹의 분포가 동일한 형태를 가져야 합니다(중앙값 비교 해석을 위해).
APA 보고 형식
Kruskal-Wallis H 검정 결과, 세 치료 조건에 따른 환자 만족도에 통계적으로 유의한 차이가 있었다, H(2) = 12.45, p = .002, eta^2^~H~ = .15.
핵심 요소:
- 자유도(그룹 수 - 1)가 포함된 H 통계량
- p값
- 효과크기: H 통계량의 eta-squared, eta^2_H = (H - k + 1) / (N - k)로 계산, 여기서 k는 그룹 수
Dunn 사후검정
유의한 Kruskal-Wallis 결과는 최소 하나의 그룹이 다르다는 것을 알려줄 뿐, 어떤 그룹이 다른지는 알려주지 않습니다. Bonferroni 보정(또는 Holm 보정)을 적용한 Dunn 검정으로 구체적인 쌍별 차이를 확인합니다.
사후검정 결과 보고 예시:
Bonferroni 보정을 적용한 Dunn 사후검정 결과, A그룹(Mdn = 8.50)이 C그룹(Mdn = 5.00)보다 유의하게 높았으나(p = .001), B그룹(Mdn = 7.00)과는 유의한 차이가 없었다(p = .142).
효과크기 해석
| eta-squared (H) | 해석 | |---|---| | .01 | 작은 효과 | | .06 | 중간 효과 | | .14 | 큰 효과 |
이 기준값은 ANOVA에서 사용되는 것과 동일한 Cohen의 eta-squared 벤치마크를 따릅니다.
Friedman 검정
사용 시기
Friedman 검정은 반복측정 ANOVA의 비모수 대안입니다. 동일한 참여자가 세 조건(또는 시점) 이상에서 측정되고 데이터가 서열적이거나 정규성을 위반할 때 사용합니다. 조건 간 분포가 동일한지를 검정합니다.
작동 원리
Friedman 검정은 각 참여자의 점수를 조건별로 순위화합니다(피험자 내 순위화). 그런 다음 평균 순위가 조건 간에 유의하게 다른지를 검정합니다. 이 접근법은 각 참여자 내에서 순위를 매김으로써 개인차를 통제합니다.
APA 보고 형식
Friedman 검정 결과, 네 시점에 걸친 증상 심각도에 통계적으로 유의한 차이가 있었다, chi^2^(3) = 18.60, p < .001, W = .62.
핵심 요소:
- 자유도(조건 수 - 1)가 포함된 카이제곱 통계량
- p값
- 효과크기로서 Kendall's W(0에서 1 범위)
사후비교
Friedman 검정이 유의하면 Nemenyi 검정 또는 Bonferroni 보정을 적용한 Wilcoxon 부호순위 검정으로 쌍별 비교를 수행합니다. Nemenyi 검정은 Friedman 검정 이후의 사후비교를 위해 특별히 설계되었으며 가족별 오류율을 통제합니다.
사후검정 결과 보고 예시:
Bonferroni 보정을 적용한 Wilcoxon 부호순위 사후검정(보정된 alpha = .008) 결과, 기초선과 8주차(p = .002) 및 기초선과 12주차(p < .001) 사이에서 유의한 개선이 나타났으나, 4주차와 8주차 사이에서는 유의하지 않았다(p = .089).
효과크기: Kendall's W
| W 값 | 해석 | |---|---| | .10 | 작은 효과 (약한 일치) | | .30 | 중간 효과 (중등도 일치) | | .50 | 큰 효과 (강한 일치) |
Kendall's W는 일치도의 측도로도 해석할 수 있습니다: W = .62는 피험자 내 순위 간 최대 가능 일치의 62%가 조건 간에 존재한다는 것을 의미합니다.
Spearman 순위상관
사용 시기
Spearman 순위상관계수(rho, r_s로 표기)는 두 변수 간 단조적 관계의 강도와 방향을 측정합니다. 다음과 같은 경우에 사용합니다:
- 하나 이상의 변수가 서열 척도인 경우
- 변수 간 관계가 단조적이지만 반드시 선형적이지 않은 경우
- 연속 변수가 정규성을 위반하는 경우
- Pearson의 r을 왜곡할 수 있는 유의한 이상치가 있는 경우
Pearson의 r과의 차이
Pearson의 r은 최소 등간 척도이고 대략적으로 정규분포인 두 연속 변수 간의 선형 관계를 측정합니다. Spearman의 rho는 두 변수를 먼저 순위화한 후 순위에 대해 Pearson의 r을 계산합니다. 이로 인해:
- 이상치에 강건합니다(순위가 극단값을 압축하므로).
- 서열 데이터에 적합합니다.
- 선형 관계뿐만 아니라 모든 단조적 관계에 민감합니다.
그러나 Pearson의 r에 대한 모든 가정이 충족될 때는 Pearson의 r이 더 강력하며 우선적으로 사용해야 합니다.
APA 보고 형식
경력 연수와 직무 만족도 사이에 강한 양의 단조적 관계가 있었다, r~s~(48) = .72, p < .001.
핵심 요소:
- Spearman 상관임을 명시(r_s, r이 아님)
- 괄호 안에 자유도(N - 2) 보고
- 상관계수
- p값
- 선택적으로 결정계수(r_s의 제곱)
해석
Spearman의 rho는 Pearson의 r과 동일한 척도를 사용합니다:
| |r_s| 값 | 해석 | |---|---| | .10–.29 | 작은/약한 | | .30–.49 | 중간/중등도 | | .50–1.00 | 큰/강한 |
Pearson의 r과의 비교
| 특성 | Pearson의 r | Spearman의 rho | |---|---|---| | 데이터 수준 | 등간/비율 | 서열 이상 | | 관계 유형 | 선형 | 단조적 | | 분포 가정 | 이변량 정규 | 없음 | | 이상치 민감도 | 높음 | 낮음 | | 통계적 검정력 | 높음 (가정 충족 시) | 낮음 |
비모수 검정의 검정력과 한계
검정력의 상충관계
비모수 검정의 가장 중요한 한계는 모수 가정이 완전히 충족될 때 대응하는 모수 검정에 비해 통계적 검정력이 낮다는 것입니다. 검정력은 실제 효과가 존재할 때 이를 탐지할 확률을 의미합니다.
정규분포 데이터의 경우:
- Mann-Whitney U 검정은 독립표본 t-검정 검정력의 약 95%를 가집니다(점근적 상대 효율 = 0.955).
- Wilcoxon 부호순위 검정은 대응표본 t-검정 검정력의 약 95%를 가집니다.
- Kruskal-Wallis 검정은 ANOVA에 비해 유사한 상대 효율을 가집니다.
이는 데이터가 진정으로 정규분포라면 비모수 검정으로 동일한 검정력을 달성하기 위해 약간 더 큰 표본이 필요하다는 것을 의미합니다. 그러나 데이터가 비정규일 때, 모수 검정의 가정이 위반되므로 비모수 검정이 실제로 더 높은 검정력을 가질 수 있습니다.
표본 크기 고려사항
비모수 검정은 약간 낮은 검정력을 가지므로 동일한 효과를 탐지하기 위해 더 큰 표본이 필요할 수 있습니다. 대략적인 지침으로, 비모수 검정 사용을 예상할 때 계획된 표본 크기를 약 5~15% 증가시키세요. G*Power 등의 소프트웨어에서 비모수 검정을 위한 공식적인 검정력 분석이 가능합니다.
최소 권장 표본 크기:
- Mann-Whitney U: 정규 근사가 적절하려면 그룹당 최소 10~15명.
- Wilcoxon 부호순위: 최소 10~15쌍.
- Kruskal-Wallis: 그룹당 최소 5명(더 많을수록 좋음).
- Friedman: 조건별 최소 10~15명의 참여자.
비모수 검정이 할 수 없는 것
- 다요인 설계로 쉽게 확장되지 않습니다. 이원배치 ANOVA나 ANCOVA의 직접적인 비모수 대안은 없습니다.
- 특정 분포 모수(평균, 분산)를 검정하지 않으며 순위 분포를 검정합니다.
- 모수 검정보다 데이터에 대해 적은 정보를 제공합니다(순위는 크기 정보를 잃습니다).
- 중앙값에 대한 신뢰구간은 평균에 대한 것보다 덜 정밀합니다.
흔한 실수 피하기
실수 1: 불필요하게 비모수 검정 사용하기
가장 빈번한 오류는 위반이 경미하고 표본이 큰데도 비정규성의 첫 징후에서 비모수 검정으로 전환하는 것입니다. 모수 검정, 특히 t-검정과 ANOVA는 정규성의 중등도 위반에 대해 매우 강건합니다. 특히:
- 그룹 간 표본 크기가 동일할 때
- 전체 표본 크기가 30~40을 초과할 때
- 분포가 단봉이고 약간의 편향만 있을 때
"안전을 위해" 비모수 검정을 실행하는 것은 의미 있는 이득 없이 통계적 검정력을 희생합니다.
실수 2: 중앙값 대신 평균 보고하기
비모수 검정을 사용할 때 여러분은 평균이 아닌 순위 분포에 대한 진술을 하고 있습니다. Mann-Whitney U 검정과 함께 평균과 표준편차를 보고하는 것은 내적으로 모순됩니다. 대신 중앙값과 사분위범위(IQR)를 보고하세요:
- 부적절: M = 4.25, SD = 1.32
- 적절: Mdn = 4.50, IQR = 3.00–5.25
일부 심사자는 둘 다 보고하는 것을 허용하지만, 주요 기술 통계는 중앙값과 IQR이어야 합니다.
실수 3: 효과크기 누락
많은 연구자가 비모수 검정에서 검정 통계량과 p값만 보고하고 효과크기를 완전히 생략합니다. 이는 중대한 누락입니다. APA 스타일과 대부분의 저널 지침은 모든 통계 검정에 효과크기를 요구합니다. 각 비모수 검정에는 적절한 효과크기 측도가 있습니다:
- Mann-Whitney U와 Wilcoxon: r = |Z| / sqrt(N)
- Kruskal-Wallis: eta-squared (H)
- Friedman: Kendall's W
- Spearman: rho 자체가 효과크기 역할
실수 4: 사후검정 미실시
Kruskal-Wallis와 Friedman 같은 총괄 검정에서 유의한 결과는 최소 하나의 그룹이나 조건이 다르다는 것만 알려줍니다. 어떤 특정 그룹이 다른지 확인하기 위해 적절한 사후비교(Kruskal-Wallis에는 Dunn 검정, Friedman에는 Nemenyi 또는 보정된 Wilcoxon)를 반드시 수행해야 합니다.
실수 5: 서열 데이터를 연속형으로 취급하기
연구자들은 때때로 리커트 척도 데이터(예: 1~5점 평정)에 데이터가 "등간 척도에 충분히 가깝다"고 주장하며 모수 검정을 적용합니다. 이 관행은 논쟁의 여지가 있지만, 개별 리커트 항목(합성 척도가 아닌)이 종속 변수일 때는 비모수 검정이 더 적절합니다. 여러 항목의 합계나 평균인 합성 리커트 척도는 중심극한정리에 의해 정규분포에 가까워지는 경향이 있어 모수 분석을 정당화할 수 있습니다.
실수 6: 분포 형태 가정 무시하기
Mann-Whitney U 검정은 흔히 중앙값을 비교하는 것으로 설명되지만, 이는 두 분포가 동일한 형태(단지 이동된)를 가질 때만 정확합니다. 분포가 다른 형태(예: 하나는 좌편향, 다른 하나는 우편향)를 가지면 검정은 중앙값이 아닌 확률적 우위를 비교합니다. 결과를 중앙값 비교로 해석하기 전에 히스토그램이나 밀도 도표로 분포 형태를 확인하세요.
모수와 비모수 선택을 위한 실전 워크플로우
데이터를 분석할 때 다음 의사결정 트리를 따르세요:
- 측정 척도를 검토합니다. 서열이면 비모수를 사용합니다. 등간/비율이면 2단계로 진행합니다.
- 정규성을 평가합니다. Shapiro-Wilk 검정을 실행하고 Q-Q 도표와 히스토그램을 생성합니다. p > .05이고 도표가 합리적이면 모수를 사용합니다. p < .05이면 3단계로 진행합니다.
- 심각도를 평가합니다. 정규성 이탈이 심각한가(강한 편향, 이상치, 쌍봉)? 아니면 경미한가? 그룹당 n > 30이고 경미한 위반이면 모수 검정이 여전히 유효합니다.
- 변환을 시도합니다. 로그, 제곱근, 역수 변환은 많은 분포를 정규화할 수 있습니다. 변환이 효과가 있으면 변환된 데이터에 모수 검정을 사용합니다.
- 표본 크기를 고려합니다. 매우 작은 표본(그룹당 n < 15)에서는 중등도의 비정규성도 비모수 검정을 정당화합니다.
- 결정을 내립니다. 위반이 심각하고 변환이 실패하며 표본이 작으면 적절한 비모수 검정을 사용합니다. 그렇지 않으면 모수 검정이 충분할 가능성이 높습니다.
직접 해보기
StatMate는 모든 주요 비모수 검정에 대한 무료 계산기를 제공하며, APA 형식 결과, 효과크기, 사후비교를 포함합니다:
- Mann-Whitney U 검정 계산기 — 자동 효과크기 계산으로 두 독립 그룹 비교
- Wilcoxon 부호순위 검정 계산기 — 정확 및 점근적 p값으로 대응 데이터 분석
- Kruskal-Wallis H 검정 계산기 — Dunn 사후검정으로 세 그룹 이상 비교
- Friedman 검정 계산기 — Nemenyi 사후비교로 반복측정 데이터 분석
각 계산기는 논문에 직접 복사할 수 있는 완전한 APA 형식 출력과 함께 적절한 효과크기 및 상세한 해석 안내를 제공합니다.
자주 묻는 질문
비모수 검정을 큰 표본에서도 사용할 수 있나요?
네, 비모수 검정은 어떤 표본 크기에서도 사용할 수 있습니다. 그러나 큰 표본(그룹당 n > 30)에서는 중심극한정리에 의해 비정규 데이터에서도 모수 검정 통계량이 유효한 경우가 많습니다. 이런 경우 모수 검정이 약간 더 높은 통계적 검정력을 가지므로 일반적으로 선호됩니다. 주요 예외는 서열 데이터로, 서열 데이터에서는 표본 크기와 관계없이 비모수 검정이 적합합니다.
모수와 비모수 검정을 둘 다 실행하고 유의한 것만 보고해도 되나요?
아닙니다. 이는 p-해킹의 한 형태입니다. 결과를 검토하기 전에 데이터 특성과 가정에 기반하여 어떤 검정을 사용할지 결정해야 합니다. 민감도 분석으로 두 검정을 모두 실행하는 경우, 두 결과를 모두 보고하고 일치 또는 불일치를 언급하세요. 유의한 결과를 내는 검정만 선택적으로 보고하지 마세요.
비모수 검정에서 동순위는 어떻게 처리하나요?
동순위(동일한 값)는 특히 서열 데이터에서 흔합니다. 대부분의 비모수 검정은 동순위 값이 차지했을 순위의 평균을 부여하여 처리합니다. 예를 들어, 두 값이 3위와 4위에서 동순위이면 둘 다 3.5의 순위를 받습니다. 현대 통계 소프트웨어는 동순위를 자동으로 처리합니다. 동순위가 광범위할 때(데이터의 15~20% 이상), 보정 계수를 사용하거나 점근적 근사 대신 정확 p값을 보고하는 것을 고려하세요.
Mann-Whitney U에서 z 근사값과 정확 p값 중 무엇을 보고해야 하나요?
소표본(총 N이 40 미만)에서는 정규 근사가 정확하지 않을 수 있으므로 정확 p값이 선호됩니다. 큰 표본에서는 z 근사값이 표준적이고 계산적으로 실용적입니다. 많은 저널과 심사자는 효과크기 계산(r = Z / sqrt(N))을 용이하게 하기 위해 U와 함께 z 통계량을 보고하는 것을 선호합니다. 가능하면 둘 다 보고하세요: U = 45.00, z = -2.52, p = .012.
비모수 검정으로 상호작용 효과를 검출할 수 있나요?
Kruskal-Wallis와 Friedman 검정 같은 표준 비모수 검정은 일요인 설계용으로 설계되었으며 상호작용 효과를 직접 검정할 수 없습니다. 상호작용 항이 있는 요인 설계에는 이원배치 ANOVA의 널리 인정된 비모수 대안이 없습니다. 선택지로는 Scheirer-Ray-Hare 검정(한계가 있음)이나 정렬순위변환(ART) ANOVA가 있습니다. 실제로 많은 연구자들은 비정규 데이터에서도 ANOVA의 강건성에 의존하여 요인 설계에 모수적 ANOVA를 사용합니다.
Mann-Whitney U 검정과 Wilcoxon 순위합 검정의 차이는 무엇인가요?
두 검정은 같은 검정입니다. Mann-Whitney U 검정과 Wilcoxon 순위합 검정은 수학적으로 동등하며 항상 동일한 p값을 산출합니다. 차이는 역사적입니다: Mann과 Whitney가 하나의 공식을 개발했고, Wilcoxon이 독립적으로 다른 공식을 개발했습니다. 일부 교재와 소프트웨어는 한 이름을, 일부는 다른 이름을, 일부는 "Mann-Whitney-Wilcoxon"을 사용합니다. Wilcoxon 순위합 검정(독립 표본용)과 Wilcoxon 부호순위 검정(대응 표본용)을 혼동하지 마세요 — 이들은 다른 검정입니다.
Pearson의 r 대신 Spearman의 rho를 언제 사용해야 하나요?
하나 이상의 변수가 서열적일 때, 변수 간 관계가 단조적이지만 선형적이지 않을 때, 유의한 이상치가 있을 때, 또는 이변량 정규성 가정이 위반될 때 Spearman의 rho를 사용합니다. 두 변수가 모두 연속적이고, 대략 정규분포이며, 산점도에서 관계가 선형으로 보이면 Pearson의 r이 더 큰 통계적 검정력을 가지므로 선호됩니다. 리커트 척도 데이터, 순위, 백분위 점수에는 Spearman의 rho가 적절한 선택입니다.
비모수 검정의 표본 크기는 어떻게 결정하나요?
비모수 검정의 검정력 분석은 예상 효과크기, 원하는 검정력(일반적으로 .80), 유의수준(일반적으로 .05)을 지정해야 합니다. G*Power 등의 소프트웨어로 Mann-Whitney U 검정, Wilcoxon 부호순위 검정 및 기타 비모수 검정의 표본 크기를 계산할 수 있습니다. 일반적 경험 규칙으로, 비모수 검정의 낮은 점근적 상대 효율을 고려하여 모수적 표본 크기 추정치를 5~15% 증가시키세요. 예를 들어, t-검정이 중간 효과를 탐지하기 위해 그룹당 n = 64가 필요하면, Mann-Whitney U 검정은 대략 그룹당 n = 67~74가 필요합니다.