Which normality test should I use: Shapiro-Wilk or Kolmogorov-Smirnov?

For most research purposes, use the Shapiro-Wilk test. It has greater statistical power than the Kolmogorov-Smirnov test for sample sizes up to 2,000, meaning it is better at detecting genuine departures from normality. The K-S test (with Lilliefors correction) is an acceptable alternative only when your sample exceeds 2,000 observations or when the Shapiro-Wilk test is not available in your software.

What sample size do I need for a reliable normality test?

There is no minimum sample size for running a normality test, but statistical power increases with sample size. With fewer than 20 observations, normality tests have very low power and may fail to detect substantial non-normality. With 20-100 observations, normality tests are most informative. Above 100, tests become overly sensitive and should be supplemented with effect-size measures such as skewness and kurtosis values.

Should I test normality on raw data or on residuals?

It depends on the analysis. For t-tests and ANOVA, test normality within each group separately — the assumption is that the dependent variable is normally distributed within each group. For regression, the normality assumption applies to the residuals, not the raw predictor or outcome variables.

What if the Shapiro-Wilk test is significant but the Q-Q plot looks normal?

This discrepancy typically occurs with large samples, where the Shapiro-Wilk test detects trivial deviations that have no practical consequence. In such cases, the visual evidence from the Q-Q plot is more informative than the p-value. Report both results, explain that the departure is negligible in magnitude, and proceed with parametric tests.

Can I use normality tests with ordinal or Likert-scale data?

Technically yes, but their interpretation is questionable for ordinal or Likert-scale data. Discrete data with limited response options will almost always fail a normality test because the data cannot form a smooth, continuous distribution. Focus instead on skewness and kurtosis values, and consider whether the total score across multiple items is approximately normal.

Do I need to test normality for every variable in my study?

No. Test normality only for variables involved in parametric analyses that assume it. For t-tests and ANOVA, check the dependent variable within each group. For regression, check the residuals. Independent variables in regression do not need to be normal. Testing every variable wastes time and inflates the risk of false positives from multiple testing.

How do I report normality results when I have many groups or variables?

Summarize the results rather than reporting each test individually. For example: Shapiro-Wilk tests confirmed that the dependent variable was normally distributed in all six groups (all Ws > .94, all ps > .10). Skewness values ranged from -0.42 to 0.67. If normality is violated in some groups, specify which and describe the nature of the violation.

Is there a normality test that works well for all sample sizes?

No single test is optimal across all sample sizes. The Shapiro-Wilk test offers the best overall performance for samples between 3 and 2,000. For very large samples, all formal tests become overly sensitive. The best approach for large samples is to combine visual methods (Q-Q plots, histograms) with descriptive measures of non-normality (skewness and kurtosis values).

정규성 검정 가이드: Shapiro-Wilk vs Kolmogorov-Smirnov — 언제, 어떻게 확인할까

통계에서 정규성이 중요한 이유

가장 흔히 사용되는 많은 통계 검정은 모수적 검정입니다 — 데이터가 정규분포를 따른다고 가정합니다. 이 가정이 심각하게 위반되면 결과가 신뢰할 수 없게 될 수 있습니다: 제1종 오류율이 증가하거나, 통계적 검정력이 감소하거나, 신뢰구간이 오해를 불러일으킬 수 있습니다.

다음 검정들은 모두 어떤 형태로든 정규성을 가정합니다:

독립 및 대응표본 t검정은 각 집단 내에서 종속변수(또는 차이 점수)가 정규분포한다고 가정합니다.
일원배치 및 반복측정 분산분석은 각 집단 또는 조건 내에서 잔차의 정규성을 가정합니다.
Pearson 상관은 유의성 검정을 위해 이변량 정규성을 가정합니다.
선형 회귀는 잔차가 정규분포한다고 가정합니다.

정규성 가정을 위반한다고 해서 분석이 자동으로 무효화되는 것은 아닙니다. 큰 표본에서는 중심극한정리가 보호를 제공합니다. 그러나 작은 표본(n < 30)에서는 비정규성이 결과를 의미 있게 왜곡할 수 있습니다. 그래서 모수적 검정을 실시하기 전에 정규성을 확인하는 것이 양적 연구에서 모범 사례로 간주됩니다.

정규성 평가 방법

정규성을 평가하는 단일한 완벽한 방법은 없습니다. 모범 사례는 시각적 검사를 통계적 검정 및 기술적 지표와 결합하는 것입니다. 각 접근법에는 장단점이 있습니다.

시각적 방법

히스토그램은 분포의 형태를 빠르게 보여줍니다. 대략적으로 종 모양이고 대칭인 히스토그램은 정규성을 시사합니다. 그러나 히스토그램은 구간 너비에 민감하며 작은 표본에서는 오해의 소지가 있을 수 있습니다.

Q-Q 도표(분위수-분위수 도표)는 더 많은 정보를 제공합니다. 관찰된 데이터 분위수를 정규분포 하에서 기대되는 분위수와 대비하여 도표에 나타냅니다. 데이터가 정규분포라면 점들이 대략적으로 직선 대각선을 따라 위치합니다. 직선에서의 체계적인 이탈은 특정 유형의 비정규성을 나타냅니다.

통계적 검정

Shapiro-Wilk 검정은 약 2,000개 이하의 관측치를 가진 표본에 가장 널리 권장되는 정규성 검정입니다. 다양한 분포 유형에 걸쳐 강한 통계적 검정력을 제공합니다.

Kolmogorov-Smirnov 검정(Lilliefors 보정 적용)은 더 큰 표본에 종종 사용되는 대안입니다. 소규모에서 중간 규모의 표본에서 정규성 이탈을 탐지하는 데 Shapiro-Wilk보다 검정력이 낮습니다.

기술적 지표

왜도는 분포의 비대칭성을 측정합니다. 값이 0이면 완벽한 대칭을 나타냅니다. 양의 왜도는 오른쪽 꼬리가 더 길다는 것을, 음의 왜도는 왼쪽 꼬리가 더 길다는 것을 의미합니다.

첨도는 정규분포에 비해 꼬리의 두께를 측정합니다. 정규분포의 첨도는 3(또는 초과 첨도 0)입니다. 더 높은 값은 꼬리가 더 두껍고 이상값이 발생하기 쉬운 데이터를 나타냅니다.

정규성 평가를 위한 시각적 방법

시각적 검사는 모든 정규성 평가의 기초입니다. 통계적 검정이 예/아니오의 이분법적 답을 제공하는 반면, 그래프 방법은 분포 이탈의 성격과 심각도를 드러냅니다. 경험이 풍부한 연구자들은 특히 매우 작거나 매우 큰 표본에서 공식적 검정보다 시각적 방법을 더 신뢰하는 경우가 많습니다.

히스토그램

히스토그램은 데이터 범위를 구간으로 나누고 각 구간의 관측치 빈도를 도표로 나타냅니다. 정규분포된 데이터의 경우 히스토그램은 대칭적인 종 모양 곡선과 유사해야 합니다.

해석 방법: 대략적인 대칭성, 중앙 근처의 단일 봉우리, 점차 좁아지는 꼬리를 살펴봅니다. 일반적인 이탈에는 다중 봉우리(이봉분포), 한쪽의 긴 꼬리(왜도), 또는 뚜렷한 봉우리가 없는 평탄한 형태(균일분포)가 포함됩니다.

한계: 히스토그램의 모양은 구간의 수에 크게 의존합니다. 구간이 너무 적으면 분포 형태가 가려지고, 너무 많으면 잡음이 많고 들쭉날쭉한 모양이 됩니다. 작은 표본(n < 30)에서는 무작위 변동이 형태를 지배하기 때문에 히스토그램이 종종 신뢰할 수 없습니다.

APA 보고: 히스토그램은 통계와 함께 공식적으로 보고되기보다는 본문에서 참조됩니다. 예: "히스토그램의 시각적 검사 결과 약간의 양의 왜도를 가진 근사 정규분포를 시사하였다."

Q-Q 도표

분위수-분위수(Q-Q) 도표는 정규성을 평가하는 가장 진단적인 시각적 도구입니다. 관측된 순서 값을 표준 정규분포의 대응하는 기대값에 대해 도표로 나타냅니다. 데이터가 완벽하게 정규분포라면 모든 점이 45도 참조선 위에 정확히 위치합니다.

해석 방법: 개별 점이 아닌 체계적인 패턴에 주목합니다. 선 주변의 무작위 산포는 예상되는 것입니다. 일관된 곡률, 꼬리 부분의 굽힘, 또는 선에서 벗어나는 점들의 군집을 찾습니다.

APA 보고: Q-Q 도표는 공식 검정 결과와 함께 보조 증거로 참조됩니다:

Q-Q 도표의 시각적 검사 결과, 참조선에서 체계적 이탈 없이 데이터가 근사 정규분포하는 것이 확인되었다.

상자 도표

상자 도표(상자-수염 도표)는 중앙값, 사분위 범위, 잠재적 이상값을 표시합니다. 정규성 평가를 위해 특별히 설계된 것은 아니지만, 대칭성과 이상값에 대한 빠른 정보를 제공합니다.

해석 방법: 정규분포의 경우 중앙값 선이 상자 내에서 중앙에 위치하고, 수염이 대략 같은 길이여야 하며, 수염 너머의 이상값 점이 거의 없어야 합니다. 비대칭 상자 도표 — 중앙값이 한쪽 끝으로 치우치고 한쪽 수염이 다른 쪽보다 훨씬 긴 경우 — 는 비정규성을 시사합니다.

실용적 활용: 상자 도표는 집단 간 분포를 비교할 때 가장 유용합니다. 한 집단이 강하게 비대칭인 상자 도표를 보이는 반면 다른 집단이 대칭적이라면, 해당 특정 집단에 잠재적 정규성 문제가 있음을 알려줍니다.

P-P 도표

P-P 도표(확률-확률 도표)는 Q-Q 도표와 유사하지만 분위수 대신 누적확률을 도표로 나타냅니다. 정규분포된 데이터의 경우 점들이 대각선을 따릅니다. P-P 도표는 분포의 중간 부분에서의 이탈에 더 민감하고, Q-Q 도표는 꼬리에서의 이탈에 더 민감합니다.

사용 시기: P-P 도표는 출판된 연구에서 Q-Q 도표보다 덜 흔히 사용되지만, 분포의 중심부가 정규성과 얼마나 잘 맞는지 평가하고 싶을 때 도움이 될 수 있습니다. 꼬리 행동(이상값, 두꺼운 꼬리)이 주로 관심사라면 Q-Q 도표를 선호하십시오.

시각적 방법과 통계적 방법의 결합

정규성 평가의 모범 사례는 시각적 방법과 통계적 방법을 함께 사용하는 것입니다. 어떤 단일 방법도 완전한 그림을 제공하지 않습니다:

히스토그램으로 시작하여 분포 형태에 대한 대략적인 감을 잡습니다.
Q-Q 도표를 검사하여 이탈의 유형과 위치에 대한 구체적인 진단 정보를 얻습니다.
공식적 검정을 실시(가급적 Shapiro-Wilk)하여 정량적 측정을 얻습니다.
왜도와 첨도 값을 확인하여 비정규성의 효과 크기 지표로 활용합니다.

네 가지 지표가 모두 일치하면 정규성 평가에 확신을 가질 수 있습니다. 일치하지 않는 경우 — 예를 들어, Shapiro-Wilk 검정은 유의하지만 Q-Q 도표가 깨끗한 경우 — 시각적 증거와 왜도 및 첨도의 실질적 크기에 더 큰 비중을 두십시오.

정규성을 위한 통계적 검정

통계적 검정은 정규성에 대한 객관적이고 정량적인 평가를 제공합니다. 그러나 각 검정은 서로 다른 강점을 가지며, 검정의 선택이 중요합니다.

Shapiro-Wilk 검정

Shapiro-Wilk 검정은 통계학 문헌에서 가장 권장되는 정규성 검정입니다. 모든 주요 통계 패키지에서 사용할 수 있으며, 많은 소프트웨어 프로그램에서 기본 정규성 검정으로 설정되어 있습니다.

사용 시기

표본 크기가 3에서 약 2,000 사이일 때 Shapiro-Wilk 검정을 사용합니다. 대부분의 연구 시나리오 — 학위논문, 학술지 논문, 수업 과제 — 에서 이 검정을 사용해야 합니다. 특히 작은 표본에서 비정규성 탐지에 Kolmogorov-Smirnov 검정보다 더 강력합니다.

해석 방법

검정은 0에서 1 사이의 W 통계량을 산출합니다. W 값이 1에 가까울수록 데이터가 정규분포를 밀접하게 따름을 나타냅니다. 낮은 값은 정규성에서 더 큰 이탈을 시사합니다.

의사결정 규칙은 간단합니다:

p > .05이면 정규성의 귀무가설을 기각하지 않습니다. 데이터가 정규분포와 일치합니다.
p ≤ .05이면 정규성을 기각합니다. 데이터가 정규분포에서 유의하게 이탈합니다.

실전 예제

25명의 학생으로부터 시험 점수를 수집했다고 가정합니다: Shapiro-Wilk 검정 결과 W = .964, p = .498이 산출되었습니다. p = .498이 .05보다 크므로 귀무가설을 기각하지 않습니다. 데이터가 정규성에서 유의하게 이탈하지 않으며, t검정이나 ANOVA와 같은 모수적 검정을 진행할 수 있습니다.

반대로, 검정 결과 W = .871, p = .005가 산출되었다면, 유의한 결과(p < .05)는 데이터가 정규분포에서 의미 있게 이탈함을 나타냅니다.

Kolmogorov-Smirnov 검정

Kolmogorov-Smirnov(K-S) 검정은 표본 분포를 이론적 정규분포와 비교하여 두 누적분포함수 간의 최대 절대 차이를 측정합니다.

사용 시기

K-S 검정은 Shapiro-Wilk 검정을 사용할 수 없는 더 큰 표본(n > 2,000)에 때때로 선호됩니다. 특히 SPSS는 탐색 절차에서 Shapiro-Wilk 검정과 함께 K-S 검정을 보고하는 등, 일부 소프트웨어 패키지가 K-S 검정을 기본으로 사용합니다.

한계

K-S 검정은 소규모 및 중간 규모 표본에서 Shapiro-Wilk 검정보다 통계적 검정력이 현저히 낮습니다. 이는 정규성에서의 실제 이탈을 놓칠 가능성이 더 높다는 것을 의미합니다. 두 검정이 모두 사용 가능하다면 Shapiro-Wilk 검정이 거의 항상 더 나은 선택입니다.

Lilliefors 보정

표준 K-S 검정은 평균과 표준편차를 사전에 지정해야 합니다. 이 매개변수들이 데이터에서 추정되는 경우(실무에서 거의 항상 그런 경우), Lilliefors 보정을 적용해야 합니다. 이 보정 없이는 검정이 지나치게 보수적이어서 비정규성을 탐지하지 못합니다. 대부분의 현대 소프트웨어는 Lilliefors 보정을 자동으로 적용합니다.

Anderson-Darling 검정

Anderson-Darling 검정은 K-S 검정과 유사하지만 분포의 꼬리 부분에 더 큰 가중치를 부여합니다. 이로 인해 극단값의 정규성 이탈에 더 민감하며, 이는 두꺼운 꼬리 또는 이상값이 발생하기 쉬운 분포를 탐지하는 데 특히 중요합니다.

사용 시기: Anderson-Darling 검정은 꼬리 행동이 중요한 경우(예: 금융 데이터, 극단값 분석) Shapiro-Wilk 검정의 좋은 보완입니다. R(nortest 패키지의 ad.test), Python(scipy), 기타 통계 소프트웨어에서 사용할 수 있습니다.

APA 보고:

Anderson-Darling 검정 결과 반응시간의 분포가 정규성에서 유의하게 이탈함을 나타냈다, A^2 = 1.84, p = .003.

D'Agostino-Pearson 검정

D'Agostino-Pearson 옴니버스 검정은 왜도와 첨도를 하나의 검정 통계량으로 결합합니다. 표본의 왜도와 첨도가 정규성 하에서 기대되는 것과 함께 다른지 여부를 평가합니다.

사용 시기: 비정규성이 왜도 또는 첨도(또는 둘 다)에 기인한다고 의심되며, 두 측면을 모두 포착하는 단일 검정을 원할 때 특히 유용합니다. 최소 20의 표본 크기가 필요하며 n > 50에서 가장 강력합니다.

APA 보고:

D'Agostino-Pearson 옴니버스 검정 결과 정규성에서 유의한 이탈이 나타났다, K^2 = 12.46, p = .002, 양의 왜도(z = 2.81)와 초과 첨도(z = 2.04)를 모두 반영하고 있다.

정규성 검정 비교

| 검정 | 최적 용도 | 표본 크기 범위 | 민감도 | 검정력 | |---|---|---|---|---| | Shapiro-Wilk | 범용 | 3~2,000 | 전체적 형태 | 소-중 표본에서 최고 | | Kolmogorov-Smirnov (Lilliefors) | 대규모 표본 | 모두 (2,000 이상 최적) | 중앙부 분포 | Shapiro-Wilk보다 낮음 | | Anderson-Darling | 꼬리 이탈 | 모두 | 꼬리 행동 | 두꺼운 꼬리 탐지에 우수 | | D'Agostino-Pearson | 왜도/첨도 | 20+ (50 이상 최적) | 왜도와 첨도 개별 | 중간 |

정규성 검정의 표본 크기 고려사항

표본 크기는 정규성 검정의 행동에 근본적인 영향을 미칩니다:

작은 표본(n < 20): 모든 정규성 검정의 통계적 검정력이 낮습니다. 유의하지 않은 결과가 데이터가 정규분포라는 것을 의미하지 않습니다 — 검정이 단순히 비정규성을 탐지할 검정력이 부족한 것입니다. Q-Q 도표와 주제 분야 지식에 더 크게 의존하십시오.
중간 표본(n = 20~100): 정규성 검정이 이 범위에서 가장 유용합니다. 의미 있는 이탈을 탐지할 합리적인 검정력을 가지면서도 사소한 이탈에 지나치게 민감하지 않습니다.
큰 표본(n > 100): 정규성 검정이 지나치게 민감해집니다. 사소하고 무의미한 정규성 이탈도 유의한 결과를 생성합니다. 이 범위에서는 p값보다 시각적 방법과 비정규성의 효과 크기 측정(예: 왜도 및 첨도 값)에 집중하십시오.

Q-Q 도표 해석

Q-Q 도표(분위수-분위수 도표)는 정규성을 평가하는 데 가장 유용한 시각적 도구 중 하나입니다. Q-Q 도표를 읽는 법을 배우면 통계적 검정만으로는 잘 특성화할 수 없는 분포적 문제를 진단하는 능력이 향상됩니다.

정규 Q-Q 도표의 모습

데이터가 정규분포일 때, Q-Q 도표의 점들은 대각선 참조선을 밀접하게 따릅니다. 선 주변의 사소한 무작위 산포는 예상되는 것이며 비정규성을 나타내지 않습니다. 핵심은 체계적인 이탈 패턴을 찾는 것입니다.

일반적인 패턴

| Q-Q 도표 패턴 | 해석 | |---|---| | 점들이 선을 밀접하게 따름 | 데이터가 근사 정규분포 | | 양쪽 끝이 선에서 벗어남(S자 형태) | 두꺼운 꼬리(첨도 과다) 또는 얇은 꼬리(첨도 과소) | | 오른쪽 끝에서 점들이 선 위로 곡선 | 우측(양의) 편향 | | 왼쪽 끝에서 점들이 선 아래로 곡선 | 좌측(음의) 편향 | | 한두 개의 점이 선에서 멀리 떨어짐 | 잠재적 이상값 | | 계단 또는 단계 패턴 | 데이터가 이산형이거나 반올림됨 |

Q-Q 도표는 p값만으로는 제공할 수 없는 진단 정보를 제공합니다. 예를 들어, 비정규성이 왜도, 두꺼운 꼬리, 이상값, 분포 혼합 중 어디에서 기인하는지 밝힐 수 있습니다. 이 정보는 문제를 어떻게 해결할지 결정하는 데 유용합니다.

왜도와 첨도 가이드라인

왜도와 첨도 값은 분포 형태의 수치적 요약을 제공합니다. 계산이 빠르며 시각적 검사 및 공식적 검정을 보완할 수 있습니다.

일반적인 경험 법칙

문헌에는 여러 지침이 존재합니다. 가장 흔히 인용되는 기준은 다음과 같습니다:

| 지표 | 허용 범위 | 출처 | |------|---------|------| | 왜도 | 절대값 2 미만 | West, Finch, & Curran (1995) | | 첨도(초과) | 절대값 7 미만 | West, Finch, & Curran (1995) | | 왜도(엄격) | 절대값 1 미만 | 실무에서 일반적으로 사용 | | 첨도(엄격) | 절대값 3 미만 | 실무에서 일반적으로 사용 |

일부 연구자들은 왜도와 첨도를 각각의 표준오차로 나누어 z점수를 계산하기도 합니다. 절대값 1.96을 초과하는 z점수(.05 수준)는 유의한 비정규성을 시사합니다. 그러나 이 접근법은 큰 표본에서 지나치게 민감해집니다.

실질적 조언

왜도와 첨도를 공식적 정규성 검정 및 시각적 검사의 대체가 아닌 보완으로 사용하십시오. 중간 정도의 위반(왜도 약 1, 첨도 약 3)은 중심극한정리 덕분에 표본 크기가 30 이상이면 대개 허용 가능합니다.

APA 형식으로 정규성 검정 보고하는 방법

결과 섹션에서 정규성 평가를 보고하면 투명성이 높아지고 방법론적 엄밀성을 보여줍니다. 다음은 두 가지 주요 정규성 검정을 APA 양식으로 포맷하는 방법입니다.

Shapiro-Wilk 보고

Shapiro-Wilk 검정 결과 시험 점수가 정규분포함을 나타냈다, W(25) = .964, p = .498.

Shapiro-Wilk 검정 결과 반응시간이 정규성에서 유의하게 이탈함을 보여주었다, W(42) = .871, p = .005.

Kolmogorov-Smirnov 보고

Lilliefors 보정을 적용한 Kolmogorov-Smirnov 검정 결과 불안 점수의 분포가 정규분포와 유의하게 다르지 않았다, D(150) = .054, p = .200.

Kolmogorov-Smirnov 검정 결과 소득 데이터에서 유의한 비정규성이 나타났다, D(500) = .112, p < .001.

전체 보고 예시

방법 또는 결과 섹션에서 다음과 같이 작성할 수 있습니다:

주 분석에 앞서 Shapiro-Wilk 검정과 Q-Q 도표의 시각적 검사를 통해 종속변수의 정규성을 평가하였다. 통제 집단, W(28) = .957, p = .302, 과 실험 집단, W(30) = .971, p = .563, 모두에서 시험 점수가 정규분포하였다. 왜도 값은 허용 범위 내에 있었다(통제: -0.34; 실험: 0.21). 따라서 독립표본 t검정을 실시하였다.

항상 어떤 정규성 검정을 사용했는지, 표본 크기, 검정 결과를 명시하십시오. 심사위원은 이 수준의 세부사항을 기대합니다.

정규성 위반이 중요하지 않은 경우

모든 정규성 위반이 조치를 필요로 하는 것은 아닙니다. 비정규성에도 불구하고 모수적 검정이 유효한 경우를 이해하면 분석에서 불필요한 복잡성을 방지하고, 비모수적 대안으로 전환할 때 발생하는 통계적 검정력 손실을 피할 수 있습니다.

중심극한정리

**중심극한정리(CLT)**는 정규성 위반이 종종 중요하지 않은 가장 핵심적인 이유입니다. CLT는 표본 크기가 증가함에 따라 모집단 분포의 형태에 관계없이 평균의 표본분포가 정규성에 접근한다고 진술합니다. 이는 평균에 기반한 모수적 검정(t검정, ANOVA, 회귀)의 p값이 원시 데이터가 정규분포가 아니더라도 표본이 클수록 점점 더 정확해진다는 것을 의미합니다.

실용적 기준:

집단당 n > 30: CLT가 대부분의 대칭적이거나 약간 왜곡된 분포에 합리적인 보호를 제공합니다.
집단당 n > 50: 모수적 검정이 상당한 왜도와 중간 정도의 첨도에 강건합니다.
집단당 n > 100: 강하게 왜곡된 분포도 평균에 기반한 검정에서 신뢰할 수 있는 p값을 산출합니다.

t검정과 ANOVA의 강건성

수십 년간의 시뮬레이션 연구가 t검정과 ANOVA가 특정 조건하에서 정규성 위반에 놀라울 정도로 강건하다는 것을 입증하였습니다:

동일한 집단 크기: 집단의 n이 대략 동일한 경우, t검정과 ANOVA 모두 상당한 비정규성에서도 정확한 제1종 오류율을 유지합니다. 이것이 강건성을 위한 가장 중요한 단일 요인입니다.
대칭 분포: 검정은 왜도보다 두꺼운 꼬리(초과 첨도)에 더 강건합니다. 대칭적인 비정규 분포는 거의 문제를 일으키지 않습니다.
양측 검정: 양측 검정은 단측 검정보다 강건합니다. 양쪽 꼬리의 오류가 상쇄되는 경향이 있기 때문입니다.

비정규성이 중요한 경우: 작은 표본(집단당 n < 15), 심하게 왜곡된 분포(왜도 > 2), 불균등한 집단 크기와 불균등한 분산의 조합, 단측 검정이 정규성 위반이 모수적 결과의 타당성에 가장 영향을 미치는 상황입니다.

회귀와 상관

회귀분석에서 정규성 가정은 예측변수나 결과변수 자체가 아닌 잔차에 적용됩니다. 흔한 오해는 모형을 적합하기 전에 원시 변수의 정규성을 검정하는 것입니다. X와 Y가 모두 비정규분포이더라도 잔차는 완벽하게 정규분포할 수 있습니다. 반대로, 정규분포하는 변수들도 모형이 잘못 지정되면 비정규 잔차를 생성할 수 있습니다.

Pearson 상관의 경우 가정은 이변량 정규성이며, 이는 정확한 유의성 검정에 필요합니다. 그러나 n > 30에서는 Pearson의 r에 대한 유의성 검정이 이변량 정규성의 중간 정도 이탈에 강건합니다. 심하게 비정규적인 데이터나 작은 표본에서는 Spearman 순위 상관을 대신 사용하십시오.

"실질적 유의성" 관점

일부 방법론학자들은 질문이 "내 데이터가 정규분포인가?"가 아니라 "내 데이터가 분석이 유효할 만큼 충분히 정규분포인가?"여야 한다고 주장합니다. 이러한 재구성은 완벽한 정규성을 달성하는 것에서 비정규성의 정도가 결과를 의미 있게 왜곡할 만큼 충분한지 평가하는 것으로 초점을 이동합니다. 이 관점에서는 통계적 검정보다 왜도, 첨도의 실질적 평가와 시각적 검사에 중점을 둡니다.

분포 유형별 표본 크기 기준

| 분포 형태 | 안전한 집단당 n | 권장사항 | |---|---|---| | 대칭, 가벼운 꼬리 | 10-15 | 모수적 검정 안전 | | 대칭, 무거운 꼬리 | 20-30 | 모수적 검정 대체로 안전 | | 약한 왜도 (1 미만) | 30-40 | CLT가 적절한 보호 제공 | | 중간 왜도 (1-2) | 50-100 | 모수적 검정 주의 사용; 민감도 검정 보고 | | 심한 왜도 (2 초과) | 100+ 또는 비모수적 | 변환 또는 비모수적 대안 고려 |

데이터가 정규분포가 아닐 때 대처 방법

비정규성을 탐지하는 것은 첫 단계에 불과합니다. 이를 다루기 위한 전략이 필요합니다. 세 가지 주요 접근법이 있으며, 선택은 위반의 성격과 심각도에 따라 달라집니다.

데이터 변환

데이터 변환은 때때로 편향된 분포를 정규화할 수 있습니다. 일반적인 변환에는 다음이 포함됩니다:

로그 변환 (Y' = ln(Y)) — 바닥 효과가 있는 우측 편향 데이터(예: 반응시간, 소득, 생물학적 농도)에 효과적. 모든 값이 양수여야 합니다; 0이 있으면 상수를 더합니다.
제곱근 변환 (Y' = sqrt(Y)) — 중간 정도로 우측 편향된 빈도 데이터에 유용. 로그 변환보다 완화적이며 0을 보존합니다.
Box-Cox 변환 — 최대우도법을 사용하여 최적의 정규화 변환을 찾는 거듭제곱 변환 계열. 매개변수 lambda가 특정 변환을 결정합니다(lambda = 0은 로그, lambda = 0.5는 제곱근).
역수 변환 (Y' = 1/Y) — 강하게 우측 편향된 데이터에 유용하지만, 값의 순서를 역전시키며 0을 처리할 수 없습니다.

변환 후 변환된 변수에 대해 정규성 검정을 다시 실시합니다. 변환이 성공하면 변환된 데이터를 모수적 검정으로 분석할 수 있습니다. 그러나 결과가 변환된 척도에 있기 때문에 해석이 덜 직관적이 됩니다.

변환된 데이터의 APA 보고:

반응시간 데이터의 유의한 양의 왜도(왜도 = 2.14)로 인해 자연로그 변환을 적용하였다. 변환된 변수는 정규성 가정을 충족하였다, W(45) = .972, p = .348. 이후 모든 분석은 로그 변환된 데이터에 대해 수행되었다.

비모수적 대안 사용

변환이 도움이 되지 않거나 적절하지 않을 때, 정규성을 가정하지 않는 비모수적 검정으로 전환합니다:

| 모수적 검정 | 비모수적 대안 | |---|---| | 독립표본 t검정 | Mann-Whitney U 검정 | | 대응표본 t검정 | Wilcoxon 부호순위 검정 | | 일원배치 분산분석 | Kruskal-Wallis H 검정 | | 반복측정 분산분석 | Friedman 검정 |

비모수적 검정은 원시 값 대신 순위를 사용하여 분포 위반에 강건합니다. 대가는 정규성 가정이 실제로 충족될 때 통계적 검정력이 약간 감소한다는 것입니다 — 중간 규모 표본에서 일반적으로 약 5-15%의 검정력 손실이 있습니다.

변환과 비모수적 검정 중 선택

변환과 비모수적 대안 사이의 결정은 여러 요인에 따라 달라집니다:

변환을 사용할 때: 변환된 척도가 자연스러운 해석을 갖거나(예: 로그 변환된 반응시간), 변환이 데이터를 효과적으로 정규화하거나, 평균과 신뢰구간을 추정하는 능력을 유지해야 할 때.
비모수적 검정을 사용할 때: 어떤 변환도 데이터를 정규화하지 못하거나, 연구 질문이 평균이 아닌 중앙값이나 순위에 관한 것이거나, 데이터에 제거해서는 안 되지만 결과를 주도해서도 안 되는 진정한 이상값이 포함되어 있을 때.
둘 다 보고할 때: 어떤 접근법이 더 적절한지 확신할 수 없을 때. 모수적 분석과 비모수적 분석이 동일한 결론을 산출하면, 이는 결과에 대한 신뢰를 강화합니다. 일치하지 않으면, 비모수적 결과가 비정규 데이터에서 일반적으로 더 신뢰할 수 있습니다.

부트스트래핑

부트스트랩 방법은 정규성이나 순위 기반 통계를 요구하지 않는 현대적 대안을 제공합니다. 부트스트래핑은 원본 데이터에서 수천 개의 재표본 데이터셋을 생성하고, 검정 통계량의 경험적 분포를 사용하여 p값과 신뢰구간을 도출합니다.

장점: 부트스트래핑은 모든 분포 형태에서 작동하며, 원래의 측정 척도를 보존하고, 거의 모든 통계량에 적용할 수 있습니다. 동료 심사 학술지에서 점점 더 수용되고 있으며 APA에서도 권장됩니다.

APA 보고:

정규성 가정이 위반되었으므로, 부트스트랩 신뢰구간(10,000 표본, 편향 보정 및 가속)을 계산하였다. 집단 간 평균 차이는 4.72였다, 95% BCa CI [2.15, 7.84], p = .003.

모수적 검정 진행(큰 표본)

중심극한정리는 충분히 큰 표본에서 평균의 표본분포가 모집단 분포에 관계없이 정규성에 접근한다고 진술합니다. 일반적인 지침으로:

집단당 n > 30이면 중간 정도의 비정규성은 대개 허용 가능합니다.
집단당 n > 50이면 모수적 검정은 정규성 이탈 대부분에 강건합니다.
매우 큰 표본(n > 100)에서는 결과에 실질적 영향이 없는 사소한 이탈로 인해 정규성 검정이 종종 기각됩니다.

비정규성에도 불구하고 진행하는 경우, 논문에서 이를 인정하고 민감도 검정으로 모수적 결과와 비모수적 결과를 모두 보고하는 것을 고려하십시오.

흔한 실수

큰 표본에서 검정에 과도하게 의존

Shapiro-Wilk p값은 정규성에서의 이탈이 통계적으로 유의한지 알려주지만, 이탈이 얼마나 심한지는 알려주지 않습니다. 큰 표본(n > 200)에서는 사소하고 무의미한 이탈도 유의한 결과를 만들어냅니다. 500개 관측치에 왜도가 0.15인 데이터셋은 Shapiro-Wilk 검정이 종종 유의하게 나오지만, 이 수준의 비정규성은 모수적 검정 타당성에 사실상 영향을 미치지 않습니다. 항상 공식적 검정을 히스토그램과 Q-Q 도표의 시각적 검사와 결합하고, 왜도와 첨도 값을 비정규성의 효과 크기 지표로 평가하십시오.

시각적 방법 무시

일부 연구자들은 히스토그램이나 Q-Q 도표를 검사하지 않고 Shapiro-Wilk p값만 보고합니다. 이는 문제가 있습니다. p값이 비정규성의 성격을 드러내지 않기 때문입니다. 위반이 왜도, 두꺼운 꼬리, 이상값, 이봉분포 중 어디에서 기인하는지 아는 것은 올바른 해결책을 선택하는 데 필수적입니다. Q-Q 도표는 생성하는 데 몇 초밖에 걸리지 않으며 단일 검정 통계량보다 훨씬 더 많은 진단 정보를 제공합니다.

Shapiro-Wilk가 더 적합할 때 K-S 사용

Kolmogorov-Smirnov 검정은 소규모 및 중간 규모 표본에서 Shapiro-Wilk 검정보다 검정력이 낮습니다. 표본 크기가 2,000 미만이고 두 검정이 모두 사용 가능하다면 Shapiro-Wilk를 선택하십시오. Shapiro-Wilk를 사용할 수 있는데 30명 표본에 K-S를 보고하면 검정 선택에 대한 심사위원의 우려를 야기할 수 있습니다.

"정규성을 기각하지 못함"과 "데이터가 정규분포"의 혼동

유의하지 않은 Shapiro-Wilk 결과(p > .05)는 정규성에 대한 증거를 찾지 못했다는 것을 의미합니다. 데이터가 정규분포임을 증명하는 것이 아닙니다. 이 구별은 특히 검정이 정규성 이탈을 탐지할 검정력이 제한적인 작은 표본에서 중요합니다.

정당화 없이 변환

이유를 설명하지 않고 로그 또는 제곱근 변환을 적용하는 것은 흔한 방법론적 오류입니다. 변환은 데이터의 성격(예: 반응시간이 로그정규분포를 따른다고 알려져 있음)이나 관찰된 비정규성의 특정 패턴에 의해 정당화되어야 합니다. 항상 근거, 적용한 특정 변환, 변환된 데이터가 정규성 가정을 충족하는지 여부를 보고하십시오. 여러 변환을 시도하고 "성공한" 것만 보고하면서 다른 것을 공개하지 않는 것은 피하십시오.

사용한 검정 미보고

단순히 "데이터가 정규분포하였다"라고 쓰면서 검정명, 표본 크기, 결과를 명시하지 않는 것은 불충분합니다. 심사위원과 독자는 증거를 스스로 평가해야 합니다. 항상 검정명, 검정 통계량, 표본 크기, p값을 보고하십시오.

소프트웨어별 정규성 검정

통계 소프트웨어에 따라 제공하는 정규성 검정 옵션이 다릅니다. 빠른 참고를 위한 가이드입니다:

SPSS: 탐색 절차(분석 > 기술통계 > 탐색)에서 Shapiro-Wilk 검정과 Kolmogorov-Smirnov 검정을 자동으로 보고하며, Q-Q 도표와 왜도 및 첨도를 포함한 기술통계를 함께 제공합니다. "도표" 버튼을 클릭하고 "검정이 포함된 정규성 도표"를 선택하십시오.

R: Shapiro-Wilk 검정에는 shapiro.test(x)를 사용합니다. Q-Q 도표에는 qqnorm(x) 다음에 qqline(x)를 사용합니다. nortest 패키지에서 Anderson-Darling(ad.test) 및 기타 정규성 검정을 제공합니다. 종합적인 정규성 평가를 위해 ggpubr 패키지의 ggqqplot()이 신뢰 대역을 포함한 도표를 제공합니다.

Python: Shapiro-Wilk에는 scipy.stats.shapiro(x), K-S에는 scipy.stats.kstest(x, 'norm')을 사용합니다. Q-Q 도표에는 scipy.stats.probplot(x, plot=plt) 또는 statsmodels.graphics.gofplots.qqplot()을 사용합니다.

StatMate: 정규성 검정이 모든 모수적 계산기에 내장되어 있습니다. 데이터를 입력하기만 하면 각 집단에 대해 Shapiro-Wilk 검정이 자동으로 실행되며, 결과가 APA 형식 출력에 포함됩니다.

단계별 의사결정 가이드

정규성 문제에 직면했을 때, 다음의 체계적인 과정을 따르십시오:

단계 1: 무엇이 정규분포여야 하는지 결정합니다. 가정이 원시 데이터(t검정, ANOVA 집단)에 적용되는지 잔차(회귀)에 적용되는지 확인합니다. 올바른 변수를 검정하십시오.

단계 2: 시각적으로 평가합니다. Q-Q 도표와 히스토그램을 생성합니다. 체계적 패턴을 살펴봅니다: 왜도, 두꺼운 꼬리, 이상값, 다봉분포.

단계 3: 공식적 검정을 실시합니다. n < 2,000에서는 Shapiro-Wilk를 사용합니다. W 통계량과 p값을 기록합니다.

단계 4: 왜도와 첨도를 확인합니다. West, Finch, and Curran (1995)의 기준(왜도 < 2, 첨도 < 7)과 값을 비교합니다.

단계 5: 표본 크기를 고려합니다. 집단당 n > 50이면 중간 정도의 비정규성은 모수적 검정 타당성에 영향을 미칠 가능성이 낮습니다. n < 15이면 시각적 방법조차 신뢰할 수 없을 수 있으므로 — 비모수적 검정을 기본으로 고려하십시오.

단계 6: 전략을 선택합니다. 정규성이 충족되면 모수적 검정을 진행합니다. 위반되면 위반의 심각도와 성격에 따라 변환, 비모수적 대안, 부트스트래핑 중에서 결정합니다.

단계 7: 투명하게 보고합니다. 어떤 검정을 사용했는지, 결과, 그리고 선택한 분석 전략으로 진행한 근거를 문서화합니다.

자주 묻는 질문

Shapiro-Wilk와 Kolmogorov-Smirnov 중 어떤 정규성 검정을 사용해야 하나요?

대부분의 연구 목적에서는 Shapiro-Wilk 검정을 사용하십시오. 2,000개 이하의 표본 크기에서 Kolmogorov-Smirnov 검정보다 높은 통계적 검정력을 가지며, 이는 정규성에서의 실제 이탈을 더 잘 탐지한다는 것을 의미합니다. K-S 검정(Lilliefors 보정 포함)은 표본이 2,000 관측치를 초과하거나 소프트웨어에서 Shapiro-Wilk 검정을 사용할 수 없는 경우에만 허용 가능한 대안입니다.

신뢰할 수 있는 정규성 검정을 위해 어느 정도의 표본 크기가 필요한가요?

정규성 검정을 실시하기 위한 최소 표본 크기는 없지만, 검정의 통계적 검정력은 표본 크기와 함께 증가합니다. 20개 미만의 관측치에서는 정규성 검정의 검정력이 매우 낮아 상당한 비정규성도 탐지하지 못할 수 있습니다. 이 범위에서는 Q-Q 도표와 변수 분포에 대한 이론적 기대에 주로 의존하십시오. 20-100개의 관측치에서 정규성 검정이 가장 유용합니다. 100을 초과하면 검정이 지나치게 민감해지므로 효과 크기 측정(왜도, 첨도)으로 보완해야 합니다.

원시 데이터에서 정규성을 검정해야 하나요, 아니면 잔차에서 해야 하나요?

분석에 따라 다릅니다. t검정과 ANOVA의 경우 각 집단 내에서 별도로 정규성을 검정합니다 — 가정은 종속변수가 각 집단 내에서 정규분포한다는 것입니다. 회귀의 경우 정규성 가정은 원시 예측변수나 결과변수가 아닌 잔차에 적용됩니다. 관련 가정이 모형 적합 후의 잔차에 관한 것인데 원시 결과변수의 정규성을 검정하는 것은 흔한 실수입니다.

Shapiro-Wilk 검정은 유의한데 Q-Q 도표는 정규분포처럼 보이면 어떻게 해야 하나요?

이러한 불일치는 일반적으로 큰 표본에서 발생하며, Shapiro-Wilk 검정이 실질적인 결과가 없는 사소한 이탈을 탐지하는 경우입니다. 이런 경우 Q-Q 도표의 시각적 증거가 p값보다 더 유용합니다. 두 결과를 모두 보고하고 정규성에서의 이탈이 통계적으로 유의하지만 크기가 무시할 수 있는 수준이라고 설명하십시오. 모수적 검정을 진행할 수 있습니다.

서열 또는 Likert 척도 데이터에 정규성 검정을 사용할 수 있나요?

기술적으로 정규성 검정은 모든 수치 데이터에 적용할 수 있지만, 서열 또는 Likert 척도 데이터에 대한 해석은 의문스럽습니다. 제한된 응답 옵션(예: 5점 Likert 척도)을 가진 이산형 데이터는 매끄럽고 연속적인 분포를 형성할 수 없으므로 거의 항상 정규성 검정에 실패합니다. Likert 척도 데이터의 경우 분포의 왜도와 첨도에 집중하고, 대부분의 분석에 더 관련이 있는 총점(여러 항목의 합)이 근사 정규분포하는지 고려하십시오.

연구의 모든 변수에 대해 정규성을 검정해야 하나요?

아닙니다. 정규성을 가정하는 모수적 분석에 관련된 변수에 대해서만 정규성을 검정하십시오. t검정과 ANOVA의 경우 각 집단 내 종속변수를 확인합니다. 회귀의 경우 잔차를 확인합니다. 회귀에서 독립변수는 정규분포할 필요가 없습니다. 범주형 변수는 당연히 면제됩니다. 모든 변수를 검정하는 것은 시간 낭비이며 다중 검정으로 인한 위양성 위험을 증가시킵니다.

많은 집단이나 변수가 있을 때 정규성 결과를 어떻게 보고하나요?

많은 집단에 걸쳐 정규성을 검정할 때, 각 검정을 개별적으로 보고하기보다 결과를 요약하십시오. 예: "Shapiro-Wilk 검정 결과 종속변수가 모든 6개 집단에서 정규분포함을 확인하였다 (모든 W > .94, 모든 p > .10). 왜도 값은 -0.42에서 0.67 사이였다." 일부 집단에서만 정규성이 위반된 경우, 어떤 집단이 비정규성을 보였는지 명시하고 위반의 성격을 기술하십시오.

모든 표본 크기에서 잘 작동하는 정규성 검정이 있나요?

모든 표본 크기에서 최적인 단일 검정은 없습니다. Shapiro-Wilk 검정이 3에서 2,000 사이의 표본에서 가장 우수한 전반적 성능을 제공합니다. 매우 큰 표본의 경우, 모든 검정이 지나치게 민감해지므로 어떤 공식적 검정도 이상적이지 않습니다. 큰 표본에 대한 최선의 접근법은 시각적 방법(Q-Q 도표, 히스토그램)을 비정규성의 기술적 측정(왜도 및 첨도 값)과 결합하여 West, Finch, and Curran (1995)의 기준을 지침으로 사용하는 것입니다.

StatMate로 정규성 확인하기

StatMate는 t검정, ANOVA 및 기타 모수적 계산기에 Shapiro-Wilk 정규성 검정을 내장하고 있습니다. 데이터를 입력하면 StatMate가 자동으로 정규성 가정 검정을 실시하고 각 집단의 W 통계량과 p값을 표시합니다.

정규성 가정이 위반되면 StatMate는 적절한 비모수적 대안을 권장하고 해당 계산기로의 직접 링크를 제공합니다. 예를 들어, 독립표본 t검정을 실시했는데 Shapiro-Wilk 검정이 유의하면, StatMate가 Mann-Whitney U 검정으로 전환할 것을 제안합니다.

모든 정규성 검정 결과는 APA 형식 출력, PDF 내보내기, Word 내보내기에 포함됩니다 — 논문에 직접 붙여넣을 수 있습니다. statmate.org에서 무료 t검정 계산기나 ANOVA 계산기를 사용하여 가정 검정 기능을 직접 확인해 보세요.

통계에서 정규성이 중요한 이유

정규성 평가 방법

시각적 방법

통계적 검정

기술적 지표

정규성 평가를 위한 시각적 방법

히스토그램

Q-Q 도표

상자 도표

P-P 도표

시각적 방법과 통계적 방법의 결합

정규성을 위한 통계적 검정

Shapiro-Wilk 검정

사용 시기

해석 방법

실전 예제

Kolmogorov-Smirnov 검정

사용 시기

한계

Lilliefors 보정

Anderson-Darling 검정

D'Agostino-Pearson 검정

정규성 검정 비교

정규성 검정의 표본 크기 고려사항

Q-Q 도표 해석

정규 Q-Q 도표의 모습

일반적인 패턴

왜도와 첨도 가이드라인

일반적인 경험 법칙

실질적 조언

APA 형식으로 정규성 검정 보고하는 방법

Shapiro-Wilk 보고

Kolmogorov-Smirnov 보고

전체 보고 예시

정규성 위반이 중요하지 않은 경우

중심극한정리

t검정과 ANOVA의 강건성

회귀와 상관

"실질적 유의성" 관점

분포 유형별 표본 크기 기준

데이터가 정규분포가 아닐 때 대처 방법

데이터 변환

비모수적 대안 사용

변환과 비모수적 검정 중 선택

부트스트래핑

모수적 검정 진행(큰 표본)

흔한 실수

큰 표본에서 검정에 과도하게 의존

시각적 방법 무시

Shapiro-Wilk가 더 적합할 때 K-S 사용

"정규성을 기각하지 못함"과 "데이터가 정규분포"의 혼동

정당화 없이 변환

사용한 검정 미보고

소프트웨어별 정규성 검정

단계별 의사결정 가이드

자주 묻는 질문

Shapiro-Wilk와 Kolmogorov-Smirnov 중 어떤 정규성 검정을 사용해야 하나요?

신뢰할 수 있는 정규성 검정을 위해 어느 정도의 표본 크기가 필요한가요?

원시 데이터에서 정규성을 검정해야 하나요, 아니면 잔차에서 해야 하나요?

Shapiro-Wilk 검정은 유의한데 Q-Q 도표는 정규분포처럼 보이면 어떻게 해야 하나요?

서열 또는 Likert 척도 데이터에 정규성 검정을 사용할 수 있나요?

연구의 모든 변수에 대해 정규성을 검정해야 하나요?

많은 집단이나 변수가 있을 때 정규성 결과를 어떻게 보고하나요?

모든 표본 크기에서 잘 작동하는 정규성 검정이 있나요?

StatMate로 정규성 확인하기

지금 바로 계산해 보세요

통계 분석 팁 받아보기