분할표의 독립성 검정과 적합도 검정. 결과는 APA 7판 형식으로 제공됩니다.
카이제곱(χ²) 검정은 범주형 변수 간의 관계를 검정하는 데 사용되는 비모수 통계 검정입니다. 평균을 비교하는 t-검정이나 분산분석(ANOVA)과 달리, 카이제곱 검정은 빈도 데이터—각 범주에 해당하는 관측치의 수—를 사용합니다. Karl Pearson이 1900년에 개발한 이 검정은 실제 관측된 빈도와 변수 간에 관계가 없을 때 기대되는 빈도를 비교합니다. 관측 빈도와 기대 빈도의 차이가 충분히 크면, 변수들이 통계적으로 유의하게 연관되어 있다고 결론 내릴 수 있습니다.
독립성 검정은 두 범주형 변수가 서로 관련이 있는지를 판단하는 데 사용됩니다. 데이터는 행이 하나의 변수를, 열이 다른 변수를 나타내는 분할표(교차표)로 정리됩니다. 예를 들어, 성별과 제품 선호도 간의 관계가 있는지, 또는 치료 조건과 회복 결과 간의 관계가 있는지를 검정할 수 있습니다. 귀무가설은 두 변수가 독립적이라고—즉, 한 변수의 값을 아는 것이 다른 변수에 대해 아무런 정보도 제공하지 않는다고 주장합니다.
적합도 검정은 단일 범주형 변수의 관측 빈도가 기대 빈도와 다른지를 판단하는 데 사용됩니다. 예를 들어, 주사위가 공정한지 확인하기 위해 관측된 주사위 결과를 기대되는 균등 분포(각 면 1/6)와 비교하거나, 고객 방문이 요일별로 균등하게 분포되어 있는지를 검정할 수 있습니다. 귀무가설은 관측 분포가 기대 분포와 일치한다고 주장합니다.
연구자가 성별(남성 / 여성)과 제품 선호도(A / B / C) 간의 연관성을 검정하기 위해 100명을 대상으로 설문조사를 실시했습니다. 관측 빈도는 다음과 같습니다:
| 관측값 | 제품 A | 제품 B | 제품 C | 행 합계 |
|---|---|---|---|---|
| 남성 | 30 | 10 | 10 | 50 |
| 여성 | 15 | 20 | 15 | 50 |
| 열 합계 | 45 | 30 | 25 | 100 |
기대 빈도는 (행 합계 × 열 합계) / 총합계로 계산됩니다. 예를 들어, 남성 × 제품 A의 기대 빈도 = (50 × 45) / 100 = 22.5입니다.
| 기대값 | 제품 A | 제품 B | 제품 C |
|---|---|---|---|
| 남성 | 22.5 | 15.0 | 12.5 |
| 여성 | 22.5 | 15.0 | 12.5 |
결과
χ²(2, N = 100) = 8.41, p = .015, Cramér's V = .29
성별과 제품 선호도 간에 통계적으로 유의한 연관성이 나타났습니다, χ²(2, N = 100) = 8.41, p = .015, 중간 수준의 효과크기(Cramér's V = .29)를 보였습니다. 남성은 제품 A에 대한 선호가 더 강했고, 여성은 세 제품에 걸쳐 더 고르게 분포되었습니다.
올바른 검정을 선택하는 것은 데이터의 유형과 표본 크기에 따라 달라집니다. 다음 안내를 참고하여 적절한 검정을 선택하세요:
| 상황 | 권장 검정 |
|---|---|
| 두 범주형 변수 (2×2 또는 더 큰 표) | 카이제곱 독립성 검정 |
| 하나의 범주형 변수 vs 기대 비율 | 카이제곱 적합도 검정 |
| 2×2 표에서 기대 빈도 < 5인 셀이 있는 경우 | Fisher의 정확 검정 |
| 서열 데이터, 두 독립 집단 | Mann-Whitney U 검정 |
| 대응 또는 짝지은 범주형 데이터 | McNemar 검정 |
| 두 개 이상의 관련 범주형 표본 | Cochran의 Q 검정 |
카이제곱 검정 결과를 해석하기 전에 다음 가정들이 충족되었는지 확인하세요:
1. 범주형 데이터
두 변수 모두 범주형(명목형 또는 서열형)이어야 합니다. 카이제곱 검정은 연속형 데이터에는 적용할 수 없습니다. 연속형 측정값이 있는 경우, 먼저 그룹으로 범주화해야 하지만(예: 나이 → 연령대), 이는 정보의 손실을 초래합니다.
2. 독립 관측
각 관측치는 다른 모든 관측치와 독립적이어야 합니다. 이는 각 참가자나 사례가 분할표의 한 셀에만 기여해야 함을 의미합니다. 반복 측정이나 대응 표본은 이 가정을 위반합니다—대신 McNemar 검정을 사용하세요.
3. 기대빈도 ≥ 5
모든 기대 셀 빈도가 5 이상이어야 합니다. 셀의 20% 이상에서 기대 빈도가 5 미만인 경우, 카이제곱 근사가 신뢰할 수 없게 됩니다. 이런 경우 범주를 통합하거나 Fisher의 정확 검정(2×2 표의 경우)을 사용하는 것을 고려하세요.
4. 상호배타적 범주
각 관측치는 하나의 범주에만 속해야 합니다. 범주들은 상호배타적이고 포괄적이어야 하며, 모든 관측치가 정확히 하나의 범주에 할당되어야 합니다. 무작위 표집 또는 무작위 배정을 통해 데이터를 수집하여 표본이 모집단을 대표하도록 해야 합니다.
p-값은 연관성이 통계적으로 유의한지를 알려주지만, Cramér의 V는 그 연관성이 얼마나 강한지를 알려줍니다. 이는 대규모 표본에서는 사소한 연관성도 통계적으로 유의할 수 있기 때문에 매우 중요합니다. Cramér의 V는 0(연관 없음)에서 1(완벽한 연관)까지의 범위를 가지며, 해석은 자유도(행 − 1 또는 열 − 1 중 작은 값)에 따라 달라집니다:
| 효과크기 | df* = 1 | df* = 2 | df* = 3 | df* ≥ 4 |
|---|---|---|---|---|
| 작은 효과 | .10 | .07 | .06 | .05 |
| 중간 효과 | .30 | .21 | .17 | .15 |
| 큰 효과 | .50 | .35 | .29 | .25 |
*df* = min(행 − 1, 열 − 1). 위의 계산 예시(2×3 표)에서 df* = 1이므로, V = .29는 중간 수준의 효과에 해당합니다.
APA 7판 지침에 따르면, 카이제곱 결과 보고에는 카이제곱 통계량, 자유도, 표본 크기, p-값, 그리고 효과크기 측정치가 포함되어야 합니다. 다음은 템플릿과 실제 예시입니다:
템플릿
[변수 1]과 [변수 2] 간의 관계를 검정하기 위해 카이제곱 독립성 검정을 실시하였다. 두 변수 간의 관계는 [유의하였다/유의하지 않았다], χ²(df, N = XX) = X.XX, p = .XXX, Cramér's V = .XX.
실제 예시 (위 계산 예시 기반)
성별과 제품 선호도 간의 관계를 검정하기 위해 카이제곱 독립성 검정을 실시하였다. 두 변수 간의 관계는 통계적으로 유의하였다, χ²(2, N = 100) = 8.41, p = .015, Cramér's V = .29. 남성은 여성(30%)에 비해 제품 A에 대한 선호도가 현저히 높았으며(60%), 여성은 세 가지 제품 전체에 걸쳐 더 균등하게 분포하였다.
참고: χ² 값은 소수점 둘째 자리까지 보고합니다. p-값은 소수점 셋째 자리까지 보고하되, .001 미만인 경우 p < .001로 표기합니다. 독립성 검정에서는 항상 효과크기 측정치(Cramér's V)를 포함해야 합니다.
StatMate의 카이제곱 계산은 R의 chisq.test() 함수와 SPSS 출력으로 검증되었습니다. jstat 라이브러리를 사용하여 카이제곱 확률 분포를 계산하며, 기대 빈도, 자유도, Cramér의 V를 표준 통계 공식에 따라 산출합니다. 모든 결과는 R 출력과 소수점 넷째 자리까지 일치합니다.
T-검정
두 집단의 평균 비교
분산분석
3개 이상 집단의 평균 비교
상관분석
관계의 강도 측정
기술통계
데이터 요약
표본 크기
검정력 분석 및 표본 계획
일표본 T
알려진 값과 비교
Mann-Whitney U
비모수 집단 비교
Wilcoxon
비모수 대응표본 검정
회귀분석
X-Y 관계 모델링
다중회귀
다중 예측변수 분석
Cronbach's Alpha
척도 신뢰도 분석
로지스틱 회귀
이항 결과 예측
요인분석
잠재 요인 구조 탐색
Kruskal-Wallis
비모수 3개 이상 집단 비교
반복측정
피험자 내 분산분석
이원배치 분산분석
요인설계 분석
Friedman 검정
비모수 반복측정
Fisher 정확검정
2×2 분할표 정확 검정
McNemar 검정
대응 명목 데이터 검정
| 열 1 | 열 2 | |
|---|---|---|
| 행 1 | ||
| 행 2 |
데이터를 입력하고 계산을 클릭하세요
또는 "예시 데이터"를 클릭해 사용해보세요