How many participants do I need for a pilot study?

Pilot studies assess feasibility and provide preliminary effect size estimates, not statistical significance. Formal power analysis is generally not required. Common recommendations range from 12 per group (Julious, 2005) to 30 per group (Lancaster et al., 2004). The key is having enough participants to assess variability in your outcome measure.

Can I use a sample size calculator if my design has covariates?

Standard calculators assume simple designs without covariates. When you include covariates (e.g., ANCOVA), effective error variance decreases, so you need a smaller sample for the same power. A rough adjustment is to multiply the standard sample size by (1 - R²), where R² is the variance explained by covariates. For precise estimates, use simulation-based power analysis.

What is the minimum sample size for any statistical test?

There is no universal minimum. Required sample size depends entirely on effect size, significance level, and desired power. Practical minimums exist: for parametric tests, at least 15-20 per group for the central limit theorem; for chi-square tests, expected cell frequencies should be at least 5. These are necessary but not sufficient conditions for adequate power.

Should I use one-tailed or two-tailed tests for power analysis?

Use two-tailed tests unless you have a strong, pre-registered directional hypothesis and would genuinely not be interested in an effect in the opposite direction. One-tailed tests reduce required sample size by approximately 20%, but are heavily scrutinized by reviewers. When in doubt, plan for two-tailed.

Is it ethical to collect more data than the power analysis requires?

Generally yes, as long as additional data collection does not impose undue burden on participants. Extra participants provide more precise effect size estimates and increase power for secondary analyses. However, you must not use additional data to fish for significance — your primary analysis should follow the pre-registered plan.

What if I cannot recruit enough participants?

Options include: (1) use a more sensitive design such as within-subjects or ANCOVA; (2) accept lower target power (e.g., 0.70) while acknowledging this limitation; (3) focus on larger expected effect sizes by refining your intervention; (4) collaborate with other sites for multi-center recruitment. Do not simply proceed with an underpowered study without transparent disclosure.

Why is post-hoc power analysis considered inappropriate?

Post-hoc (observed) power is a direct mathematical transformation of the p-value and provides no additional information. If p = .05, observed power is approximately .50; if p = .001, observed power is approximately .95. Instead, report confidence intervals for the effect size and conduct sensitivity analyses for future studies.

How does Bayesian sample size planning differ from frequentist power analysis?

Bayesian approaches determine sample size based on the precision of the posterior distribution or the probability of reaching a decisive Bayes factor. Instead of targeting a fixed power level, you plan for a study where the probability of obtaining strong evidence (e.g., BF > 10) exceeds a threshold (e.g., 80%). Bayesian methods can incorporate prior information, potentially reducing sample size requirements.

표본크기 결정 완벽 가이드 — 검정력 분석부터 공식까지

표본크기, 왜 미리 결정해야 할까?

연구를 시작할 때 가장 자주 받는 질문 중 하나는 "참가자를 몇 명 모아야 하나요?" 입니다. 이 질문에 대한 답을 체계적으로 구하는 과정이 바로 표본크기 결정(sample size determination) 이며, 그 핵심 도구가 검정력 분석(power analysis) 입니다.

표본크기를 사전에 계산하지 않으면 두 가지 문제가 발생합니다.

표본이 너무 적으면(underpowered study): 실제 효과가 존재하더라도 통계적으로 유의한 결과를 얻지 못합니다. 수개월간 시간과 비용을 투자하고도 결론을 내릴 수 없는 상황이 됩니다.
표본이 너무 많으면(overpowered study): 불필요한 자원이 낭비되고, 인간 대상 연구에서는 윤리적 문제까지 제기될 수 있습니다. 또한 과도한 표본은 실질적으로 의미 없는 아주 작은 차이도 통계적으로 유의하게 만들어 해석을 왜곡할 수 있습니다.

IRB(연구윤리위원회) 심의나 학위 논문 프로포절에서도 표본크기의 근거를 요구하는 경우가 대부분이며, 최근에는 학술지 투고 시에도 사전 검정력 분석 결과를 명시하도록 요구하는 경우가 늘고 있습니다.

이 가이드에서는 검정력 분석의 이론적 기초부터, 주요 통계 검정별 표본크기 산출표, 실용적인 도구와 워크플로, 현실적인 보정 방법, 그리고 연구자들이 흔히 저지르는 실수까지 포괄적으로 다룹니다.

검정력 분석의 기본 원리

Type I 오류와 Type II 오류

표본크기 결정을 이해하려면 먼저 두 가지 통계적 오류를 알아야 합니다.

| 오류 유형 | 의미 | 결과 | 통제 수단 | |-----------|------|------|-----------| | Type I 오류 (α) | 실제로는 효과가 없는데 있다고 결론 내림 | 거짓 양성 — 존재하지 않는 효과를 추구하며 자원 낭비 | 유의수준 (α) | | Type II 오류 (β) | 실제로는 효과가 있는데 없다고 결론 내림 | 거짓 음성 — 의미 있는 발견을 놓침, 연구 낭비 | 통계적 검정력 (1 - β) |

유의수준(α) 은 Type I 오류를 허용하는 최대 확률로, 관례적으로 0.05를 사용합니다.
검정력(1 - β) 은 실제 효과가 존재할 때 이를 올바르게 탐지할 확률입니다. 관례적으로 0.80 이상을 권장합니다.

이 두 오류는 고정된 표본크기에서 역의 관계에 있습니다. α를 엄격하게(예: 0.05 대신 0.01) 설정하면 거짓 양성은 줄지만, 표본크기를 늘리지 않으면 거짓 음성이 증가합니다. 이 긴장 관계가 표본크기 설계의 핵심입니다.

효과크기 — 가장 오해가 많은 요소

효과크기는 연구에서 탐지하고자 하는 현상의 크기를 정량화합니다. 표본크기를 결정하는 데 가장 큰 영향을 미치는 요소이지만, 연구자들이 가장 어려워하는 부분이기도 합니다.

분석 방법에 따라 사용하는 효과크기 지표가 다릅니다:

| 분석 방법 | 효과크기 지표 | 작음 | 중간 | 큼 | |-----------|-------------|------|------|-----| | t-검정 | Cohen's d | 0.20 | 0.50 | 0.80 | | ANOVA | Cohen's f | 0.10 | 0.25 | 0.40 | | ANOVA | 부분 η² | 0.01 | 0.06 | 0.14 | | 상관분석 | r | 0.10 | 0.30 | 0.50 | | 카이제곱 | Cohen's w | 0.10 | 0.30 | 0.50 | | 회귀분석 | f² | 0.02 | 0.15 | 0.35 |

Cohen(1988)이 제안한 이 기준은 선행연구가 없을 때 참고할 수 있는 관례적 수치이지만, 맥락별 추정을 대체하기 위해 만들어진 것은 아닙니다. 효과크기 추정의 최선 출처를 우선순위별로 정리하면:

해당 연구 분야의 메타분석
유사한 모집단과 측정 도구를 사용한 개별 선행연구
자체 예비 연구의 파일럿 데이터
SESOI (최소 관심 효과크기) — 이론적 또는 실용적으로 의미 있는 최소 효과
Cohen의 관례적 기준 — 최후의 수단, 기본값이 아님

네 가지 요소의 상호 관계

검정력 분석에서 표본크기는 다음 네 가지 요소의 함수입니다. 이 중 세 가지를 고정하면 나머지 하나가 수학적으로 결정됩니다:

유의수준 (α): 귀무가설 기각 기준. 보통 0.05. 탐색적 연구 0.10, 확증적 연구 0.01 또는 0.005.
검정력 (1 - β): 실제 효과 탐지 확률. 대부분 최소 0.80; 임상시험 등 고위험 연구는 0.90 이상.
효과크기: 탐지하고자 하는 최소 효과 크기. 작을수록 더 많은 표본 필요.
표본크기 (N): 필요한 관찰 수.

핵심 관계:

α를 작게 할수록 → 더 많은 표본 필요
검정력을 높일수록 → 더 많은 표본 필요
탐지할 효과크기가 작을수록 → 더 많은 표본 필요
단측 검정 → 양측 검정보다 적은 표본 (단, 강력한 방향성 근거 필요)

분석 방법별 표본크기 산출 가이드

독립표본 t-검정

독립표본 t-검정에서 각 집단에 필요한 표본크기는 다음 공식으로 근사할 수 있습니다.

n ≈ 2 × ((z_α/2 + z_β) / d)²

α = 0.05, 검정력 = 0.80일 때 집단당 필요 표본크기:

| 효과크기 (Cohen's d) | 집단당 표본 수 | 총 표본 수 | |------------------------|--------------|-----------| | 0.20 (작음) | 394 | 788 | | 0.30 | 176 | 352 | | 0.50 (중간) | 64 | 128 | | 0.80 (큼) | 26 | 52 |

검정력을 0.90으로 높이면 이 수치가 약 30% 증가합니다. 예를 들어, 중간 효과크기에서는 집단당 86명(총 172명)이 필요합니다.

대응표본 t-검정

참가자 내 변동성이 제거되므로 독립표본 설계보다 훨씬 적은 참가자로 동일한 검정력을 확보할 수 있습니다:

α = 0.05, 검정력 = 0.80일 때 필요 쌍(pair) 수:

| 효과크기 (Cohen's d) | 필요 쌍 수 | |------------------------|-----------| | 0.20 (작음) | 199 | | 0.50 (중간) | 34 | | 0.80 (큼) | 15 |

중간 효과크기를 탐지하는 데 대응표본 설계는 34명만 필요한 반면, 독립표본 설계는 128명이 필요합니다 — 73%의 모집 비용 절감.

단일표본 t-검정

α = 0.05(양측 검정), 검정력 = 0.80일 때:

| 효과크기 (Cohen's d) | 필요 표본 수 | |------------------------|-------------| | 0.20 (작음) | 199 | | 0.50 (중간) | 34 | | 0.80 (큼) | 15 |

일원배치 ANOVA

ANOVA에서는 Cohen's f를 효과크기로 사용합니다. 집단 수가 늘어날수록 필요한 표본크기가 증가합니다.

α = 0.05, 검정력 = 0.80, 3개 집단일 때 집단당 필요 표본크기:

| 효과크기 (Cohen's f) | 집단당 표본 수 | 총 표본 수 | |------------------------|--------------|-----------| | 0.10 (작음) | 322 | 966 | | 0.25 (중간) | 52 | 156 | | 0.40 (큼) | 21 | 63 |

집단 수가 총 표본크기에 미치는 영향 (중간 효과크기, α = .05, 검정력 = .80):

| 집단 수 | 집단당 표본 수 | 총 표본 수 | |---------|--------------|-----------| | 3 | 52 | 156 | | 4 | 45 | 180 | | 5 | 39 | 195 | | 6 | 35 | 210 |

상관분석

Pearson 상관계수의 유의성을 검정할 때 필요한 표본크기입니다.

α = 0.05(양측 검정), 검정력 = 0.80일 때:

| 효과크기 (r) | 필요 표본 수 | |---------------|-------------| | 0.10 (작음) | 783 | | 0.20 | 197 | | 0.30 (중간) | 85 | | 0.50 (큼) | 29 |

다중회귀분석

회귀분석에서는 전체 모형과 개별 예측 변수의 검정력을 모두 고려해야 합니다. Cohen's f²가 표준 효과크기 지표입니다.

전체 모형 기준 필요 표본크기 (α = .05, 검정력 = .80):

| 예측 변수 수 | 작음 (f² = .02) | 중간 (f² = .15) | 큼 (f² = .35) | |-------------|------------------|------------------|-----------------| | 2 | 485 | 68 | 31 | | 5 | 647 | 92 | 43 | | 10 | 825 | 119 | 57 |

흔히 사용되는 경험 법칙으로 전체 모형의 경우 N ≥ 50 + 8k (k = 예측 변수 수), 개별 예측 변수의 경우 N ≥ 104 + k가 있습니다. 그러나 이 규칙은 부정확하므로 공식적인 검정력 분석을 대체할 수 없습니다.

반복측정 ANOVA

반복측정 설계는 개인차를 오차 분산의 원천에서 제거하므로 집단 간 설계보다 효율적입니다. 반복 측정 간 상관에 따라 표본크기 절감이 상당할 수 있습니다.

필요 참가자 수 (α = .05, 검정력 = .80, 3회 측정, 중간 효과 f = 0.25):

| 반복측정 간 상관 | 필요 참가자 수 | |----------------|--------------| | 0.30 (낮음) | 42 | | 0.50 (중간) | 28 | | 0.70 (높음) | 18 |

반복측정 간 상관이 높을수록 필요한 표본크기가 줄어듭니다. 측정도구의 검사-재검사 신뢰도가 0.80이라면 20명 미만으로도 중간 효과를 탐지할 수 있어 매우 효율적입니다.

중요 고려사항: 반복측정 설계에서는 구형성 가정을 고려해야 합니다. 구형성 위반 시 실제 1종 오류율이 명목 수준을 초과합니다. Greenhouse-Geisser 또는 Huynh-Feldt 보정은 유효 자유도를 줄여 검정력을 약간 감소시킵니다. 보정되지 않은 추정치보다 10-15% 더 많은 참가자를 계획하세요.

이원배치 ANOVA

요인 설계에서는 주효과와 상호작용 중 어느 것에 맞춰 검정력을 설계할지 결정해야 합니다. 상호작용 효과는 주효과보다 일반적으로 작으므로 더 큰 표본이 필요합니다.

근사적 셀당 표본크기 (α = .05, 검정력 = .80, 2×2 설계):

| 효과크기 (Cohen's f) | 주효과 | 상호작용 | |------------------------|--------|---------| | 0.10 (작음) | 322 | 787 | | 0.25 (중간) | 52 | 128 | | 0.40 (큼) | 21 | 52 |

상호작용의 경우 보수적인 추정은 주효과에 필요한 표본의 약 2배이지만, 정확한 수는 평균의 구체적인 패턴에 따라 달라집니다.

카이제곱 독립성 검정

카이제곱 검정에서는 Cohen's w를 효과크기로, 자유도(df)를 추가로 고려합니다.

α = 0.05, 검정력 = 0.80, 2×2 표(df = 1)일 때:

| 효과크기 (Cohen's w) | 필요 표본 수 | |------------------------|-------------| | 0.10 (작음) | 785 | | 0.30 (중간) | 88 | | 0.50 (큼) | 32 |

자유도가 커지면(예: 3×3 표, df = 4) 더 많은 표본이 필요합니다. 중간 효과크기의 3×3 표의 경우 약 133명이 필요합니다.

로지스틱 회귀분석

로지스틱 회귀분석의 표본크기는 전체 N이 아닌 사건 수(events)에 따라 결정됩니다. 흔히 인용되는 최소 기준은 예측 변수당 10개의 사건(EPV)이며, 시뮬레이션 연구에서는 보다 안정적인 추정을 위해 EPV 20을 권장합니다. 5개의 예측 변수와 20%의 예상 사건율을 가진 모형의 경우, 최소 EPV 기준에서 5 × 10 / 0.20 = 250명의 참가자가 필요합니다.

G*Power와 기타 도구 활용

G*Power 단계별 가이드

G*Power는 표본크기 계산에 가장 널리 사용되는 무료 데스크톱 소프트웨어입니다. 가장 일반적인 시나리오인 독립표본 t-검정의 사전 검정력 분석 워크플로를 안내합니다:

G*Power를 열고 Test family → t tests 선택
Statistical test 선택 → Means: Difference between two independent means (two groups)
Type of power analysis 선택 → A priori: Compute required sample size
매개변수 입력:
- Tail(s): Two
- Effect size d: 0.50 (또는 연구자의 추정값)
- α err prob: 0.05
- Power (1-β err prob): 0.80
- Allocation ratio N2/N1: 1
Calculate 클릭 — 집단당 및 총 필요 표본크기가 출력됩니다

G*Power는 거의 모든 통계 검정을 지원하며 사전, 사후, 민감도 분석이 모두 가능합니다. 그러나 설치가 필요하고, 초보자에게 진입 장벽이 있으며, 일부 운영 체제에서 불안정할 수 있습니다.

도구 비교

| 기능 | G*Power | StatMate | R (pwr 패키지) | 기타 온라인 도구 | |------|---------|----------|---------------|----------------| | 비용 | 무료 | 무료 | 무료 | 다양 | | 설치 | 필요 | 불필요 (웹) | 필요 | 불필요 | | 지원 검정 | 50+ | t-검정, ANOVA, 상관, 카이제곱 | 20+ | 보통 2-5개 | | 학습 곡선 | 가파름 | 최소 | 중간 (코딩 필요) | 최소 | | 시각화 | 검정력 곡선 | 검정력 곡선 | 커스텀 플롯 | 거의 없음 | | 인용 가능성 | 널리 인용 | 가능 | 가능 | 다양 |

실무 권장: 계획 단계에서 빠른 추정에는 StatMate의 표본크기 계산기 같은 온라인 도구를, 논문에 포함할 공식적인 검정력 분석에는 G*Power나 R의 pwr 패키지를 사용하세요.

R 코드 예시

R에 익숙한 연구자를 위해 pwr 패키지가 정밀한 계산을 제공합니다:

# 독립표본 t-검정
library(pwr)
pwr.t.test(d = 0.50, sig.level = 0.05, power = 0.80, type = "two.sample")
# 결과: n = 63.77 (집단당) → 올림하여 64

# 일원배치 ANOVA (3집단)
pwr.anova.test(k = 3, f = 0.25, sig.level = 0.05, power = 0.80)
# 결과: n = 52.40 (집단당) → 올림하여 53

# 상관분석
pwr.r.test(r = 0.30, sig.level = 0.05, power = 0.80)
# 결과: n = 84.07 → 올림하여 85

탈락률과 설계 효과 보정

탈락률 반영

계산된 표본크기는 분석에 포함되는 최소 인원이며, 모집 인원이 아닙니다. 종단 연구, 임상 시험, 설문 조사에서는 참가자 탈락이 발생하므로 모집 목표를 상향해야 합니다.

보정된 표본크기 = 필요 표본크기 / (1 - 예상 탈락률)

연구 유형별 일반적인 탈락률:

| 연구 유형 | 예상 탈락률 | 보정 계수 | |----------|-----------|----------| | 실험실 실험 (단일 세션) | 5% | × 1.05 | | 설문 조사 | 10-20% | × 1.11 ~ × 1.25 | | 종단 연구 (6개월) | 15-25% | × 1.18 ~ × 1.33 | | 임상 시험 (12개월+) | 20-40% | × 1.25 ~ × 1.67 |

예를 들어, 검정력 분석 결과 128명이 필요하고 15%의 탈락이 예상되면: 128 / (1 - 0.15) = 151명을 모집해야 합니다.

군집 설계의 설계 효과 (DEFF)

참가자가 군집(학급의 학생, 병원의 환자) 내에 속해 있으면 같은 군집 내 관측값이 상관됩니다. 이 군집화는 유효 표본크기를 줄입니다. **설계 효과(DEFF)**로 이 증가분을 계산합니다:

DEFF = 1 + (m - 1) × ICC

여기서 m은 평균 군집 크기, ICC는 급내 상관 계수입니다. 표준 표본크기에 DEFF를 곱합니다.

예시: 128명이 필요하고, 학급당 학생 25명, ICC가 0.05인 경우:

DEFF = 1 + (25 - 1) × 0.05 = 2.20 보정된 N = 128 × 2.20 = 282명 (약 12개 학급)

군집화를 무시하면 실제로는 심각하게 검정력이 부족한 연구가 적절해 보일 수 있습니다.

불균등 집단 크기

집단 크기가 다를 때(예: 소규모 임상 집단 vs. 대규모 통제 집단) 동일 배분보다 검정력이 떨어집니다. 조화 평균으로 유효 집단당 N을 추정합니다:

n_유효 = 2 / (1/n₁ + 1/n₂)

2:1 배분 비율은 동일 집단 대비 약 6%의 검정력 감소를 초래합니다. 3:1을 넘는 비율은 수확 체감이 발생하므로 일반적으로 권장하지 않습니다.

표본크기 결정에서 흔히 저지르는 실수

사후 검정력 분석

연구를 완료한 후 관찰된 효과크기로 검정력을 계산하는 것은 논리적으로 순환적입니다. 사후(관찰) 검정력은 p값의 직접적인 수학적 변환이며 추가적인 정보를 제공하지 않습니다. p = .05이면 관찰 검정력은 약 .50이고, p = .001이면 약 .95입니다. p값이 이미 알려주는 것 이상의 정보가 없습니다.

대신 해야 할 것: 비유의한 결과가 나왔다면 효과크기의 신뢰구간을 보고하세요. 영(0) 근처의 좁은 신뢰구간이 어떤 사후 검정력 계산보다 더 유익합니다. 향후 연구를 위해서는 연구가 적절한 검정력으로 탐지할 수 있었던 효과크기를 결정하는 민감도 분석을 수행하세요.

다른 연구의 효과크기를 무비판적으로 사용

단일 선행연구에서 효과크기를 차용하는 것은 흔하지만 위험합니다. 출판된 연구는 출판 편향(publication bias)의 영향을 받습니다 — 유의한 결과가 출판될 확률이 더 높으므로, 출판된 효과크기는 체계적으로 부풀려져 있습니다. "승자의 저주"라 불리는 이 현상은, 단일 출판 연구에 기반한 검정력 분석이 종종 검정력 부족 복제(underpowered replication)로 이어진다는 것을 의미합니다.

대신 해야 할 것: 가능하면 메타분석의 효과크기를 사용하세요. 개별 연구만 있다면, 부풀림을 보정하기 위해 출판된 효과크기에서 20-30%를 줄이세요. 또는 통계적 선례보다 실용적 유의성에 기반한 SESOI(최소 관심 효과크기)를 설정하세요.

항상 "중간" 효과크기를 기본값으로 사용

선행연구가 없을 때 Cohen의 중간 기준을 기본값으로 사용하는 것은 위험하게 낙관적일 수 있습니다. 많은 분야, 특히 사회심리학과 교육학에서 실제 효과크기는 중간보다 작은 수준에 가깝습니다. d = 0.50에 맞춰 설계한 연구는 d = 0.20을 탐지할 검정력이 약 30%에 불과합니다.

설계 복잡성 무시

단순 검정력 분석 공식은 가장 단순한 설계를 가정합니다. 실제 연구에는 종종 다음이 포함됩니다:

공변량 — 추가적인 분산을 설명하여 검정력을 높일 수 있음
다중 비교 — α 보정이 필요하여 비교당 검정력이 감소
매개 변수와 조절 변수 — 간접 효과의 적절한 검정력을 위해 더 큰 표본 필요
결측치 — 유효 표본크기를 줄임
군집 설계 — 분산을 증가시킴

이러한 요소들을 각각 표본크기 계산에 반영해야 합니다. 확신이 없을 때는 공식 기반 대신 R이나 Stata를 사용한 시뮬레이션 기반 검정력 분석을 수행하세요.

하위집단 분석을 고려하지 않음

성별, 연령대 등 하위집단별 분석을 계획하고 있다면, 각 하위집단에 충분한 검정력이 확보되도록 표본크기를 설계해야 합니다. 전체 표본에 대한 분석에는 충분한 검정력이 있더라도 하위집단 비교에서는 검정력이 부족할 수 있습니다.

검정력 분석 없이 편의적으로 표본크기 결정

"30명이면 충분하겠지"라는 막연한 판단으로 표본크기를 정하는 것은 가장 흔한 실수입니다. 중심극한정리에 의해 30명이 정규성 가정에는 충분할 수 있지만, 이것이 충분한 검정력을 보장하지는 않습니다.

표본크기 보고 방법

논문이나 프로포절에서 표본크기 결정을 보고할 때는 다음 정보를 명시해야 합니다:

사용한 분석 방법
유의수준과 단측/양측 검정 여부
목표 검정력
효과크기와 그 근거
계산된 표본크기
사용한 계산 도구
탈락률 또는 설계 효과 보정 내역

학위 논문 프로포절 보고 예시:

표본크기는 G*Power 3.1을 사용한 사전 검정력 분석으로 결정하였다. 독립표본 t-검정(양측)을 기준으로, 유의수준 α = .05, 검정력 .80, Kim 등(2024)의 메타분석에서 보고된 효과크기(평균 d = 0.53, 95% CI [0.38, 0.68])에 근거한 d = 0.50을 적용한 결과, 집단당 최소 64명(총 128명)이 필요한 것으로 산출되었다. 예상 탈락률 15%를 반영하여 집단당 76명(총 152명)을 모집 목표로 설정하였다.

임상시험 보고 예시:

검정력 분석은 R(pwr 패키지, v1.3-0)을 사용하여 수행하였다. 혼합 설계 ANOVA(2집단 × 3시점)를 기준으로, 두 주요 결과에 대한 Bonferroni 보정이 적용된 유의수준 α = .025, 검정력 .90, 파일럿 연구(N = 30, 관찰된 f = 0.28)에 근거한 중간 상호작용 효과(f = 0.25)를 적용한 결과, 집단당 최소 54명(총 108명)이 필요한 것으로 산출되었다. 12개월 추적 기간 동안 25%의 탈락률을 고려하여 집단당 72명(총 144명)으로 모집 목표를 설정하였다.

자주 묻는 질문

파일럿 연구에는 참가자가 몇 명 필요한가요?

파일럿 연구는 확증적 연구와 다른 목적을 가집니다 — 실행 가능성 평가, 절차 개선, 예비 효과크기 추정. 공식적인 검정력 분석은 일반적으로 파일럿에는 필요하지 않습니다. 흔한 권장 범위는 집단당 12명(Julious, 2005)에서 30명(Lancaster 등, 2004)입니다. 핵심은 통계적 유의성을 달성하는 것이 아니라, 결과 측정치의 변동성을 평가하기에 충분한 참가자를 확보하는 것입니다.

공변량이 포함된 설계에서 표본크기 계산기를 사용할 수 있나요?

표준 계산기는 공변량 없는 단순 설계를 가정합니다. 공변량을 포함하면(예: ANOVA 대신 ANCOVA) 유효 오차 분산이 감소하므로 동일한 검정력에 실제로 더 적은 표본이 필요합니다. 대략적인 보정은 표준 표본크기에 (1 - R²)를 곱하는 것입니다. 여기서 R²는 공변량이 설명하는 결과 분산의 비율입니다. 보다 정확한 추정을 위해서는 시뮬레이션 기반 검정력 분석을 사용하세요.

통계 검정의 최소 표본크기는 얼마인가요?

보편적인 최소값은 없습니다. 필요한 표본크기는 전적으로 효과크기, 유의수준, 원하는 검정력에 의해 결정됩니다. 그러나 실용적 최소값은 존재합니다: 모수적 검정의 경우 중심극한정리가 합리적인 정규성을 제공하려면 집단당 최소 15-20명이 일반적으로 필요하며, 카이제곱 검정의 경우 기대 셀 빈도가 최소 5 이상이어야 합니다. 이는 충분한 검정력의 필요조건이지 충분조건이 아닙니다.

검정력 분석에서 단측 검정을 사용해야 하나요, 양측 검정을 사용해야 하나요?

강력하고 사전 등록된 방향성 가설이 있으며, 반대 방향의 효과에는 진정으로 관심이 없는 경우가 아니면 양측 검정을 사용하세요. 단측 검정은 필요 표본크기를 약 20% 줄이지만, 심사자의 엄격한 검토를 받습니다. 확신이 없으면 양측으로 계획하세요 — 충분한 검정력을 가진 양측 검정은 항상 보고할 수 있지만, 양측에서 비유의한 결과를 얻은 후 단측으로 전환하는 것은 허용되지 않습니다.

질적 연구의 표본크기는 어떻게 결정하나요?

검정력 분석은 양적 가설 검정에 특화된 방법입니다. 질적 연구에서는 데이터 포화(data saturation) — 새로운 데이터가 더 이상 새로운 주제나 범주를 드러내지 않는 지점 — 개념으로 표본크기를 결정합니다. Guest 등(2006)은 비교적 동질적인 모집단의 경우 12회의 인터뷰 내에서 포화가 이루어지는 경우가 많다고 발견했습니다. 근거이론의 경우 20-30명, 현상학 연구의 경우 5-25명이 일반적입니다.

검정력 분석에서 요구하는 것보다 더 많은 데이터를 수집하는 것이 윤리적인가요?

일반적으로 그렇습니다. 추가 데이터 수집이 참가자에게 과도한 부담을 주지 않는 한 허용됩니다. 추가 참가자는 보다 정밀한 효과크기 추정과 이차 분석의 검정력 향상을 제공합니다. 그러나 추가 데이터를 사용하여 유의성을 "낚시(fishing)"해서는 안 됩니다 — 주요 분석은 사전 등록된 계획을 따라야 합니다. 일부 윤리위원회는 모집이 검정력 분석 목표를 크게 초과할 경우 근거를 요구합니다.

충분한 참가자를 모집할 수 없는 경우 어떻게 하나요?

필요한 표본크기가 실행 가능한 수준을 초과하면 여러 옵션이 있습니다: (1) 대응표본이나 ANCOVA 같은 더 민감한 설계를 사용하여 필요 참가자 수를 줄임; (2) 이 제한을 인정하면서 더 낮은 목표 검정력(예: 0.80 대신 0.70)을 수용; (3) 중재를 정교화하거나 더 신뢰할 수 있는 측정 도구를 사용하여 더 큰 예상 효과크기에 집중; (4) 다기관 모집을 위해 다른 연구 기관과 협력. 투명한 공개 없이 검정력이 부족한 연구를 단순히 진행하지 마세요.

베이지안 표본크기 계획은 빈도주의 검정력 분석과 어떻게 다른가요?

베이지안 접근법은 사후 분포의 정밀도 또는 결정적인 베이즈 팩터에 도달할 확률을 기반으로 표본크기를 결정합니다. 고정된 검정력 수준을 목표로 하는 대신, 베이즈 팩터가 10 이상(강한 증거)을 얻을 확률이 80%를 초과하는 연구를 계획할 수 있습니다. 베이지안 방법은 효과크기에 대한 사전 정보를 통합하여 표본크기 요구사항을 잠재적으로 줄일 수 있습니다. R 패키지 BayesFactor와 BFDA가 베이지안 설계 분석을 지원합니다.

StatMate로 표본크기 간편하게 계산하기

표본크기 계산이 복잡하게 느껴진다면, StatMate의 표본크기 계산기를 활용해 보세요.

분석 방법 선택: t-검정, ANOVA, 상관분석, 카이제곱 중 사용할 검정을 선택합니다.
파라미터 입력: 유의수준, 검정력, 효과크기를 입력합니다. 효과크기가 불확실하면 가이드라인을 참고할 수 있습니다.
결과 확인: 필요한 표본크기가 즉시 계산되며, 다양한 효과크기에 따른 표본크기 변화를 보여주는 검정력 곡선 그래프도 함께 제공됩니다.
보고서 활용: 계산 결과를 논문에 바로 포함할 수 있는 형태로 출력하거나, PDF 또는 Word 문서로 내보낼 수 있습니다.

복잡한 공식을 직접 계산하거나 소프트웨어 설치 없이도, 연구에 필요한 표본크기를 빠르고 정확하게 산출할 수 있습니다.

마무리

표본크기 결정은 연구의 성패를 좌우하는 핵심 설계 단계입니다. 유의수준, 검정력, 효과크기의 관계를 이해하고, 연구에 사용할 분석 방법에 맞는 검정력 분석을 사전에 수행하는 것이 올바른 연구 설계의 출발점입니다.

기억해야 할 핵심 원칙:

항상 사전(a priori) 검정력 분석을 수행하세요. 데이터 수집 전에 필요한 표본크기를 계산해야 합니다.
효과크기는 가능한 최선의 근거에 기반하세요. 메타분석과 선행연구가 Cohen의 관례적 기준보다 항상 우선합니다.
현실적인 보정을 반영하세요. 탈락률, 군집화, 다중 비교, 하위집단 분석 모두 필요 표본크기에 영향을 미칩니다.
검정력 분석을 투명하게 보고하세요. 모든 매개변수, 근거, 소프트웨어 세부사항을 포함하여 다른 연구자가 설계를 평가하고 복제할 수 있게 하세요.
사후 검정력에 의존하지 마세요. 수학적으로 중복이며 방법론적으로 오해를 유발합니다.

감이 아닌 계산에 기반한 표본크기 결정이 더 강력한 연구의 시작입니다.