표본크기 결정 완벽 가이드 — 검정력 분석부터 공식까지

표본크기, 왜 미리 결정해야 할까?

연구를 시작할 때 가장 자주 받는 질문 중 하나는 "참가자를 몇 명 모아야 하나요?" 입니다. 이 질문에 대한 답을 체계적으로 구하는 과정이 바로 표본크기 결정(sample size determination) 이며, 그 핵심 도구가 검정력 분석(power analysis) 입니다.

표본크기를 사전에 계산하지 않으면 두 가지 문제가 발생합니다.

표본이 너무 적으면(underpowered study): 실제 효과가 존재하더라도 통계적으로 유의한 결과를 얻지 못합니다. 수개월간 시간과 비용을 투자하고도 결론을 내릴 수 없는 상황이 됩니다. 학위 논문에서 유의하지 않은 결과가 나왔을 때, 지도교수로부터 "표본이 너무 적었던 것 아닌가?"라는 질문을 받게 되는 것은 이 때문입니다.
표본이 너무 많으면(overpowered study): 불필요한 자원이 낭비되고, 인간 대상 연구에서는 윤리적 문제까지 제기될 수 있습니다. 또한 과도한 표본은 실질적으로 의미 없는 아주 작은 차이도 통계적으로 유의하게 만들어 해석을 왜곡할 수 있습니다. 예를 들어, 10,000명의 데이터에서 두 집단의 평균 차이가 0.1점에 불과하더라도 p < .05가 될 수 있습니다.

IRB(연구윤리위원회) 심의나 학위 논문 프로포절에서도 표본크기의 근거를 요구하는 경우가 대부분이며, 최근에는 학술지 투고 시에도 사전 검정력 분석 결과를 명시하도록 요구하는 경우가 늘고 있습니다. 따라서 검정력 분석은 연구 설계 단계에서 반드시 수행해야 하는 핵심 절차입니다.

Type I 오류와 Type II 오류 이해하기

표본크기 결정을 이해하려면 먼저 두 가지 통계적 오류를 알아야 합니다.

| 오류 유형 | 의미 | 실생활 비유 | |-----------|------|-------------| | Type I 오류 (α) | 실제로는 효과가 없는데 있다고 결론 내림 | 화재가 아닌데 화재 경보가 울림 | | Type II 오류 (β) | 실제로는 효과가 있는데 없다고 결론 내림 | 실제 화재인데 경보가 울리지 않음 |

유의수준(α) 은 Type I 오류를 허용하는 최대 확률로, 관례적으로 0.05를 사용합니다.
검정력(1 - β) 은 실제 효과가 존재할 때 이를 올바르게 탐지할 확률입니다. 관례적으로 0.80 이상을 권장합니다.

표본크기가 작으면 검정력이 낮아져 Type II 오류가 증가합니다. 즉, 실제로는 의미 있는 효과가 존재하더라도 이를 발견하지 못하게 됩니다. 이것이 표본크기 결정이 중요한 근본적인 이유입니다.

구체적인 예를 들어보겠습니다. 새로운 교수법이 기존 교수법보다 시험 성적을 평균 5점 높인다고 가정합시다(표준편차 15점, Cohen's d ≈ 0.33). 만약 각 집단에 20명만 배정한다면, 이 효과를 탐지할 검정력은 약 0.30에 불과합니다. 열 번 연구를 반복하면 일곱 번은 유의하지 않은 결과가 나온다는 의미입니다. 반면 집단당 73명을 확보하면 검정력이 0.80에 도달하여, 실제 효과를 탐지할 확률이 충분해집니다.

표본크기를 결정하는 네 가지 핵심 요소

검정력 분석에서 표본크기는 다음 네 가지 요소의 함수입니다. 이 중 세 가지를 고정하면 나머지 하나가 결정됩니다.

1. 유의수준 (α)

귀무가설이 참일 때 이를 기각할 확률입니다. 대부분의 연구에서 α = 0.05를 사용합니다. 탐색적 연구에서는 0.10, 보수적인 검증에서는 0.01을 사용하기도 합니다.

2. 검정력 (1 - β)

실제 효과가 있을 때 이를 탐지할 확률입니다. 최소 0.80을 권장하며, 중요한 임상 연구에서는 0.90 이상을 설정하기도 합니다.

3. 효과크기 (Effect Size)

연구자가 탐지하고자 하는 최소한의 효과 크기입니다. 효과크기가 작을수록 이를 탐지하기 위해 더 많은 표본이 필요합니다.

효과크기 지표는 분석 방법에 따라 다릅니다.

| 분석 방법 | 효과크기 지표 | 작음 | 중간 | 큼 | |-----------|-------------|------|------|-----| | t-검정 | Cohen's d | 0.20 | 0.50 | 0.80 | | ANOVA | Cohen's f | 0.10 | 0.25 | 0.40 | | 상관분석 | r | 0.10 | 0.30 | 0.50 | | 카이제곱 | Cohen's w | 0.10 | 0.30 | 0.50 |

Cohen(1988)이 제안한 이 기준은 선행연구가 없을 때 참고할 수 있는 관례적 수치입니다. 하지만 이 수치는 어디까지나 대략적인 가이드라인일 뿐이며, 연구 분야에 따라 "작은" 효과크기의 의미가 크게 다를 수 있습니다. 가능하다면 동일하거나 유사한 주제의 선행연구에서 보고된 효과크기를 사용하는 것이 가장 정확합니다. 선행연구를 찾기 어렵다면 소규모 파일럿 연구를 수행하여 예비 효과크기를 추정하는 방법도 있습니다.

4. 표본크기 (N)

위 세 가지 요소를 고정하면 필요한 최소 표본크기가 결정됩니다.

핵심 관계를 요약하면:

α를 작게 할수록 → 더 많은 표본 필요
검정력을 높일수록 → 더 많은 표본 필요
탐지할 효과크기가 작을수록 → 더 많은 표본 필요

분석 방법별 표본크기 산출 가이드

독립표본 t-검정

독립표본 t-검정에서 각 집단에 필요한 표본크기는 다음 공식으로 근사할 수 있습니다.

n ≈ 2 × ((z_α/2 + z_β) / d)²

여기서 d는 Cohen's d(효과크기), z_α/2와 z_β는 각각 유의수준과 검정력에 대응하는 표준정규분포 값입니다.

α = 0.05, 검정력 = 0.80일 때 집단당 필요 표본크기:

| 효과크기 (Cohen's d) | 집단당 표본 수 | 총 표본 수 | |------------------------|--------------|-----------| | 0.20 (작음) | 394 | 788 | | 0.50 (중간) | 64 | 128 | | 0.80 (큼) | 26 | 52 |

중간 효과크기를 탐지하려면 집단당 약 64명, 총 128명이 필요합니다.

일원배치 ANOVA

ANOVA에서는 Cohen's f를 효과크기로 사용합니다.

α = 0.05, 검정력 = 0.80, 3개 집단일 때 집단당 필요 표본크기:

| 효과크기 (Cohen's f) | 집단당 표본 수 | 총 표본 수 | |------------------------|--------------|-----------| | 0.10 (작음) | 322 | 966 | | 0.25 (중간) | 52 | 156 | | 0.40 (큼) | 21 | 63 |

집단 수가 늘어나면 총 표본크기도 증가합니다. 4개 집단으로 중간 효과크기를 탐지하려면 집단당 약 45명, 총 180명이 필요합니다.

상관분석

Pearson 상관계수의 유의성을 검정할 때 필요한 표본크기입니다.

α = 0.05(양측 검정), 검정력 = 0.80일 때:

| 효과크기 (r) | 필요 표본 수 | |---------------|-------------| | 0.10 (작음) | 783 | | 0.30 (중간) | 85 | | 0.50 (큼) | 29 |

상관계수 0.30을 탐지하려면 약 85명의 참가자가 필요합니다.

카이제곱 독립성 검정

카이제곱 검정에서는 Cohen's w를 효과크기로, 자유도(df)를 추가로 고려합니다.

α = 0.05, 검정력 = 0.80, 2x2 표(df = 1)일 때:

| 효과크기 (Cohen's w) | 필요 표본 수 | |------------------------|-------------| | 0.10 (작음) | 785 | | 0.30 (중간) | 88 | | 0.50 (큼) | 32 |

자유도가 커지면(예: 3x3 표, df = 4) 같은 효과크기를 탐지하는 데 더 많은 표본이 필요합니다. 또한 카이제곱 검정에서는 기대빈도가 5 미만인 셀이 전체의 20%를 초과하면 검정의 신뢰성이 떨어지므로, 표본크기를 넉넉히 확보하는 것이 특히 중요합니다.

대응표본 t-검정

같은 참가자를 두 번 측정하는 대응표본(paired) 설계에서는 독립표본 t-검정보다 적은 표본으로도 동일한 검정력을 확보할 수 있습니다. 이는 참가자 간 변동성이 통제되기 때문입니다.

α = 0.05, 검정력 = 0.80일 때 필요 쌍(pair) 수:

| 효과크기 (Cohen's d) | 필요 쌍 수 | |------------------------|-----------| | 0.20 (작음) | 199 | | 0.50 (중간) | 34 | | 0.80 (큼) | 15 |

사전-사후 설계를 사용할 경우, 독립표본 설계 대비 약 절반의 참가자로 동일한 검정력을 달성할 수 있어 효율적입니다.

표본크기 계산 도구 비교: G*Power vs 온라인 계산기

G*Power

G*Power는 표본크기 계산에 가장 널리 사용되는 무료 데스크톱 소프트웨어입니다.

장점:

t-검정, ANOVA, 회귀분석, 카이제곱 등 거의 모든 검정 지원
사전(a priori), 사후(post-hoc), 민감도(sensitivity) 분석 모두 가능
논문에서 인용 가능한 공인된 도구

단점:

설치가 필요하며, macOS에서 불안정할 수 있음
인터페이스가 직관적이지 않아 초보자에게 진입 장벽이 존재
효과크기와 검정 유형을 정확히 알고 있어야 올바른 결과를 얻을 수 있음

온라인 표본크기 계산기

웹 기반 계산기는 설치 없이 브라우저에서 바로 사용할 수 있어 접근성이 높습니다.

장점:

설치 불필요, 모바일에서도 사용 가능
간결한 인터페이스로 빠른 계산 가능
입력값에 대한 실시간 안내 제공 가능

단점:

지원하는 검정 유형이 제한적일 수 있음
계산 알고리즘의 정확성 검증이 어려울 수 있음
일부 도구는 사후 검정력 분석만 지원

실무 권장: 탐색적으로 빠르게 표본크기를 추정할 때는 온라인 계산기를, 논문에 포함할 공식적인 검정력 분석에는 G*Power를 사용하는 것이 효율적입니다. 두 도구의 결과를 교차 검증하면 계산 오류를 줄일 수 있으므로, 가능하면 둘 다 사용하여 결과가 일치하는지 확인하는 것을 권장합니다.

흔히 저지르는 표본크기 결정 실수

실수 1: 검정력 분석 없이 편의적으로 표본크기 결정

"30명이면 충분하겠지"라는 막연한 판단으로 표본크기를 정하는 것은 가장 흔한 실수입니다. 중심극한정리에 의해 30명이 정규성 가정에는 충분할 수 있지만, 이것이 충분한 검정력을 보장하지는 않습니다.

실수 2: 효과크기를 항상 "중간"으로 설정

선행연구가 없다는 이유로 무조건 중간 효과크기를 사용하는 것은 위험합니다. 실제 효과가 작은 경우 검정력이 크게 부족해질 수 있습니다. 파일럿 연구를 수행하거나 해당 분야의 메타분석 결과를 참고하는 것이 바람직합니다.

실수 3: 탈락률을 고려하지 않음

계산된 표본크기는 분석에 포함되는 최소 인원입니다. 종단 연구나 설문조사에서는 참가자 탈락이 발생하므로, 예상 탈락률을 반영하여 표본을 추가 모집해야 합니다. 일반적으로 10~20%의 여유를 두는 것이 권장됩니다.

조정된 표본크기 = 필요 표본크기 / (1 - 예상 탈락률)

실수 4: 사후 검정력 분석에 의존

연구를 완료한 후 관찰된 효과크기로 검정력을 계산하는 사후(post-hoc) 검정력 분석은 논리적으로 문제가 있습니다. p값과 사후 검정력은 수학적으로 종속 관계에 있어 추가적인 정보를 제공하지 않기 때문입니다. 표본크기 결정은 반드시 사전(a priori) 에 이루어져야 합니다.

실수 5: 하위집단 분석을 고려하지 않음

전체 표본에 대한 분석뿐 아니라 성별, 연령대 등 하위집단별 분석을 계획하고 있다면, 각 하위집단에 충분한 검정력이 확보되도록 표본크기를 설계해야 합니다. 예를 들어, 전체 표본 128명으로 t-검정의 검정력이 0.80이라 하더라도, 남녀 하위집단(각 64명)에서 추가 비교를 수행하면 각 하위분석의 검정력은 그보다 낮아집니다.

표본크기 보고 방법

논문이나 프로포절에서 표본크기 결정을 보고할 때는 다음 정보를 명시해야 합니다.

사용한 분석 방법 (예: 독립표본 t-검정)
유의수준 (예: α = .05, 양측 검정)
목표 검정력 (예: 1 - β = .80)
효과크기와 그 근거 (예: 선행연구 기반 d = 0.50)
계산된 표본크기 (예: 집단당 64명, 총 128명)
사용한 계산 도구 (예: G*Power 3.1)

보고 예시:

표본크기는 G*Power 3.1을 사용한 사전 검정력 분석으로 결정하였다. 독립표본 t-검정(양측)을 기준으로, 유의수준 α = .05, 검정력 .80, 선행연구(Kim, 2024)에서 보고된 효과크기 d = 0.50을 적용한 결과, 집단당 최소 64명(총 128명)이 필요한 것으로 산출되었다. 예상 탈락률 15%를 반영하여 집단당 76명(총 152명)을 모집 목표로 설정하였다.

StatMate로 표본크기 간편하게 계산하기

표본크기 계산이 복잡하게 느껴진다면, StatMate의 표본크기 계산기를 활용해 보세요.

분석 방법 선택: t-검정, ANOVA, 상관분석, 카이제곱 중 사용할 검정을 선택합니다.
파라미터 입력: 유의수준, 검정력, 효과크기를 입력합니다. 효과크기가 불확실하면 가이드라인을 참고할 수 있습니다.
결과 확인: 필요한 표본크기가 즉시 계산되며, 검정력 곡선 그래프도 함께 제공됩니다.
보고서 활용: 계산 결과를 논문에 바로 인용할 수 있는 형태로 출력합니다.

복잡한 공식을 직접 계산하거나 소프트웨어 설치 없이도, 연구에 필요한 표본크기를 빠르고 정확하게 산출할 수 있습니다.

마무리

표본크기 결정은 연구의 성패를 좌우하는 핵심 설계 단계입니다. 유의수준, 검정력, 효과크기의 관계를 이해하고, 연구에 사용할 분석 방법에 맞는 검정력 분석을 사전에 수행하는 것이 올바른 연구 설계의 출발점입니다.

요약하면, 표본크기 결정의 핵심 원칙은 다음과 같습니다.

항상 사전(a priori) 검정력 분석을 수행하세요. 데이터 수집 전에 필요한 표본크기를 계산해야 합니다.
효과크기는 선행연구에 근거하세요. 관례적 수치(소, 중, 대)는 최후의 수단으로만 사용하세요.
탈락률과 하위집단 분석을 고려하세요. 계산된 최소 표본에 여유분을 더해야 합니다.
계산 과정을 투명하게 보고하세요. 사용한 도구, 설정값, 근거를 명확히 기술해야 합니다.

"참가자가 몇 명이면 되나요?"라는 질문에 더 이상 감으로 답하지 말고, 근거에 기반한 표본크기를 제시해 보세요.