p값이란 무엇인가?
p값은 귀무가설이 참이라고 가정했을 때, 관찰된 결과만큼 또는 그보다 극단적인 결과를 얻을 확률입니다. 이 정의는 정확하지만 항상 직관적이지는 않으므로, 비유를 통해 살펴보겠습니다.
동전이 공정하지 않다고 의심된다고 가정합시다. 동전을 20번 던져 앞면이 15번 나왔습니다. p값은 다음 질문에 답합니다: "동전이 완벽히 공정하다면, 20번 중 15번 이상 앞면이 나올 확률은 얼마인가?" 만약 그 확률이 매우 낮다면(예: p = .021), 동전이 공정하다는 것을 의심할 근거가 있습니다. 만약 그 확률이 비교적 높다면(예: p = .41), 그 결과는 정상적인 우연으로 쉽게 설명됩니다.
p값은 여러분의 가설이 맞는지 여부를 알려주지 않습니다. 실제로 아무 일도 일어나지 않았다면 여러분의 데이터가 얼마나 놀라운 것인지를 알려줍니다. 이 구별은 매우 중요하며, 이를 오해하는 것이 대부분의 p값 오해석의 원인입니다.
p값 해석 방법
기본 논리
모든 가설검정은 귀무가설(H0)에서 시작합니다. 귀무가설은 일반적으로 효과가 없다, 차이가 없다, 또는 관계가 없다고 진술합니다. p값은 관찰된 데이터가 귀무가설과 얼마나 양립할 수 있는지를 수치화합니다.
- 작은 p값은 H0 하에서 데이터가 나타나기 어렵다는 것을 의미합니다. 이는 H0를 기각할 근거를 제공합니다.
- 큰 p값은 데이터가 H0와 일치한다는 것을 의미합니다. H0를 기각하지 못합니다(그러나 이것이 H0가 참임을 증명하는 것은 아닙니다).
해석 참조표
| p값 범위 | 전통적 표현 | 일반적 해석 | |---------|-----------|-----------| | p < .001 | 매우 유의함 | H0에 대한 매우 강한 증거 | | p < .01 | 유의함 | H0에 대한 강한 증거 | | p < .05 | 유의함 | 전통적 기준에서 H0에 대한 충분한 증거 | | .05 < p < .10 | 주변적으로 유의함 | 약한 증거; 때로 논의되지만 결정적이지 않음 | | p > .10 | 유의하지 않음 | H0를 기각할 증거 불충분 |
실전 예제
스터디그룹 조건(M = 78.4, SD = 9.2, n = 35)과 혼자 공부 조건(M = 73.1, SD = 10.5, n = 35)의 시험 점수를 비교하는 독립표본 t검정을 실시했다고 가정합시다. 검정 결과 t(68) = 2.25, p = .028이 산출되었습니다.
단계별 해석 방법은 다음과 같습니다:
- 귀무가설을 진술합니다: 두 학습 조건 간 시험 점수에 차이가 없다.
- p값을 기준값과 비교합니다: p = .028은 .05보다 작다.
- 결정을 내립니다: 귀무가설을 기각한다.
- 맥락에서 해석합니다: 스터디그룹 조건의 학생들이 혼자 공부한 학생들보다 시험에서 유의하게 높은 점수를 받았다.
p값 .028은 두 조건 간에 진정한 차이가 없다면, 이 정도 이상의 차이를 우연만으로 관찰할 확률이 약 2.8%에 불과하다는 것을 의미합니다.
.05 기준값: 이유와 적용 시기
유의수준 기준으로 alpha = .05를 사용하는 관행은 1920년대 Ronald Fisher에게서 비롯되었습니다. Fisher는 .05를 편리한 참조점으로 제안했을 뿐, 엄격한 경계선으로 의도한 것이 아닙니다. 그러나 수십 년에 걸쳐 절대적인 기준점으로 취급되게 되었으며, 이는 Fisher 자신이 결코 의도하지 않은 것입니다.
.05가 적합한 경우
사회과학 및 행동과학의 대부분의 탐색적 연구에서 alpha = .05는 실제 효과를 탐지하는 것(검정력)과 위양성을 피하는 것(제1종 오류) 사이에 합리적인 균형을 제공합니다. 이는 효과가 실제로 존재하지 않을 때 효과가 있다고 결론내릴 5%의 확률을 수용한다는 것을 의미합니다.
다른 기준값을 사용해야 할 때
일부 상황에서는 더 엄격하거나 관대한 기준값이 필요합니다:
- 다중 비교: 여러 가설을 동시에 검정할 때 가족별 오류율이 증가합니다. Bonferroni 교정이나 위발견율(FDR) 조정이 개별 검정의 alpha를 낮춥니다.
- 고위험 의사결정: 임상시험, 약물 승인, 유전체학 연구에서는 위양성의 결과가 심각하기 때문에 p < .01 또는 p < .001을 자주 사용합니다.
- 탐색적 연구: 일부 분야에서는 추가 조사가 필요한 예비 발견에 대해 p < .10을 수용합니다.
핵심은 .05가 관행이지 자연법칙이 아니라는 점입니다. 항상 의사결정의 맥락과 결과를 고려하십시오.
p값의 흔한 오해
이 섹션에서는 p값 해석에서 가장 널리 퍼진 오류를 다룹니다. 이 가이드에서 한 가지만 기억한다면, 대부분의 연구자들이 어느 시점에서 이러한 오해 중 적어도 하나를 가지고 있었다는 것입니다.
실수 1: "p = .03은 결과가 참일 확률이 97%라는 뜻이다"
이것은 아마도 가장 흔한 오해일 것입니다. p값은 연구 가설이 참일 확률이 아닙니다. 귀무가설이 참이라는 전제 하에 여러분의 데이터(또는 더 극단적인 데이터)를 얻을 확률입니다. 이 두 진술은 근본적으로 다릅니다.
데이터가 주어졌을 때 가설이 참일 확률을 구하려면 사전 확률을 사용한 베이지안 분석이 필요합니다. 빈도론적 p값으로는 이 질문에 답할 수 없습니다.
실수 2: "유의하지 않으면 효과가 없다"
p = .12라는 결과가 효과가 존재하지 않음을 증명하는 것은 아닙니다. 선택한 alpha 수준에서 귀무가설을 기각할 충분한 증거를 찾지 못했다는 것을 의미합니다. 연구의 검정력이 부족했을 수 있고(참가자가 너무 적었을 수 있고), 효과가 실제로 존재하지만 작을 수 있으며, 측정 오차가 이를 가렸을 수 있습니다.
증거의 부재는 부재의 증거가 아닙니다. 이는 특히 실제 효과가 존재하더라도 유의하지 않은 결과가 흔한 소규모 표본 연구에서 중요합니다.
실수 3: "p값은 효과의 크기를 알려준다"
매우 작은 p값(예: p < .001)이 효과가 크거나 중요하다는 것을 의미하지 않습니다. 충분히 큰 표본에서는 사소하게 작은 차이도 통계적으로 유의해집니다. 50,000명의 참가자를 대상으로 한 연구에서 100점 만점 척도에서 0.5점의 차이가 p < .001로 나올 수 있습니다. 이 효과는 통계적으로 유의하지만 실질적으로는 의미가 없습니다.
항상 p값과 함께 효과크기를 보고하고 해석하십시오. 일반적인 효과크기 측도에는 Cohen의 d, 에타 제곱(부분 에타 제곱), R 제곱이 포함됩니다.
실수 4: "p값이 작을수록 더 중요한 결과다"
p = .001인 결과가 p = .04인 결과보다 반드시 더 중요하거나 더 재현 가능한 것은 아닙니다. p값은 표본 크기, 분산, 효과의 크기에 영향을 받습니다. 동일한 현상을 조사하는 두 연구가 단순히 다른 표본 크기를 사용했기 때문에 다른 p값을 산출할 수 있습니다.
중요성은 효과크기, 실질적 유의성, 발견의 재현 가능성으로 판단해야 하며, p값을 비교하는 것으로 판단해서는 안 됩니다.
실수 5: "p = .049와 p = .051은 근본적으로 다르다"
p = .049를 "유의"하고 p = .051을 "유의하지 않다"고 처리하는 것은 존재하지 않는 날카로운 질적 경계를 암시합니다. 두 값에서 귀무가설에 대한 증거는 거의 동일합니다. 하나를 발견으로, 다른 하나를 영가설 결과로 보고하는 것은 기저 데이터의 반영이 아니라 이분법적 사고의 산물입니다.
많은 통계학자와 학술지 편집자들은 이제 정확한 p값을 보고하고 합격/불합격 기준에 의존하기보다는 연속선상에서 해석할 것을 권고하고 있습니다.
실수 6: "유의한 p값은 결과가 재현될 것을 의미한다"
단일 연구에서의 통계적 유의성이 해당 발견이 재현될 것을 보장하지 않습니다. p = .04 결과는 정확한 재현 연구에서 유의수준에 도달하지 못할 상당한 가능성이 있으며, 특히 원래 연구의 검정력이 부족했거나 실제 효과가 작은 경우 그렇습니다.
재현은 효과크기, 표본 크기, 연구 설계에 달려 있습니다. 단일 연구의 p값은 하나의 증거 조각이지 증명이 아닙니다.
APA 형식으로 p값 보고하는 방법
APA 7판에는 p값 보고에 대한 구체적인 규칙이 있습니다. 이러한 관행을 따르면 방법론적 엄밀성을 보여주고 독자가 결과를 일관되게 해석하는 데 도움이 됩니다.
규칙 1: 정확한 p값 보고
정확한 p값을 소수점 이하 두세 자리까지 보고합니다. 더 정확한 값을 알고 있을 때 단순히 "p < .05"라고 쓰지 마십시오.
- 올바름: p = .034
- 올바름: p = .007
- 피할 것: p < .05 (정확한 값을 알고 있을 때)
규칙 2: 매우 작은 값에는 p < .001 사용
p값이 .001보다 작을 때는 많은 소수점 자릿수를 쓰는 대신 p < .001로 보고합니다. p값은 정확히 0이 될 수 없으므로 p = .000이라고 쓰지 마십시오.
- 올바름: p < .001
- 틀림: p = .000
- 틀림: p = .0003
규칙 3: 앞의 0 생략
p값은 1.0을 초과할 수 없으므로 APA 양식에서는 앞의 0을 생략합니다. r과 R 제곱 같이 1로 제한되는 다른 통계량에도 동일한 규칙이 적용됩니다.
- 올바름: p = .034
- 틀림: p = 0.034
검정별 APA 보고 예시
독립표본 t검정:
처치 집단(M = 24.50, SD = 4.80)이 통제 집단(M = 20.10, SD = 5.30)보다 유의하게 높은 점수를 받았다, t(58) = 3.45, p = .001, d = 0.89.
일원배치 분산분석:
세 조건 간 만족도 평정에서 통계적으로 유의한 차이가 있었다, F(2, 87) = 4.92, p = .009, 부분 에타 제곱 = .10.
Pearson 상관:
학습 시간과 학점은 정적 상관을 보였다, r(98) = .37, p < .001.
카이제곱 독립성 검정:
부서와 이직 여부 간에 유의한 관련성이 있었다, 카이제곱(3, N = 240) = 11.85, p = .008, V = .22.
유의하지 않은 결과(정확한 p값을 여전히 보고):
집단 간 차이는 통계적으로 유의하지 않았다, t(44) = 1.38, p = .175, d = 0.41.
결과가 유의하지 않더라도 정확한 p값과 효과크기를 보고해야 합니다. 이 정보는 메타분석과 향후 검정력 분석에 유용합니다.
p값 vs 효과크기: 둘 다 중요한 이유
p값과 효과크기는 서로 다른 질문에 답합니다. p값은 "효과가 존재한다는 증거가 있는가?"를 묻고, 효과크기는 "그 효과가 얼마나 큰가?"를 묻습니다.
| | p값 | 효과크기 | |---|---------|-------------| | 답하는 질문 | 효과가 실제할 가능성이 있는가? | 효과가 얼마나 큰가? | | 표본 크기의 영향 | 크게 받음 | 거의 받지 않음 | | 단독 사용 시 오해 가능 | 예 | 예 | | APA 7판 요구사항 | 예 | 예 |
새로운 교수법에 대한 두 연구를 고려해 봅시다:
- 연구 A (N = 500): t(498) = 2.10, p = .036, d = 0.19
- 연구 B (N = 40): t(38) = 2.85, p = .007, d = 0.90
연구 A는 유의한 결과를 가지지만 효과크기는 매우 작습니다. 교수법이 거의 눈에 띄지 않는 개선을 만들어 냅니다. 연구 B는 더 작은 p값과 큰 효과크기를 가지며, 상당하고 의미 있는 개선을 시사합니다. p값만 보고한다면 이 중요한 구별을 가릴 것입니다.
APA 7판이 두 가지 모두를 요구하는 데는 그만한 이유가 있습니다. 함께 사용하면 연구 결과의 완전한 그림을 제공합니다.
통계적 유의성 vs 실질적 유의성
통계적 유의성은 결과가 귀무가설 하에서 나타나기 어렵다는 것을 의미합니다. 실질적 유의성은 결과가 현실 세계에서 의미가 있다는 것을 뜻합니다. 이 둘은 같은 것이 아닙니다.
제약 임상시험에서 신약이 위약보다 혈압을 0.5 mmHg 더 낮추는 것을 발견했을 때, p < .001이고 N = 20,000이었다고 합시다. 통계적으로 유의한가? 예. 임상적으로 의미 있는가? 아마 아닐 것입니다. 의사들은 실질적 이점을 위해 최소 5 mmHg의 변화가 필요하다고 판단하기 때문입니다.
결과를 해석할 때 항상 세 가지 질문을 하십시오:
- 효과가 통계적으로 유의한가? (alpha 수준에 대해 p값을 확인합니다.)
- 효과가 얼마나 큰가? (벤치마크와 선행 연구에 대해 효과크기를 확인합니다.)
- 효과가 실제로 중요한가? (특정 분야에서 현실 세계의 시사점을 고려합니다.)
세 가지 모두를 충족하는 발견이 가장 강력한 증거입니다. 첫 번째만 충족하는 발견이 가장 약한 증거입니다.
StatMate의 무료 계산기를 사용해 보세요
StatMate의 20가지 무료 계산기는 모두 p값을 자동으로 계산하고 APA 7판 양식으로 포맷합니다. 서식 규칙을 찾아보거나 앞의 0, 소수점 자릿수, p < .001을 사용할 시기를 걱정할 필요가 없습니다. 출력 결과를 그대로 논문에 붙여넣을 수 있습니다.
이 가이드의 개념과 특히 관련 있는 계산기를 소개합니다:
- StatMate의 무료 t검정 계산기는 t, df, 정확한 p, Cohen의 d를 한 번의 출력으로 보고합니다.
- StatMate의 무료 분산분석(ANOVA) 계산기는 F, p, 에타 제곱 및 부분 에타 제곱을 제공합니다.
- StatMate의 무료 상관분석 계산기는 r, p, R 제곱을 함께 출력합니다.
- StatMate의 무료 카이제곱 계산기는 카이제곱 통계량, 정확한 p, Cramer의 V를 자동으로 계산합니다.
- StatMate의 무료 표본 크기 계산기는 p값이 의미 있도록 충분한 검정력을 갖춘 연구를 설계하는 데 도움을 줍니다.
모든 결과에는 유의성 검정과 효과크기가 모두 포함되므로, 한쪽 없이 다른 한쪽만 보고할 필요가 없습니다.