p값이란 무엇인가?
p값은 귀무가설이 참이라고 가정했을 때, 관찰된 결과만큼 또는 그보다 극단적인 결과를 얻을 확률입니다. 이 정의는 정확하지만 항상 직관적이지는 않으므로, 비유를 통해 살펴보겠습니다.
동전이 공정하지 않다고 의심된다고 가정합시다. 동전을 20번 던져 앞면이 15번 나왔습니다. p값은 다음 질문에 답합니다: "동전이 완벽히 공정하다면, 20번 중 15번 이상 앞면이 나올 확률은 얼마인가?" 만약 그 확률이 매우 낮다면(예: p = .021), 동전이 공정하다는 것을 의심할 근거가 있습니다. 만약 그 확률이 비교적 높다면(예: p = .41), 그 결과는 정상적인 우연으로 쉽게 설명됩니다.
p값은 여러분의 가설이 맞는지 여부를 알려주지 않습니다. 실제로 아무 일도 일어나지 않았다면 여러분의 데이터가 얼마나 놀라운 것인지를 알려줍니다. 이 구별은 매우 중요하며, 이를 오해하는 것이 대부분의 p값 오해석의 원인입니다.
p값 해석 방법
기본 논리
모든 가설검정은 귀무가설(H0)에서 시작합니다. 귀무가설은 일반적으로 효과가 없다, 차이가 없다, 또는 관계가 없다고 진술합니다. p값은 관찰된 데이터가 귀무가설과 얼마나 양립할 수 있는지를 수치화합니다.
- 작은 p값은 H0 하에서 데이터가 나타나기 어렵다는 것을 의미합니다. 이는 H0를 기각할 근거를 제공합니다.
- 큰 p값은 데이터가 H0와 일치한다는 것을 의미합니다. H0를 기각하지 못합니다(그러나 이것이 H0가 참임을 증명하는 것은 아닙니다).
해석 참조표
| p값 범위 | 전통적 표현 | 일반적 해석 | |---------|-----------|-----------| | p < .001 | 매우 유의함 | H0에 대한 매우 강한 증거 | | p < .01 | 유의함 | H0에 대한 강한 증거 | | p < .05 | 유의함 | 전통적 기준에서 H0에 대한 충분한 증거 | | .05 < p < .10 | 주변적으로 유의함 | 약한 증거; 때로 논의되지만 결정적이지 않음 | | p > .10 | 유의하지 않음 | H0를 기각할 증거 불충분 |
실전 예제
스터디그룹 조건(M = 78.4, SD = 9.2, n = 35)과 혼자 공부 조건(M = 73.1, SD = 10.5, n = 35)의 시험 점수를 비교하는 독립표본 t검정을 실시했다고 가정합시다. 검정 결과 t(68) = 2.25, p = .028이 산출되었습니다.
단계별 해석 방법은 다음과 같습니다:
- 귀무가설을 진술합니다: 두 학습 조건 간 시험 점수에 차이가 없다.
- p값을 기준값과 비교합니다: p = .028은 .05보다 작다.
- 결정을 내립니다: 귀무가설을 기각한다.
- 맥락에서 해석합니다: 스터디그룹 조건의 학생들이 혼자 공부한 학생들보다 시험에서 유의하게 높은 점수를 받았다.
p값 .028은 두 조건 간에 진정한 차이가 없다면, 이 정도 이상의 차이를 우연만으로 관찰할 확률이 약 2.8%에 불과하다는 것을 의미합니다.
.05 기준값: 이유와 적용 시기
유의수준 기준으로 alpha = .05를 사용하는 관행은 1920년대 Ronald Fisher에게서 비롯되었습니다. Fisher는 .05를 편리한 참조점으로 제안했을 뿐, 엄격한 경계선으로 의도한 것이 아닙니다. 그러나 수십 년에 걸쳐 절대적인 기준점으로 취급되게 되었으며, 이는 Fisher 자신이 결코 의도하지 않은 것입니다.
.05가 적합한 경우
사회과학 및 행동과학의 대부분의 탐색적 연구에서 alpha = .05는 실제 효과를 탐지하는 것(검정력)과 위양성을 피하는 것(제1종 오류) 사이에 합리적인 균형을 제공합니다. 이는 효과가 실제로 존재하지 않을 때 효과가 있다고 결론내릴 5%의 확률을 수용한다는 것을 의미합니다.
다른 기준값을 사용해야 할 때
일부 상황에서는 더 엄격하거나 관대한 기준값이 필요합니다:
- 다중 비교: 여러 가설을 동시에 검정할 때 가족별 오류율이 증가합니다. Bonferroni 교정이나 위발견율(FDR) 조정이 개별 검정의 alpha를 낮춥니다.
- 고위험 의사결정: 임상시험, 약물 승인, 유전체학 연구에서는 위양성의 결과가 심각하기 때문에 p < .01 또는 p < .001을 자주 사용합니다.
- 탐색적 연구: 일부 분야에서는 추가 조사가 필요한 예비 발견에 대해 p < .10을 수용합니다.
핵심은 .05가 관행이지 자연법칙이 아니라는 점입니다. 항상 의사결정의 맥락과 결과를 고려하십시오.
p값의 흔한 오해
이 섹션에서는 p값 해석에서 가장 널리 퍼진 오류를 다룹니다. 이 가이드에서 한 가지만 기억한다면, 대부분의 연구자들이 어느 시점에서 이러한 오해 중 적어도 하나를 가지고 있었다는 것입니다.
실수 1: "p = .03은 결과가 참일 확률이 97%라는 뜻이다"
이것은 아마도 가장 흔한 오해일 것입니다. p값은 연구 가설이 참일 확률이 아닙니다. 귀무가설이 참이라는 전제 하에 여러분의 데이터(또는 더 극단적인 데이터)를 얻을 확률입니다. 이 두 진술은 근본적으로 다릅니다.
데이터가 주어졌을 때 가설이 참일 확률을 구하려면 사전 확률을 사용한 베이지안 분석이 필요합니다. 빈도론적 p값으로는 이 질문에 답할 수 없습니다.
실수 2: "유의하지 않으면 효과가 없다"
p = .12라는 결과가 효과가 존재하지 않음을 증명하는 것은 아닙니다. 선택한 alpha 수준에서 귀무가설을 기각할 충분한 증거를 찾지 못했다는 것을 의미합니다. 연구의 검정력이 부족했을 수 있고(참가자가 너무 적었을 수 있고), 효과가 실제로 존재하지만 작을 수 있으며, 측정 오차가 이를 가렸을 수 있습니다.
증거의 부재는 부재의 증거가 아닙니다. 이는 특히 실제 효과가 존재하더라도 유의하지 않은 결과가 흔한 소규모 표본 연구에서 중요합니다.
실수 3: "p값은 효과의 크기를 알려준다"
매우 작은 p값(예: p < .001)이 효과가 크거나 중요하다는 것을 의미하지 않습니다. 충분히 큰 표본에서는 사소하게 작은 차이도 통계적으로 유의해집니다. 50,000명의 참가자를 대상으로 한 연구에서 100점 만점 척도에서 0.5점의 차이가 p < .001로 나올 수 있습니다. 이 효과는 통계적으로 유의하지만 실질적으로는 의미가 없습니다.
항상 p값과 함께 효과크기를 보고하고 해석하십시오. 일반적인 효과크기 측도에는 Cohen의 d, 에타 제곱(부분 에타 제곱), R 제곱이 포함됩니다.
실수 4: "p값이 작을수록 더 중요한 결과다"
p = .001인 결과가 p = .04인 결과보다 반드시 더 중요하거나 더 재현 가능한 것은 아닙니다. p값은 표본 크기, 분산, 효과의 크기에 영향을 받습니다. 동일한 현상을 조사하는 두 연구가 단순히 다른 표본 크기를 사용했기 때문에 다른 p값을 산출할 수 있습니다.
중요성은 효과크기, 실질적 유의성, 발견의 재현 가능성으로 판단해야 하며, p값을 비교하는 것으로 판단해서는 안 됩니다.
실수 5: "p = .049와 p = .051은 근본적으로 다르다"
p = .049를 "유의"하고 p = .051을 "유의하지 않다"고 처리하는 것은 존재하지 않는 날카로운 질적 경계를 암시합니다. 두 값에서 귀무가설에 대한 증거는 거의 동일합니다. 하나를 발견으로, 다른 하나를 영가설 결과로 보고하는 것은 기저 데이터의 반영이 아니라 이분법적 사고의 산물입니다.
많은 통계학자와 학술지 편집자들은 이제 정확한 p값을 보고하고 합격/불합격 기준에 의존하기보다는 연속선상에서 해석할 것을 권고하고 있습니다.
실수 6: "유의한 p값은 결과가 재현될 것을 의미한다"
단일 연구에서의 통계적 유의성이 해당 발견이 재현될 것을 보장하지 않습니다. p = .04 결과는 정확한 재현 연구에서 유의수준에 도달하지 못할 상당한 가능성이 있으며, 특히 원래 연구의 검정력이 부족했거나 실제 효과가 작은 경우 그렇습니다.
재현은 효과크기, 표본 크기, 연구 설계에 달려 있습니다. 단일 연구의 p값은 하나의 증거 조각이지 증명이 아닙니다.
APA 형식으로 p값 보고하는 방법
APA 7판에는 p값 보고에 대한 구체적인 규칙이 있습니다. 이러한 관행을 따르면 방법론적 엄밀성을 보여주고 독자가 결과를 일관되게 해석하는 데 도움이 됩니다.
규칙 1: 정확한 p값 보고
정확한 p값을 소수점 이하 두세 자리까지 보고합니다. 더 정확한 값을 알고 있을 때 단순히 "p < .05"라고 쓰지 마십시오.
- 올바름: p = .034
- 올바름: p = .007
- 피할 것: p < .05 (정확한 값을 알고 있을 때)
규칙 2: 매우 작은 값에는 p < .001 사용
p값이 .001보다 작을 때는 많은 소수점 자릿수를 쓰는 대신 p < .001로 보고합니다. p값은 정확히 0이 될 수 없으므로 p = .000이라고 쓰지 마십시오.
- 올바름: p < .001
- 틀림: p = .000
- 틀림: p = .0003
규칙 3: 앞의 0 생략
p값은 1.0을 초과할 수 없으므로 APA 양식에서는 앞의 0을 생략합니다. r과 R 제곱 같이 1로 제한되는 다른 통계량에도 동일한 규칙이 적용됩니다.
- 올바름: p = .034
- 틀림: p = 0.034
검정별 APA 보고 예시
독립표본 t검정:
처치 집단(M = 24.50, SD = 4.80)이 통제 집단(M = 20.10, SD = 5.30)보다 유의하게 높은 점수를 받았다, t(58) = 3.45, p = .001, d = 0.89.
일원배치 분산분석:
세 조건 간 만족도 평정에서 통계적으로 유의한 차이가 있었다, F(2, 87) = 4.92, p = .009, 부분 에타 제곱 = .10.
Pearson 상관:
학습 시간과 학점은 정적 상관을 보였다, r(98) = .37, p < .001.
카이제곱 독립성 검정:
부서와 이직 여부 간에 유의한 관련성이 있었다, 카이제곱(3, N = 240) = 11.85, p = .008, V = .22.
유의하지 않은 결과(정확한 p값을 여전히 보고):
집단 간 차이는 통계적으로 유의하지 않았다, t(44) = 1.38, p = .175, d = 0.41.
결과가 유의하지 않더라도 정확한 p값과 효과크기를 보고해야 합니다. 이 정보는 메타분석과 향후 검정력 분석에 유용합니다.
p값 vs 효과크기: 둘 다 중요한 이유
p값과 효과크기는 서로 다른 질문에 답합니다. p값은 "효과가 존재한다는 증거가 있는가?"를 묻고, 효과크기는 "그 효과가 얼마나 큰가?"를 묻습니다.
| | p값 | 효과크기 | |---|---------|-------------| | 답하는 질문 | 효과가 실제할 가능성이 있는가? | 효과가 얼마나 큰가? | | 표본 크기의 영향 | 크게 받음 | 거의 받지 않음 | | 단독 사용 시 오해 가능 | 예 | 예 | | APA 7판 요구사항 | 예 | 예 |
새로운 교수법에 대한 두 연구를 고려해 봅시다:
- 연구 A (N = 500): t(498) = 2.10, p = .036, d = 0.19
- 연구 B (N = 40): t(38) = 2.85, p = .007, d = 0.90
연구 A는 유의한 결과를 가지지만 효과크기는 매우 작습니다. 교수법이 거의 눈에 띄지 않는 개선을 만들어 냅니다. 연구 B는 더 작은 p값과 큰 효과크기를 가지며, 상당하고 의미 있는 개선을 시사합니다. p값만 보고한다면 이 중요한 구별을 가릴 것입니다.
APA 7판이 두 가지 모두를 요구하는 데는 그만한 이유가 있습니다. 함께 사용하면 연구 결과의 완전한 그림을 제공합니다.
통계적 유의성 vs 실질적 유의성
통계적 유의성은 결과가 귀무가설 하에서 나타나기 어렵다는 것을 의미합니다. 실질적 유의성은 결과가 현실 세계에서 의미가 있다는 것을 뜻합니다. 이 둘은 같은 것이 아닙니다.
제약 임상시험에서 신약이 위약보다 혈압을 0.5 mmHg 더 낮추는 것을 발견했을 때, p < .001이고 N = 20,000이었다고 합시다. 통계적으로 유의한가? 예. 임상적으로 의미 있는가? 아마 아닐 것입니다. 의사들은 실질적 이점을 위해 최소 5 mmHg의 변화가 필요하다고 판단하기 때문입니다.
결과를 해석할 때 항상 세 가지 질문을 하십시오:
- 효과가 통계적으로 유의한가? (alpha 수준에 대해 p값을 확인합니다.)
- 효과가 얼마나 큰가? (벤치마크와 선행 연구에 대해 효과크기를 확인합니다.)
- 효과가 실제로 중요한가? (특정 분야에서 현실 세계의 시사점을 고려합니다.)
세 가지 모두를 충족하는 발견이 가장 강력한 증거입니다. 첫 번째만 충족하는 발견이 가장 약한 증거입니다.
p값 논쟁: ASA 성명서와 그 이후
p값에 대한 논쟁은 2016년 미국통계학회(ASA)가 통계적 유의성과 p값에 관한 최초의 공식 성명서를 발표하면서 전환점을 맞이했습니다. 이는 ASA 177년 역사상 전례 없는 일이었으며, 과학 분야 전반에 걸친 p값의 광범위한 오용에 대한 깊은 우려를 반영한 것이었습니다.
ASA의 6가지 원칙
ASA 성명서는 모든 연구자가 이해해야 할 6가지 원칙을 명시했습니다:
-
p값은 데이터가 특정 통계 모델과 얼마나 양립 불가능한지를 나타낼 수 있습니다. p값은 데이터와 귀무가설 간의 불일치를 정량화하지만, 이는 모델이 올바르다는 전제 하에서입니다.
-
p값은 연구된 가설이 참일 확률이나 데이터가 우연에 의해서만 생성되었을 확률을 측정하지 않습니다. 이는 가장 흔한 오해를 직접적으로 다루고 있습니다.
-
과학적 결론이나 비즈니스/정책 결정은 p값이 특정 기준값을 통과하는지 여부에만 기반해서는 안 됩니다. p = .06이라고 해서 결과를 무시하거나, p = .04라고 해서 무조건 수용해서는 안 됩니다.
-
올바른 추론은 완전한 보고와 투명성을 필요로 합니다. 유의한 결과만 선택적으로 보고하거나, 유의성이 달성될 때까지 분석을 반복하거나(p-해킹), 결과를 선별적으로 보고하는 것은 모두 p값의 타당성을 훼손합니다.
-
p값, 즉 통계적 유의성은 효과의 크기나 결과의 중요성을 측정하지 않습니다. 큰 표본에서 사소한 효과도 작은 p값을 만들 수 있고, 작은 표본에서 중요한 효과도 큰 p값을 보일 수 있습니다.
-
그 자체로 p값은 모델이나 가설에 관한 좋은 증거 척도를 제공하지 않습니다. 신뢰구간, 베이지안 방법, 효과크기 등 다른 접근법이 p값과 함께 사용되어야 합니다.
p < .05가 자의적인 이유
.05 기준값은 수학적 도출이나 과학적 정당성이 없습니다. Ronald Fisher는 처음에 이를 느슨한 지침으로 제안했으며, 이 수준 이하의 결과는 재검토할 가치가 있다고 기술했습니다. Jerzy Neyman과 Egon Pearson은 이후 고정된 오류율로 가설검정을 공식화했고, 두 프레임워크가 시간이 지나면서 혼합되었습니다. .05 기준값은 과학적 최적화가 아닌 역사적 관행의 결과입니다.
이 자의적 기준값의 여러 결과가 잘 문서화되어 있습니다. 연구자들은 p-해킹에 관여하여 p값이 .05 아래로 내려갈 때까지 분석, 표본 크기, 변수를 조정합니다. 출판 편향은 유의한 결과를 선호하여 유의하지 않은 결과는 서랍 속에 남겨둡니다. 그리고 심리학, 의학 및 기타 분야의 재현성 위기는 이 기준값의 무비판적 적용에 부분적으로 기인하고 있습니다.
2019년, 800명 이상의 과학자 그룹이 "통계적으로 유의한"이라는 용어 자체를 완전히 폐기할 것을 제안하는 논문을 발표했습니다. 그들은 결과를 유의/비유의로 이분법적으로 분류하는 것이 과도한 확신과 간과된 증거로 이어진다고 주장했습니다.
신뢰구간과 효과크기로의 전환
이러한 우려에 대응하여, 많은 학술지와 전문 기관이 이제 p값과 함께(또는 대신에) 신뢰구간과 효과크기를 보고할 것을 요구하거나 강력히 권장하고 있습니다. 이유는 명확합니다:
- 신뢰구간은 관심 모수의 그럴듯한 값의 범위를 보여주며, 추정치의 방향과 정밀도 모두에 대한 정보를 제공합니다. 95% CI [0.2, 4.8]은 p = .03만으로는 알 수 없는 정보를 제공합니다.
- 효과크기는 표본 크기와 독립적으로 관찰된 현상의 크기를 정량화합니다. Cohen의 d = 0.15 대 d = 1.20은 p값을 비교하는 것보다 실질적 중요성에 대해 훨씬 더 많은 것을 알려줍니다.
- 통계적 유의성과 실질적 유의성의 구별이 점점 더 강조되고 있습니다. 콜레스테롤을 0.1 mg/dL 낮추는 약물이 p < .001이면 통계적으로 유의하지만 임상적으로는 무관합니다. 반대로, 소규모 파일럿 연구에서 d = 0.80이고 p = .07인 처치는 크고 잠재적으로 의미 있는 효과를 나타내며, 추가 조사가 필요합니다.
ASA 성명서는 p값을 폐기하라고 요구한 것이 아닙니다. 오히려, p값을 여러 도구 중 하나로 사용하고, 과학적 결론의 유일한 근거로 삼지 말 것을 촉구했습니다.
다양한 통계 검정에서의 p값
기본 개념은 모든 가설검정에서 동일하지만, p값을 계산하는 메커니즘은 검정 통계량과 참조 분포에 따라 다릅니다. 이러한 차이를 이해하면 p값을 더 정확하게 해석하고, 각 p값이 실제로 무엇을 검정하는지 인식하는 데 도움이 됩니다.
t검정: t분포에서의 p값
t검정에서 검정 통계량은 평균 간 차이를 그 차이의 표준오차로 나눈 것으로 계산됩니다. 이것이 t 값을 생성하며, 이는 표본 크기에 의해 결정되는 자유도를 가진 t분포를 따릅니다.
p값은 관찰된 t 값 이상(또는 이하)의 t분포 곡선 아래 면적입니다. 양측 검정의 경우, 이는 양쪽 꼬리의 결합 면적입니다. 큰 표본에서는 t분포가 표준정규분포에 접근하며, p값도 그에 따라 수렴합니다.
예를 들어, t(28) = 2.45이면, p값은 28 자유도의 t분포에서 t 값이 2.45 이상(어느 방향이든)으로 극단적인 값을 관찰할 확률입니다. 이는 약 p = .021을 제공합니다.
분산분석(ANOVA): F분포에서의 p값
분산분석에서 검정 통계량은 집단 간 분산과 집단 내 분산을 비교하는 F비율입니다. 집단의 평균이 진정으로 동일하다면, 이 비율은 1에 가까울 것입니다. 더 큰 F값은 집단 내 변동에 비해 집단 간 평균 차이가 더 크다는 것을 나타냅니다.
F분포는 오른쪽으로 치우쳐 있고 0에서 한정되어 양수 값만 생성합니다. p값은 관찰된 F값의 오른쪽 F분포 곡선 아래 면적입니다. t분포와 달리, F검정은 본질적으로 방향성이 있으므로(큰 F = H0에 대한 더 많은 증거) "왼쪽 꼬리" 문제가 없습니다.
예를 들어, F(3, 96) = 4.15는 집단 간 분산이 집단 내 분산의 4.15배이며, 자유도는 3(집단 수 - 1)과 96(총 N - 집단 수)입니다. 결과적으로 p = .008은 모든 집단 평균이 진정으로 동일하다면 이 비율이 나타나기 어렵다는 것을 나타냅니다.
카이제곱: 카이제곱 분포에서의 p값
카이제곱 검정은 분할표에서 관찰 빈도를 독립성 하에서(또는 적합도 검정의 경우 지정된 분포 하에서) 기대되는 빈도와 비교합니다. 검정 통계량은 관찰값과 기대값 사이의 차이를 제곱하고 기대값으로 나눈 것을 모두 합산합니다.
F분포와 마찬가지로, 카이제곱 분포는 오른쪽으로 치우쳐 있고 음수가 아닙니다. 더 큰 카이제곱 값은 관찰 데이터와 기대 데이터 간의 더 큰 불일치를 반영합니다. p값은 자유도가 주어졌을 때 관찰된 것만큼 크거나 더 큰 카이제곱 값을 얻을 확률입니다.
3x2 분할표의 경우, df = (3 - 1)(2 - 1) = 2입니다. 카이제곱 = 9.21이면, 2 자유도의 카이제곱 분포에서의 p값은 약 p = .010입니다.
상관: t분포 변환에서의 p값
Pearson 상관계수 r의 경우, p값은 상관 고유 분포에서 직접 읽지 않습니다. 대신, r은 다음 공식을 사용하여 t 통계량으로 변환됩니다:
t = r * sqrt((n - 2) / (1 - r 제곱))
이 변환은 모집단 상관이 0이라는 귀무가설 하에서 n - 2 자유도의 t분포를 따릅니다. 그러면 일반 t검정과 마찬가지로 이 t분포에서 p값을 얻습니다.
이것이 동일한 상관계수가 한 연구에서는 유의하고 다른 연구에서는 유의하지 않을 수 있는 이유를 설명합니다. r = .25이고 n = 100이면 t = 2.55이고 p = .012입니다. 그러나 r = .25이고 n = 20이면 t = 1.08이고 p = .295입니다. 상관은 동일하지만, H0에 대한 증거는 표본 크기에 크게 의존합니다.
공통 원리
이러한 기계적 차이에도 불구하고, 모든 p값은 동일한 근본적인 질문에 답합니다: 귀무가설이 참이라면, 이 정도로 극단적이거나 더 극단적인 결과를 얻을 확률은 얼마인가? 검정 통계량은 각 검정에 적절한 방식으로 "얼마나 극단적인지"를 정량화하고, 참조 분포는 확률 척도를 제공합니다. 평균, 비율, 분산, 상관을 비교하든 논리적 프레임워크는 동일합니다.
단측 검정 vs 양측 검정의 p값
단측 검정과 양측 검정의 구별은 흔한 혼란의 원인이며, 둘 사이의 선택은 p값과 결론에 실질적인 영향을 미칩니다.
양측 검정이란?
양측 검정은 관찰된 효과가 어느 방향으로든 0과 다른지를 평가합니다. 집단 A가 집단 B보다 높을 수도 있고, 집단 B가 집단 A보다 높을 수도 있는 가능성을 모두 고려합니다. p값은 분포의 양쪽 꼬리에서 관찰된 결과 이상으로 극단적인 확률을 포함합니다.
t검정이 t = 2.10을 산출한다면, 양측 p값은 t가 2.10 이상일 확률 그리고 t가 -2.10 이하일 확률을 모두 세어 계산합니다. 이것이 양측 검정을 더 보수적으로 만듭니다.
단측 검정이란?
단측 검정은 관찰된 효과가 사전에 지정된 특정 방향으로 나타나는지를 평가합니다. 예를 들어, 신약이 혈압을 낮출 것(단순히 변화시킬 것이 아니라)이라고 예측할 수 있습니다. 그러면 p값은 분포의 한쪽 꼬리에서의 확률만 고려합니다.
단측 p값은 정확히 양측 p값의 절반입니다:
단측 p = 양측 p / 2
따라서 양측 p = .06이면, 단측 p = .03입니다. 이는 양측 검정에서 유의하지 않은 결과가 단측 검정에서는 유의해질 수 있음을 의미합니다.
각각 언제 사용해야 하는가
양측 검정이 대부분의 연구에서 기본값이며, 정당한 이유가 있습니다:
- 더 보수적이어서 위양성을 줄입니다.
- 데이터 수집 전에 방향을 지정할 필요가 없습니다.
- 대부분의 학술지와 심사위원은 강력한 정당화가 제공되지 않는 한 양측 검정을 기대합니다.
- 반대 방향의 예상치 못한 효과로부터 보호합니다.
단측 검정이 적절한 경우는 다음과 같습니다:
- 데이터를 보기 전에 효과의 방향을 예측할 강력한 이론적 또는 경험적 근거가 있는 경우.
- 반대 방향의 효과가 영가설 결과와 동일하게 취급될 경우(즉, 다른 방향에 진정으로 관심이 없는 경우).
- 방향적 가설이 데이터 수집 전에 사전 등록된 경우.
APA 보고 관례
APA 7판은 하나의 접근법을 다른 것보다 의무화하지 않지만, 투명성을 요구합니다. 단측 검정을 사용하는 경우, 방법 섹션에서 이를 명시적으로 언급하고 방향적 예측을 정당화하십시오. p값을 단측으로 보고하십시오.
양측 검정 예시:
처치 집단이 유의하게 높은 점수를 받았다, t(48) = 2.15, p = .037 (양측), d = 0.61.
단측 검정 예시:
예측한 대로, 처치 집단이 유의하게 높은 점수를 받았다, t(48) = 2.15, p = .018 (단측), d = 0.61.
비유의 결과를 유의한 결과로 바꾸기 위해 데이터를 본 후 단측 검정을 사용하는 것은 방법론적으로 부적절하며 p-해킹의 한 형태로 간주됩니다.
다중 비교와 p값 보정
alpha = .05에서 단일 가설검정을 수행할 때 5%의 위양성 가능성을 수용합니다. 그러나 같은 연구에서 20개의 검정을 실행하면 어떻게 될까요? 적어도 하나의 위양성이 나타날 확률이 극적으로 증가하며, 이것이 다중 비교 문제입니다.
가족별 오류율 문제
각 검정이 5%의 위양성률을 가지고 검정들이 독립적이라면, k개의 검정에서 적어도 하나의 제1종 오류를 범할 확률은 다음과 같습니다:
가족별 오류율 = 1 - (1 - 0.05)^k
20개의 독립 검정의 경우: 1 - (0.95)^20 = .64. 이는 모든 귀무가설이 참인 경우에도 적어도 하나의 위양성이 나타날 확률이 64%라는 것을 의미합니다. 이것이 많은 미보정 검정을 실행하고 유의한 것만 보고하는 것이 오해를 야기하는 이유입니다.
Bonferroni 보정
가장 간단하고 널리 알려진 보정 방법은 개별 검정의 alpha를 비교 횟수로 나누는 것입니다:
보정된 alpha = 0.05 / k
10번의 비교의 경우, 각 개별 검정은 alpha = .005를 사용합니다. 이는 가족별 오류율을 엄격하게 제어하지만, 특히 많은 검정에서 매우 보수적일 수 있어 실제 효과를 놓칠 위험(제2종 오류)이 증가합니다.
Bonferroni를 사용해야 할 때:
- 계획된 비교 횟수가 적은 경우(3-10개)
- 가족별 오류율 제어가 중요한 경우
- ANOVA의 사후 쌍별 비교
위발견율(FDR, Benjamini-Hochberg)
수많은 동시 검정이 있는 연구(예: 수천 개의 유전자를 다루는 유전체학)에서는 Bonferroni가 비현실적으로 엄격해집니다. Benjamini-Hochberg(BH) 절차는 위양성이 하나라도 발생할 확률이 아닌, 기각된 모든 가설 중 위양성의 예상 비율인 위발견율(FDR)을 제어합니다.
BH 절차:
- 모든 p값을 가장 작은 것부터 가장 큰 것까지 순위를 매깁니다.
- 각 순위 p값에 대해: (순위 / 검정의 총 수) * 원하는 FDR(예: .05)을 계산합니다.
- 가장 큰 순위부터 시작하여, BH 기준값보다 작거나 같은 첫 번째 p값을 찾습니다. 더 작은 순위의 모든 p값도 유의한 것으로 간주됩니다.
FDR 제어는 Bonferroni보다 덜 보수적이며, 현재 유전자 발현 연구, 뇌영상, 대규모 설문 분석 등 고차원 연구에서 표준이 되었습니다.
보정을 적용해야 할 때 vs 하지 않아야 할 때
다중 검정이 있는 모든 상황에서 보정이 필요한 것은 아닙니다:
- 보정 적용: 동일한 데이터셋에서 여러 가설을 검정하고, 검정들이 같은 연구 질문을 다루는 경우(예: ANOVA 후 쌍별 비교, 여러 종속변수 검정).
- 보정 미적용: 검정들이 같은 연구에 있지만 진정으로 독립적인 연구 질문을 다루는 경우. 예를 들어, 요인설계 ANOVA에서 주효과와 상호작용을 검정하는 것은 각 검정이 별개의 가설을 다루므로 Bonferroni 보정을 필요로 하지 않습니다.
- 사전 등록된 특정 계획 비교는 비교 수가 적고 이론에 기반한 경우 보정을 적용하지 않는 것을 정당화할 수 있습니다.
핵심 질문은 한 검정에서의 위양성이 다른 검정의 맥락에서 해석될 것인지 여부입니다. 그렇다면 보정하십시오. 그렇지 않다면 보정이 필요하지 않을 수 있습니다.
p값 시각화: 실제로 보여주는 것
p값에 대한 직관을 키우는 가장 좋은 방법 중 하나는 시각적으로 생각하는 것입니다. p값은 근본적으로 관찰된 결과가 가능한 결과의 분포에서 어디에 위치하는지, 그리고 그 분포의 얼마나 많은 부분이 관찰값 이상에 놓여 있는지에 관한 것입니다.
표집분포 개념
p값을 해석하기 전에 표집분포를 이해해야 합니다. 이것은 원시 데이터의 분포가 아닙니다. 귀무가설이 참일 때 연구를 무한히 반복하면 얻을 수 있는 검정 통계량(예: t, F, 카이제곱)의 이론적 분포입니다.
30 자유도의 t검정의 경우, H0 하에서 t의 표집분포는 0을 중심으로 한 종 모양의 곡선입니다. 대부분의 값은 0 근처에 모이며(차이가 없음을 나타냄), 0에서 멀리 떨어진 값은 점점 드물어집니다.
관찰된 통계량의 위치
실제 연구는 하나의 검정 통계량을 생성하며, 이는 이 분포 위의 한 점입니다. 귀무가설이 참이라면, 이 값이 중심 근처에 떨어질 것으로 기대됩니다. 꼬리 깊숙이 떨어지면, 데이터가 H0와 일치하지 않는 것입니다.
양측 t검정에 대한 다음 시나리오를 고려하십시오:
- t = 0.5는 분포의 중심에 잘 들어맞습니다. 이것은 주목할 만하지 않은 결과입니다. p값이 큽니다.
- t = 2.0은 분포의 바깥 부분에 위치합니다. H0 하에서 무작위 표본의 5% 미만이 이렇게 극단적인 t를 만들 것입니다. p값이 작습니다.
- t = 3.5는 꼬리 깊숙이 위치합니다. 이것은 H0 하에서 극히 드문 결과입니다. p값이 매우 작습니다.
곡선 아래 면적 = p값
p값은 문자 그대로 관찰된 검정 통계량 이상에서의 표집분포 곡선 아래 음영 면적입니다. 양측 검정의 경우, 음영 면적은 양쪽 꼬리를 모두 포함합니다.
이것이 다음을 설명합니다:
- 0에 더 가까운 t 값은 더 큰 음영 면적과 더 큰 p값을 제공합니다.
- 0에서 더 먼 t 값은 더 작은 음영 면적과 더 작은 p값을 제공합니다.
- 알파 수준(.05)은 임계 경계를 정의합니다: 이 경계 너머의 검정 통계량은 기각 영역에 있습니다.
극단적인 값이 작은 p값을 만드는 이유
확률 분포의 꼬리는 매우 적은 면적을 포함합니다. 표준정규분포에서, 약 5%의 면적만이 ±1.96 너머에 있고, 약 1%만이 ±2.58 너머에 있습니다. 이러한 영역의 검정 통계량은 H0 하에서 드물며, 이것이 정확히 H0에 대한 증거를 제공하는 이유입니다.
이 시각적 프레임워크는 또한 표본 크기가 왜 중요한지를 설명합니다. 더 큰 표본은 더 적은 퍼짐(더 작은 표준오차)을 가진 표집분포를 생성하며, 이는 집단 간의 작은 차이도 검정 통계량을 꼬리로 밀어넣는다는 것을 의미합니다. 이것이 대규모 표본 연구가 사소하게 작은 효과에 대해서도 통계적 유의성을 발견할 수 있는 이유입니다.
자주 묻는 질문
p < .05는 결과가 참일 확률이 95%라는 뜻인가요?
아닙니다. 이는 가장 흔한 오해 중 하나입니다. p값은 귀무가설이 참일 때 관찰된 데이터(또는 더 극단적인 데이터)를 얻을 확률입니다. 가설이 맞을 확률을 알려주는 것이 아닙니다. 가설이 참일 확률을 구하려면 사전 확률을 사용한 베이지안 분석이 필요하며, 이는 근본적으로 다른 프레임워크입니다.
p = .049 vs p = .051은 실제로 무엇을 의미하나요?
실질적으로 의미 있는 차이는 없습니다. .05 기준값은 자의적인 관행입니다. p = .051이 "효과 없음"을, .049가 "실제 효과"를 의미하는 것이 아닙니다. 둘 다 귀무가설에 대한 유사한 수준의 증거를 나타냅니다. ASA와 많은 주요 통계학자들은 p값을 합격/불합격 기준이 아닌 증거의 연속적 측도로 취급할 것을 권장합니다.
p값이 정확히 0이 될 수 있나요?
아닙니다. p값은 확률을 나타내며 정확히 0이 될 수 없습니다. 통계 소프트웨어가 p = .000을 표시하면, 이는 주어진 소수점 정밀도에서 표시하기에 너무 작다는 것을 의미합니다. 논문에서는 p < .001로 보고하십시오. 귀무가설 하에서 데이터를 관찰할 확률은 아무리 작아도 항상 0이 아닌 값이 존재합니다.
왜 일부 학술지는 p < .05 대신 p < .01을 요구하나요?
더 엄격한 기준값은 위양성률을 줄입니다. 재현성 문제가 심각한 분야(예: 사회심리학)나 다중 검정이 빈번한 분야(예: 유전체학)에서는 더 보수적인 기준값을 채택할 수 있습니다. 일부 연구자들은 새로운 발견에 대한 주장의 새로운 기본값으로 p < .005를 제안했으며, 이것이 위양성률을 약 33%에서 5%로 줄일 것이라고 주장했습니다.
정확한 p값을 보고해야 하나요, 아니면 p < .05만 보고해도 되나요?
APA 7판은 부등식 표현(p < .05) 대신 정확한 p값(예: p = .034)을 요구합니다. 정확한 값은 독자와 메타분석가가 증거의 강도를 스스로 평가할 수 있게 합니다. 유일한 예외는 매우 작은 값으로, 많은 소수 자릿수를 나열하는 대신 p < .001로 보고해야 합니다.
p값과 신뢰구간의 관계는 무엇인가요?
이 둘은 상호 보완적입니다. 평균 차이의 95% 신뢰구간이 0을 포함하지 않으면, 해당 양측 p값은 .05 미만이 됩니다. 반대로, CI가 0을 포함하면 p값은 .05를 초과합니다. 신뢰구간은 p값만으로는 제공할 수 없는 추가 정보, 즉 효과의 추정된 크기와 그 추정치의 정밀도를 제공합니다.
서로 다른 연구의 p값을 비교할 수 있나요?
아닙니다. p값은 표본 크기, 효과크기, 변동성, 연구 설계에 따라 달라집니다. 10,000명의 참가자를 대상으로 한 연구의 p = .001이 30명의 참가자를 대상으로 한 연구의 p = .04보다 반드시 더 크거나 중요한 효과를 나타내는 것은 아닙니다. 연구 간 결과를 비교하려면 효과크기(Cohen의 d나 r 등)를 사용하고 메타분석 기법을 고려하십시오.
p값이 .06이면 어떻게 해야 하나요?
.05 수준에서 유의하지 않다고 솔직하게 보고하십시오. 효과크기, 신뢰구간, 실질적 시사점을 논의하십시오. "주변적으로 유의한," "유의성에 접근하는," 또는 "유의성 경향을 보이는"과 같은 표현은 사용하지 마십시오. 이러한 표현은 비유의의 완곡어법으로 널리 인식되며 가벼운 형태의 p-해킹으로 간주됩니다. 대신, 증거가 모호하다고 해석하고 더 큰 통계적 검정력을 가진 향후 연구가 발견을 명확히 할 수 있다고 제안하십시오.
StatMate의 무료 계산기를 사용해 보세요
StatMate의 20가지 무료 계산기는 모두 p값을 자동으로 계산하고 APA 7판 양식으로 포맷합니다. 서식 규칙을 찾아보거나 앞의 0, 소수점 자릿수, p < .001을 사용할 시기를 걱정할 필요가 없습니다. 출력 결과를 그대로 논문에 붙여넣을 수 있습니다.
이 가이드의 개념과 특히 관련 있는 계산기를 소개합니다:
- StatMate의 무료 t검정 계산기는 t, df, 정확한 p, Cohen의 d를 한 번의 출력으로 보고합니다.
- StatMate의 무료 분산분석(ANOVA) 계산기는 F, p, 에타 제곱 및 부분 에타 제곱을 제공합니다.
- StatMate의 무료 상관분석 계산기는 r, p, R 제곱을 함께 출력합니다.
- StatMate의 무료 카이제곱 계산기는 카이제곱 통계량, 정확한 p, Cramer의 V를 자동으로 계산합니다.
- StatMate의 무료 표본 크기 계산기는 p값이 의미 있도록 충분한 검정력을 갖춘 연구를 설계하는 데 도움을 줍니다.
모든 결과에는 유의성 검정과 효과크기가 모두 포함되므로, 한쪽 없이 다른 한쪽만 보고할 필요가 없습니다.