평균, 중앙값, 최빈값, 표준편차, 왜도, 첨도, 사분위수 등을 계산합니다. 결과는 APA 7판 형식으로 제공됩니다.
기술통계(Descriptive Statistics)는 수집된 데이터를 수치와 그래프로 요약하고 정리하여, 표본의 특성을 간결하면서도 효과적으로 파악할 수 있게 해 줍니다. 기술통계는 사회과학, 심리학, 의학, 교육학, 경영학 등 거의 모든 양적 연구의 기초를 이루며, t-검정, 분산분석(ANOVA), 회귀분석 등 추론통계를 실시하기 전에 반드시 데이터의 중심경향성, 변동성, 분포 형태를 먼저 기술해야 합니다. 기술통계는 데이터를 "있는 그대로" 요약하는 것이 목적이며, 모집단에 대한 일반화를 목적으로 하는 추론통계와 명확히 구분됩니다.
기술통계는 연구에서 세 가지 핵심적인 역할을 합니다: (1) 분석 전 데이터 입력 오류와 이상치를 탐지하는 데 도움을 주고, (2) 추론통계가 요구하는 가정(예: 정규성)의 충족 여부를 확인하며, (3) 데이터의 기본 속성을 독자에게 전달합니다. APA 출판 매뉴얼 (제7판)에서는 모든 주요 연구 변수에 대해 기술통계를 보고하도록 요구하고 있어, 결과 섹션에서 빠질 수 없는 필수 요소입니다.
한 교수가 심리학 개론 수업 학생 20명의 기말시험 점수를 수집했습니다. 다른 분반과 비교하기에 앞서, 먼저 점수 분포를 기술하고자 합니다.
원시 데이터 (n = 20)
62, 65, 68, 70, 72, 73, 75, 76, 77, 78, 78, 79, 80, 81, 82, 83, 85, 88, 90, 92
중심경향 측정치
M = 76.50
Mdn = 77.00
Mode = 78
산포도
SD = 8.23
분산 = 67.74
범위 = 30 (62–92)
IQR = 11.25
분포 형태
왜도 = −0.34
첨도 = −0.67
약간의 음의 왜도를 가진 근사 정규분포
평균의 95% 신뢰구간
95% CI [72.65, 80.35]
모평균 시험 점수가 72.65에서 80.35 사이에 있다고 95% 신뢰할 수 있습니다.
중심경향은 데이터에서 "전형적인" 값을 나타냅니다. 세 가지 주요 측정치는 각각 고유한 장점이 있으며, 데이터의 분포와 측정 수준에 따라 적절한 측정치를 선택해야 합니다.
| 측정치 | 정의 | 적합한 상황 |
|---|---|---|
| 평균 (M) | 모든 값의 합을 n으로 나눈 값 | 데이터가 대략 대칭(정규)이고 극단적 이상치가 없을 때 |
| 중앙값 (Mdn) | 데이터를 정렬했을 때 가운데 위치한 값 | 데이터가 편향되었거나 이상치가 있을 때 (예: 소득, 반응 시간) |
| 최빈값 | 가장 빈번하게 나타나는 값 | 명목 또는 범주형 데이터이거나 분포의 봉우리를 파악할 때 |
편향 데이터에 대한 지침
데이터가 양의 왜도(오른쪽 꼬리)를 가지면 평균이 중앙값보다 높아지므로 — 중앙값을 주요 측정치로 보고하십시오. 음의 왜도(왼쪽 꼬리)인 경우 평균이 중앙값보다 낮아집니다. 실용적 기준: 평균과 중앙값의 차이가 표준편차의 10%를 초과하면 평균 대신 중앙값을 보고하고, 표준편차(SD) 대신 사분위범위(IQR)를 함께 제시하는 것이 바람직합니다.
산포도(변동성)는 데이터 포인트가 중심값 주위에 얼마나 퍼져 있는지를 나타냅니다. 두 데이터셋이 동일한 평균을 가질 수 있지만 산포도는 크게 다를 수 있으므로, 중심값 보고만큼이나 산포도 보고도 중요합니다.
표준편차 (SD)
각 데이터 포인트가 평균으로부터 떨어진 평균 거리로, 원래 측정 단위로 표현됩니다. 시험에서 SD = 8.23점이란 점수가 일반적으로 평균 위아래로 약 8점 범위에 분포한다는 뜻입니다. APA 양식 연구에서 가장 흔히 보고되는 산포도 측정치입니다.
분산 (SD²)
표준편차의 제곱입니다. 분산은 계산 과정(예: ANOVA에서 분산 분해)에 필수적이지만, 단위가 제곱되어 있어 직접 해석하기 어렵습니다. 분산 67.74 자체는 의미 파악이 어렵지만, 제곱근인 SD = 8.23은 직관적으로 해석할 수 있습니다.
범위
최댓값과 최솟값의 차이입니다 (92 − 62 = 30). 범위는 계산이 간단하지만 이상치에 매우 민감하여 — 단 하나의 극단값이 범위를 크게 부풀릴 수 있습니다.
사분위범위 (IQR)
데이터 중앙 50%의 범위입니다 (Q3 − Q1). IQR은 이상치에 강건하며, 중앙값을 보고할 때 함께 사용하기에 적합한 산포도 측정치입니다. 이 예제에서 IQR = 11.25는 시험 점수의 중앙 절반이 약 11점에 걸쳐 분포한다는 의미입니다.
왜도와 첨도는 분포의 형태를 수량화하며, 많은 모수적 검정(t-검정, ANOVA, 회귀분석)이 요구하는 정규성 가정을 확인하는 데 핵심적인 역할을 합니다. 이 측정치를 이해하면 모수적 방법과 비모수적 방법 중 어떤 것을 사용할지 결정하는 데 도움이 됩니다.
| 측정치 | 값 | 해석 |
|---|---|---|
| 왜도 | ≈ 0 | 대칭 분포 (정규분포) |
| > 0 (양수) | 오른쪽 꼬리가 길다; 대부분의 값이 왼쪽에 집중 (예: 소득 데이터) | |
| < 0 (음수) | 왼쪽 꼬리가 길다; 대부분의 값이 오른쪽에 집중 (예: 쉬운 시험 점수) | |
| 첨도 (초과) | ≈ 0 | 중첨(Mesokurtic) — 정규분포와 유사한 꼬리 |
| > 0 (양수) | 급첨(Leptokurtic) — 정규분포보다 무거운 꼬리, 이상치가 더 많음 | |
| < 0 (음수) | 완첨(Platykurtic) — 정규분포보다 가벼운 꼬리, 이상치가 더 적음 |
정규성 판단 기준
왜도와 첨도 값이 −2에서 +2 사이이면 일반적으로 정규성을 가정할 수 있는 것으로 간주됩니다 (George & Mallery, 2019). 일부 엄격한 기준에서는 −1에서 +1을 사용합니다. 이 예제에서 왜도 = −0.34, 첨도 = −0.67로, 모두 허용 범위 안에 있어 분포가 근사적으로 정규분포임을 확인할 수 있습니다.
평균의 95% 신뢰구간(CI)은 실제 모평균이 위치할 가능성이 있는 값의 범위를 제공합니다. 이 예제에서 95% CI [72.65, 80.35]는 이 연구를 여러 번 반복하여 매번 CI를 구한다면, 약 95%의 구간이 실제 모평균을 포함한다는 의미입니다.
신뢰구간이 의미하는 것
이 구간을 구성하는 데 사용된 절차가 실제 모평균을 포착한다는 것을 95% 신뢰합니다. 구간의 폭 (80.35 − 72.65 = 7.70)은 추정의 정밀도를 반영하며 — 구간이 좁을수록 더 정밀한 추정을 나타냅니다.
신뢰구간이 의미하지 않는 것
모평균이 이 특정 구간 안에 있을 확률이 95%라는 의미가 아닙니다. 모평균은 고정된 값으로 — 이 구간 안에 있거나 없거나 둘 중 하나입니다. 95%는 개별 구간의 확률이 아니라 방법의 장기적 빈도를 나타냅니다.
CI의 폭은 세 가지 요인에 따라 달라집니다: 표본 크기 (큰 n = 좁은 CI), 변동성 (작은 SD = 좁은 CI), 신뢰 수준 (99% CI는 95% CI보다 넓음). 폭을 절반으로 줄이려면 표본 크기를 4배로 늘려야 합니다.
APA 제7판에서는 모든 주요 변수에 대해 기술통계를 보고하도록 요구하며, 일반적으로 표 또는 본문 내에 제시합니다. 위의 계산 예제를 활용한 보고 양식은 다음과 같습니다:
본문 내 보고 (정규분포)
시험 점수는 근사적으로 정규분포를 따랐다 (왜도 = −0.34, 첨도 = −0.67). 학생들의 평균 점수는 76.50점이었다 (SD = 8.23), 95% CI [72.65, 80.35].
본문 내 보고 (편향 분포)
반응 시간은 양의 왜도를 보였다 (왜도 = 1.42); 따라서 중앙값을 보고한다. 반응 시간의 중앙값은 340 ms였다 (Mdn = 340, IQR = 120).
APA 표 형식 양식
| 변수 | n | M | SD | Mdn | 왜도 | 첨도 |
|---|---|---|---|---|---|---|
| 시험 점수 | 20 | 76.50 | 8.23 | 77.00 | −0.34 | −0.67 |
참고: 모든 기술통계는 소수점 둘째 자리까지 보고합니다. 통계 기호는 이탤릭체로 표기합니다 (M, SD, Mdn). 데이터가 비정규인 경우 평균과 SD 대신 중앙값과 IQR을 보고합니다. 기술통계와 함께 반드시 표본 크기 (n 또는 N)를 보고해야 합니다.
StatMate의 기술통계 계산은 R의 psych::describe() 함수 및 SPSS 기술통계 출력과 대조하여 검증되었습니다. 평균, SD, 왜도(type 2 / 표본), 첨도(초과, type 2), 사분위수, 신뢰구간을 포함한 모든 측정치가 R 및 SPSS 출력과 소수점 넷째 자리까지 일치합니다. 계산기는 표본 표준편차 공식 (n − 1로 나누기)과 조정된 Fisher-Pearson 계수를 사용하며, 이는 표준 통계 소프트웨어의 기본 설정과 일치합니다.
T-검정
두 집단의 평균 비교
분산분석
3개 이상 집단의 평균 비교
카이제곱
범주형 변수의 연관성 검정
상관분석
관계의 강도 측정
표본 크기
검정력 분석 및 표본 계획
일표본 T
알려진 값과 비교
Mann-Whitney U
비모수 집단 비교
Wilcoxon
비모수 대응표본 검정
회귀분석
X-Y 관계 모델링
다중회귀
다중 예측변수 분석
Cronbach's Alpha
척도 신뢰도 분석
로지스틱 회귀
이항 결과 예측
요인분석
잠재 요인 구조 탐색
Kruskal-Wallis
비모수 3개 이상 집단 비교
반복측정
피험자 내 분산분석
이원배치 분산분석
요인설계 분석
Friedman 검정
비모수 반복측정
Fisher 정확검정
2×2 분할표 정확 검정
McNemar 검정
대응 명목 데이터 검정
Excel/Sheets에서 붙여넣기 또는 CSV 파일 드래그
데이터를 입력하고 계산을 클릭하세요
또는 "예시 데이터"를 클릭해 사용해보세요