平均、中央値、最頻値、標準偏差、歪度、尖度、四分位数などを計算します。結果はAPA第7版形式で表示されます。
記述統計(Descriptive Statistics)は、収集したデータを数値やグラフで 要約・整理し、標本の特性を簡潔かつ効果的に把握するための手法です。 記述統計は社会科学、心理学、医学、教育学、経営学など、ほぼすべての 量的研究の基礎を成しており、t検定、分散分析(ANOVA)、回帰分析 などの推測統計を実施する前に、必ずデータの中心傾向、ばらつき、 分布の形状を記述する必要があります。記述統計はデータを "ありのまま"要約することを目的としており、母集団への一般化を 目的とする推測統計とは明確に区別されます。
記述統計は研究において3つの重要な役割を果たします: (1)分析前にデータ入力エラーや外れ値の検出に役立ち、 (2)推測統計が要求する仮定(例:正規性)の充足を確認し、 (3)データの基本的な属性を読者に伝えます。APA出版マニュアル (第7版)では、すべての主要研究変数について記述統計を報告するよう 求めており、結果セクションにおいて不可欠な要素です。
ある教授が心理学入門の受講生20名の期末試験の得点を収集しました。 他のクラスと比較する前に、まず得点の分布を記述します。
生データ (n = 20)
62, 65, 68, 70, 72, 73, 75, 76, 77, 78, 78, 79, 80, 81, 82, 83, 85, 88, 90, 92
中心傾向の指標
M = 76.50
Mdn = 77.00
Mode = 78
散布度
SD = 8.23
分散 = 67.74
範囲 = 30 (62–92)
IQR = 11.25
分布の形状
歪度 = −0.34
尖度 = −0.67
わずかに負の歪みを持つ近似正規分布
平均の95%信頼区間
95% CI [72.65, 80.35]
母平均の試験得点が72.65から80.35の間にあると95%の信頼度で 推定できます。
中心傾向はデータにおける"典型的な"値を表します。3つの 主要指標にはそれぞれ固有の利点があり、データの分布と測定水準に 応じて適切な指標を選択する必要があります。
| 指標 | 定義 | 適した場面 |
|---|---|---|
| 平均 (M) | 全値の合計をnで割った値 | データがほぼ対称(正規)で極端な外れ値がない場合 |
| 中央値 (Mdn) | データを並べ替えた際の中央の値 | データが偏っているか外れ値がある場合(例:所得、反応時間) |
| 最頻値 | 最も頻繁に出現する値 | 名義尺度やカテゴリカルデータ、または分布の峰を把握する場合 |
偏ったデータに関する指針
データが正の歪み(右裾が長い)を持つ場合、平均は中央値より高くなるため — 中央値を主要指標として報告してください。負の 歪み(左裾が長い)の場合、平均は中央値より低くなります。実用的な基準: 平均と中央値の差が標準偏差の10%を超える場合、平均の代わりに中央値を 報告し、標準偏差(SD)ではなく四分位範囲(IQR)を併記することが 望ましいです。
散布度(ばらつき)は、データポイントが中心値の周囲にどの程度 広がっているかを示します。2つのデータセットが同じ平均を持つ場合でも 散布度は大きく異なることがあるため、中心値の報告と同様に散布度の 報告も重要です。
標準偏差 (SD)
各データポイントが平均からどれだけ離れているかの平均的な距離で、 元の測定単位で表されます。試験においてSD = 8.23点とは、 得点が一般的に平均の上下約8点の範囲に分布していることを意味します。 APA形式の研究で最も頻繁に報告される散布度の指標です。
分散 (SD²)
標準偏差の二乗です。分散は計算過程(例:ANOVAにおける分散の分解)で 不可欠ですが、単位が二乗されているため直接的な解釈が困難です。分散 67.74自体は意味を把握しにくいですが、その平方根であるSD = 8.23は 直感的に解釈できます。
範囲
最大値と最小値の差です (92 − 62 = 30)。範囲は計算が 簡単ですが外れ値に非常に敏感であり — たった1つの極端な値が 範囲を大きく膨張させることがあります。
四分位範囲 (IQR)
データの中央50%の範囲です (Q3 − Q1)。IQRは外れ値に 対して頑健であり、中央値を報告する際に併用するのに適した散布度の 指標です。この例ではIQR = 11.25であり、試験得点の中央半分が 約11点の幅に分布していることを意味します。
歪度と尖度は分布の形状を数量化するものであり、多くのパラメトリック 検定(t検定、ANOVA、回帰分析)が要求する正規性の仮定を確認する上で 重要な役割を果たします。これらの指標を理解することで、パラメトリック 手法とノンパラメトリック手法のどちらを使用すべきかの判断に 役立ちます。
| 指標 | 値 | 解釈 |
|---|---|---|
| 歪度 | ≈ 0 | 対称分布(正規分布) |
| > 0 (正) | 右裾が長い;大部分の値が左に集中(例:所得データ) | |
| < 0 (負) | 左裾が長い;大部分の値が右に集中(例:容易な試験の得点) | |
| 尖度(超過) | ≈ 0 | 中尖(Mesokurtic) — 正規分布に類似した裾 |
| > 0 (正) | 急尖(Leptokurtic) — 正規分布より重い裾、外れ値が多い | |
| < 0 (負) | 扁平(Platykurtic) — 正規分布より軽い裾、外れ値が少ない |
正規性の判断基準
歪度と尖度の値が−2から+2の範囲内であれば、一般的に 正規性を仮定できると見なされます (George & Mallery, 2019)。より厳格な基準では−1から+1を使用する場合もあります。この 例では歪度 = −0.34、尖度 = −0.67であり、いずれも許容範囲 内にあるため、分布が近似的に正規分布であることが確認できます。
平均の95%信頼区間(CI)は、真の母平均が位置する可能性のある 値の範囲を提供します。この例では95% CI [72.65, 80.35]は、この 研究を繰り返し行い毎回CIを算出した場合、約95%の区間が真の 母平均を含むことを意味します。
信頼区間が意味すること
この区間を構成する手順が真の母平均を捉えていることを 95%の信頼度で示しています。区間の幅 (80.35 − 72.65 = 7.70) は 推定の精度を反映しており — 区間が狭いほどより精密な推定を 示します。
信頼区間が意味しないこと
母平均がこの特定の区間内にある確率が95%であるという意味ではありません。母平均は固定された値であり — この 区間内にあるかないかのどちらかです。95%は個別の区間の確率ではなく、 手法の長期的な頻度を表しています。
CIの幅は3つの要因に依存します:標本サイズ(大きいn = 狭いCI)、ばらつき(小さいSD = 狭いCI)、信頼水準(99% CIは95% CIより広い)。幅を半分にするには標本サイズを4倍に する必要があります。
APA第7版では、すべての主要変数について記述統計を報告するよう求めており、 通常は表または本文中に提示します。上記の計算例を用いた 報告形式は以下の通りです:
本文中の報告(正規分布の場合)
試験得点は近似的に正規分布に従っていた(歪度 = −0.34, 尖度 = −0.67)。学生の平均得点は76.50点であった (SD = 8.23), 95% CI [72.65, 80.35]。
本文中の報告(偏った分布の場合)
反応時間は正の歪みを示した(歪度 = 1.42);したがって中央値を 報告する。反応時間の中央値は340 msであった(Mdn = 340, IQR = 120)。
APA表形式のテンプレート
| 変数 | n | M | SD | Mdn | 歪度 | 尖度 |
|---|---|---|---|---|---|---|
| 試験得点 | 20 | 76.50 | 8.23 | 77.00 | −0.34 | −0.67 |
注意:すべての記述統計は小数点以下2桁まで報告します。統計記号は イタリック体で表記します(M, SD, Mdn)。 データが非正規の場合は平均とSDの代わりに中央値とIQRを報告します。 記述統計と併せて必ず標本サイズ(nまたはN)を 報告してください。
StatMateの記述統計計算は、Rの psych::describe() 関数およびSPSS記述統計出力と照合して検証済みです。平均、SD、 歪度(type 2 / 標本)、尖度(超過、type 2)、四分位数、信頼区間を含む すべての指標がRおよびSPSS出力と小数点以下4桁まで一致しています。 計算機は標本標準偏差の公式(n − 1で除算)と 調整Fisher-Pearson係数を使用しており、標準的な統計ソフトウェアの デフォルト設定と一致しています。
t検定
2群の平均値を比較
分散分析
3群以上の平均値を比較
カイ二乗検定
カテゴリ変数の関連を検定
相関分析
関係の強さを測定
サンプルサイズ
検出力分析・標本計画
1標本t検定
既知の値との比較
マン・ホイットニーU
ノンパラメトリック群間比較
ウィルコクソン検定
ノンパラメトリック対応検定
回帰分析
X-Yの関係をモデル化
重回帰分析
複数の予測変数
クロンバックのα
尺度の信頼性
ロジスティック回帰
二値アウトカムの予測
因子分析
潜在因子構造の探索
クラスカル・ウォリス
ノンパラメトリック3群以上比較
反復測定
被験者内分散分析
二元配置分散分析
要因計画の分析
フリードマン検定
ノンパラメトリック反復測定
フィッシャーの正確検定
2×2表の正確検定
マクネマー検定
対応のある名義データの検定
Excel/スプレッドシートから貼り付け、またはCSVファイルをドロップ
データを入力して「計算」をクリックしてください
または「サンプルデータを読み込む」をクリックしてお試しください