はじめに
t検定は、研究において最も広く使用される統計的検定の一つです。2つのグループの平均値に統計的に有意な差があるかどうかを判断するのに役立ちます。2つの教室間のテストスコアを比較する場合でも、治療前後の患者の転帰を測定する場合でも、t検定は多くの場面で適切なツールです。
このガイドでは、独立標本t検定と対応標本t検定の両方を実行する全過程を解説します。それぞれの検定をいつ使うべきか、仮定の確認方法、計算の実行方法、そして出力結果の解釈方法を学びます。すべてのステップに具体的な数値を含めていますので、実際の例に沿って理解を深めることができます。
t検定を使用すべき場面
t検定は、2つのグループの平均値を比較したい場合で、結果変数が連続変数(間隔尺度または比率尺度)であるときに適しています。主に2つのタイプがあります:
- 独立標本t検定:互いに関連のない2つの別々のグループの平均値を比較します(例:実験群 vs. 対照群)。
- 対応標本t検定:同一個人に対する2回の関連した測定値の平均を比較します(例:事前テスト vs. 事後テスト)。
3つ以上のグループがある場合は、分散分析(ANOVA)の使用を検討してください。
パート1:独立標本t検定
ステップ1:仮説を立てる
データに触れる前に、帰無仮説と対立仮説を明確に定義しましょう。
例題シナリオ: ある教師が、新しい教授法が従来の教授法と比較して数学の成績を向上させるかどうかを調べたいと考えています。
- 帰無仮説(H0): 新しい教授法グループと従来の教授法グループの間で、数学の平均点に差はない。
- 対立仮説(H1): 2つのグループの間で数学の平均点に差がある。
ステップ2:データを収集し整理する
2グループの学生からテストスコアが得られたとします:
| 新教授法(グループA) | 従来法(グループB) | |----------------------|---------------------| | 85 | 78 | | 92 | 72 | | 88 | 80 | | 76 | 68 | | 95 | 75 | | 83 | 71 | | 90 | 77 | | 87 | 73 | | 91 | 69 | | 79 | 74 |
ステップ3:記述統計量を計算する
各グループの平均値と標準偏差を算出します。
グループA(新教授法):
- 平均値(M)= 86.6
- 標準偏差(SD)= 5.85
- 標本サイズ(n)= 10
グループB(従来法):
- 平均値(M)= 73.7
- 標準偏差(SD)= 3.80
- 標本サイズ(n)= 10
ステップ4:仮定を確認する
t検定を実行する前に、以下の重要な仮定を確認してください:
-
観測の独立性:一方のグループの各スコアは、他方のグループのスコアと独立していること。これは研究デザインによって満たされます。
-
正規性:各グループのデータがほぼ正規分布に従うこと。小標本(n < 30)の場合は、Shapiro-Wilk検定を使用します。大標本の場合は、中心極限定理により頑健性が確保されます。
-
等分散性:2つのグループの分散がほぼ等しいこと。Levene検定を使用して確認します。分散が等しくない場合は、StudentのT検定の代わりにWelchのt検定を使用してください。
ステップ5:t統計量を計算する
独立標本t検定(等分散を仮定)の公式は次のとおりです:
t = (M1 - M2) / sqrt(Sp2 * (1/n1 + 1/n2))
Sp2はプールされた分散です:
**Sp2 = ((n1-1)SD12 + (n2-1)SD22) / (n1 + n2 - 2)
値を代入すると:
- Sp2 = ((9 * 34.22) + (9 * 14.44)) / 18 = (308.0 + 130.0) / 18 = 24.33
- t = (86.6 - 73.7) / sqrt(24.33 * (1/10 + 1/10))
- t = 12.9 / sqrt(24.33 * 0.2)
- t = 12.9 / sqrt(4.87)
- t = 12.9 / 2.207
- t = 5.85
自由度:df = n1 + n2 - 2 = 10 + 10 - 2 = 18
ステップ6:p値を求める
t = 5.85、df = 18の場合、両側p値は.001未満です。これは一般的な有意水準.05を大きく下回っています。
ステップ7:効果量を計算する
Cohenのdは、差の実質的な意義を測定します:
d = (M1 - M2) / Sp = 12.9 / 4.93 = 2.62
これはCohenの基準(小 = 0.20、中 = 0.50、大 = 0.80)に従えば、非常に大きな効果量です。
ステップ8:結果を解釈する
独立標本t検定の結果、新しい教授法を受けた学生(M = 86.6, SD = 5.85)と従来法を受けた学生(M = 73.7, SD = 3.80)の間で、数学の成績に統計的に有意な差が認められました。t(18) = 5.85, p < .001, d = 2.62。新教授法グループのスコアは大幅に高く、非常に大きな効果量が示されました。
パート2:対応標本t検定
ステップ1:仮説を立てる
例題シナリオ: あるセラピストが、8週間の認知行動療法(CBT)プログラムの前後で、10名の患者の不安レベル(0〜100のスケール)を測定しています。
- H0: 治療前後で不安スコアの平均に差はない。
- H1: 治療前後で不安スコアの平均に差がある。
ステップ2:データを収集し整理する
| 患者 | 治療前 | 治療後 | 差(D) | |------|--------|--------|---------| | 1 | 72 | 58 | 14 | | 2 | 65 | 55 | 10 | | 3 | 80 | 62 | 18 | | 4 | 58 | 50 | 8 | | 5 | 74 | 60 | 14 | | 6 | 69 | 63 | 6 | | 7 | 83 | 65 | 18 | | 8 | 61 | 52 | 9 | | 9 | 77 | 59 | 18 | | 10 | 70 | 61 | 9 |
ステップ3:差の記述統計量を計算する
- 平均差(MD)= 12.4
- 差の標準偏差(SDD)= 4.40
- 標本サイズ(n)= 10
ステップ4:仮定を確認する
-
対応のある観測:各参加者に治療前と治療後の両方の測定値がある。これはデザインにより満たされています。
-
差の正規性:差得点の分布がほぼ正規分布に従うこと。10個の観測値の場合、Shapiro-Wilk検定や差の分布の視覚的検査で確認できます。
ステップ5:t統計量を計算する
対応標本t検定の公式は次のとおりです:
t = MD / (SDD / sqrt(n))
値を代入すると:
- t = 12.4 / (4.40 / sqrt(10))
- t = 12.4 / (4.40 / 3.162)
- t = 12.4 / 1.392
- t = 8.91
自由度:df = n - 1 = 10 - 1 = 9
ステップ6:p値を求める
t = 8.91、df = 9の場合、両側p値は.001未満です。
ステップ7:効果量を計算する
対応標本の場合、Cohenのdは以下のように計算されます:
d = MD / SDD = 12.4 / 4.40 = 2.82
これは非常に大きな効果量であり、不安スコアが大幅に減少したことを示しています。
ステップ8:結果を解釈する
対応標本t検定の結果、CBT後の不安スコア(M = 58.5, SD = 4.86)は治療前(M = 70.9, SD = 7.98)と比較して有意に低下しました。t(9) = 8.91, p < .001, d = 2.82。平均12.4ポイントの減少は、非常に大きな効果を表しています。
判断ガイド:独立標本 vs. 対応標本
| 質問 | 独立標本 | 対応標本 | |------|----------|----------| | グループは異なる人々で構成されていますか? | はい | いいえ | | 各参加者は1回だけ登場しますか? | はい | いいえ(2回) | | 自然な対応関係がありますか? | いいえ | はい | | 例 | 実験群 vs. 対照群 | 前 vs. 後、左手 vs. 右手 |
よくある間違いと注意点
-
仮定の無視:正規性を確認せずに大きく歪んだデータでt検定を実行すると、誤った結果を導く可能性があります。仮定が満たされない場合は、Mann-Whitney U検定やWilcoxon符号付き順位検定などのノンパラメトリック手法を検討してください。
-
独立と対応のデザインの混同:対応のあるデータに独立標本t検定を使用すると、統計的検出力が無駄になり、誤った結論につながる可能性があります。
-
効果量の無視:統計的に有意なp値だけでは、効果の大きさはわかりません。必ずCohenのdを計算し報告してください。
-
多重比較:同じデータセットで多数のt検定を実行すると、第1種の過誤率が膨張します。3つ以上のグループを比較する場合は、事後検定を伴うANOVAを使用してください。
-
小さい標本サイズ:非常に小さい標本では、t検定の統計的検出力が低くなります。意味のある効果を検出するのに十分な標本サイズかどうかを検討してください。
よくある質問
t検定の最小標本サイズはいくつですか?
厳密な最小値はありませんが、多くの統計学者は独立標本t検定では各グループ少なくとも10〜15の観測数、対応標本t検定では少なくとも15〜20ペアを推奨しています。正式な検定力分析を実行すると、特定の効果量と希望する検出力レベルに必要な正確な標本サイズを決定できます。
片側検定と両側検定のどちらを使うべきですか?
データを見る前に効果の方向を予測する強い理論的根拠がない限り、両側検定を使用してください。片側検定はより検出力が高いですが、結果を見た後ではなく、事前に指定する必要があります。
データが正規分布に従わない場合はどうすればよいですか?
正規性の仮定が満たされず、標本サイズが小さい場合は、ノンパラメトリックな代替手法を検討してください。独立標本にはMann-Whitney U検定、対応標本にはWilcoxon符号付き順位検定が適しています。大標本(各グループn > 30)の場合、t検定は正規性の違反に対してかなり頑健です。
p値がちょうど.05の場合、何を意味しますか?
慣例的に、p = .05は統計的有意性の境界とされています。しかし、.05を厳格な閾値として扱うのではなく、正確なp値を報告し、より完全な全体像を得るために効果量と信頼区間に注目することを推奨します。
グループのサイズが異なる場合でもt検定を使用できますか?
はい。独立標本t検定はグループサイズが不等でも機能します。分散も不等の場合は、等分散を仮定しないWelchのt検定が推奨されます。
StatMateでt検定を実行する
StatMateのt検定計算機を使用すると、独立標本t検定と対応標本t検定の両方を即座に実行できます。生データまたは要約統計量を入力すると、StatMateがt統計量、p値、効果量、信頼区間、仮定の確認を自動的に計算します。結果はAPA書式で表示され、そのまま論文にコピーできます。