根本的な問い
2つの独立した群があり、それらに差があるかどうかを知りたい場合、最も一般的な選択肢は対応のないt検定とマン・ホイットニーU検定です。どちらを選ぶかは好みの問題ではなく、データの特性、サンプルサイズ、研究目的に依存します。
このガイドでは、毎回正しい判断ができるよう、体系的な比較を提供します。
比較一覧表
| 特徴 | 対応のないt検定 | マン・ホイットニーU検定 | |------|----------------|---------------------| | 比較対象 | 平均値 | 順位分布 | | 必要なデータ型 | 連続変数(間隔/比率尺度) | 順序尺度以上 | | 正規性の仮定 | あり | なし | | 等分散の仮定 | あり(Welch補正で対応可) | 類似した分布形状(中央値比較の場合) | | 外れ値への感度 | 高い | 低い | | 統計的検出力 | より高い(仮定が満たされた場合) | やや低い | | サンプルサイズの目安 | 1群あたりn >= 30(頑健) | 任意のサイズ;n >= 5が望ましい | | 効果量 | Cohenのd | 順位双列相関r |
各検定の仕組み
対応のないt検定
t検定は2つの群の平均値の差を計算し、その差の標準誤差で割ります。得られたt統計量は、観測された差がゼロから何標準誤差離れているかを測定します。
公式(簡略版):
t = (平均1 - 平均2) / SE(差)
この検定は、平均値の差の標本分布が近似的に正規分布であることを仮定します。これは、データ自体が正規分布である場合、またはサンプルサイズが十分に大きく中心極限定理が適用される場合に成り立ちます。
対応のないt検定計算ツールでお試しください。
マン・ホイットニーU検定
マン・ホイットニーU検定は両群を合わせ、すべての観測値を最小から最大まで順位付けし、一方の群の順位が他方より体系的に高いか低いかを確認します。
基本的なロジック: 2つの群が同じ分布から来ている場合、順位は均等に混ざっているはずです。一方の群の値が一貫して高い場合、その群の順位は不均衡に大きくなり、有意なU統計量が得られます。
マン・ホイットニーU検定計算ツールでお試しください。
仮定:ここから判断が始まる
これらの検定を選択する際の最も重要な要素は、データがt検定の仮定を満たしているかどうかです。
t検定の仮定
- 独立性: 観測値は群内および群間で独立している。
- 正規性: 従属変数が各群で近似的に正規分布している。
- 等分散性: 2群の分散が類似している(Welch補正で対応可能)。
- 間隔または比率尺度: 従属変数が、値間の差が意味を持ち等しい尺度で測定されている。
マン・ホイットニーの仮定
- 独立性: t検定と同じ。
- 順序尺度以上: データが少なくとも順位付け可能である。
- 類似した分布形状: 結果を中央値の比較として解釈する場合、両群の分布形状(歪度と散らばり)が類似している必要がある。
マン・ホイットニーの仮定はより少なく弱いです。これこそが、t検定の仮定が満たされない場合の代替手段としてこの検定が存在する理由です。
t検定を使うべき場合
以下のすべてが当てはまる場合にt検定を選択します:
データが連続変数で間隔尺度または比率尺度で測定されている
テストの点数、反応時間、血圧測定値、体重、金額はすべてt検定に適しています。
正規性が妥当に満たされている
以下の方法で正規性を確認します:
- 視覚的検査: ヒストグラムとQ-Qプロットがおおよそ対称的なベル型の分布を示すべきです。
- Shapiro-Wilk検定: 非有意な結果(p > 0.05)は正規性の仮定を支持します。
重要なポイント:t検定は、1群あたりのサンプルサイズが30以上の場合、中程度の正規性の違反に対して頑健です。大きなサンプルでは、中心極限定理のおかげで、中程度に歪んだデータでも信頼できるt検定の結果が得られます。
極端な外れ値がない
平均値は外れ値に敏感です。1つの極端な値が平均を大きく移動させ、t統計量を膨張または収縮させる可能性があります。外れ値がある場合、データエラーなのか真の極端な値なのかを検討してから検定を選択してください。
最大の統計的検出力が必要
仮定が満たされている場合、t検定はマン・ホイットニーU検定よりも検出力が高く、真の差を検出する可能性が高くなります。検出力の優位性は通常約5%です(マン・ホイットニーのt検定に対する漸近相対効率は約0.955)。
マン・ホイットニーU検定を使うべき場合
以下のいずれかが当てはまる場合にマン・ホイットニーを選択します:
データが順序尺度である
リッカート尺度の評定、重症度のランキング、または値間の間隔が等しいことが保証されない変数。満足度評定の4対5は、1対2と同じ心理的差を表していない可能性があります。
正規性が明確に違反されており、サンプルが小さい
Shapiro-Wilk検定が有意(p < 0.05)で、サンプルサイズが30未満の場合、t検定は信頼できない結果を生む可能性があります。マン・ホイットニーは正規性を必要としません。
外れ値が存在し、除去できない
マン・ホイットニーは順位を使用するため、極端な外れ値は単に最大の値と同じ影響しかありません。どちらも最高順位を受け取ります。これにより、検定は自然に頑健になります。
分布が強く歪んでいる
所得データ、反応時間データ、多くの生物学的測定値は自然に歪んでいます。歪みが激しく、変換が適切でない場合、マン・ホイットニーがより安全な選択です。
並行比較の例
同じデータセットに両方の検定を適用し、結果を比較してみましょう。
データセット
ある企業が2つの研修方法をテストし、研修後の従業員のパフォーマンススコア(0-100)を測定します。
方法A: 78, 82, 85, 88, 76, 91, 84, 79, 87, 83, 80, 86
方法B: 72, 68, 75, 80, 65, 77, 71, 74, 69, 73, 76, 70
t検定の結果
| 統計量 | 値 | |--------|------| | 平均(方法A) | 83.25 | | 平均(方法B) | 72.50 | | 平均差 | 10.75 | | t統計量 | 5.32 | | df | 22 | | p値 | 0.000023 | | Cohenのd | 2.17 |
マン・ホイットニーU検定の結果
| 統計量 | 値 | |--------|------| | 中央値(方法A) | 83.5 | | 中央値(方法B) | 72.5 | | U統計量 | 10.0 | | zスコア | -3.58 | | p値 | 0.0003 | | 順位双列相関r | 0.861 |
結果の比較
両方の検定が同じ結論に達しました:方法Aが有意に高いスコアを生み出しています。しかし、注目すべき点があります:
- t検定のp値がより小さい(0.000023 vs 0.0003)。これは、データが正規で問題がない場合のt検定のより高い検出力を反映しています。
- 両方の効果量が大きな効果を示しているが、異なるスケールを使用しています(d = 2.17 vs r = 0.861)。
- t検定は平均値を報告(83.25 vs 72.50)し、マン・ホイットニーは中央値を報告(83.5 vs 72.5)します。
この場合、データがほぼ正規で外れ値がないため、t検定がデータからより多くの情報を抽出できる、より良い選択です。
外れ値を追加してみる
方法Aに1つの異常なスコアがあったとします:91を150に置き換えます(おそらくデータ入力エラー)。
修正後の方法A: 78, 82, 85, 88, 76, 150, 84, 79, 87, 83, 80, 86
| 検定 | p値 | 効果量 | |------|---------|-------------| | t検定 | 0.011 | d = 1.29 | | マン・ホイットニーU | 0.0003 | r = 0.861 |
外れ値がt検定を大幅に弱めました(pは0.000023から0.011に、dは2.17から1.29に低下)。方法Aの平均と標準偏差の両方が膨張したためです。マン・ホイットニーの結果はほとんど変化しませんでした。外れ値を順位付けすると単に最上位に配置されるだけで、値が91でも150でも最高順位を受け取るからです。
判断フレームワーク
以下のフローチャート形式のアプローチを使用します:
ステップ1:データ型は何ですか?
- 順序データ → マン・ホイットニーを使用。
- 連続データ → ステップ2へ。
ステップ2:サンプルサイズを確認。
- 1群あたりn >= 30 → t検定は非正規性に頑健。ステップ3へ。
- 1群あたりn < 30 → ステップ3へ(正規性がより重要)。
ステップ3:正規性を確認。
- 正規または近似正規 → ステップ4へ。
- 明らかに非正規 → マン・ホイットニーを使用。
ステップ4:外れ値を確認。
- 極端な外れ値なし → t検定を使用。
- 極端な外れ値あり → マン・ホイットニーを使用(または外れ値を正当な理由で除去してt検定を使用)。
検出力の比較
統計的検出力とは、真の効果が存在する場合にそれを検出する確率です。理想的な条件下では:
- t検定は指定された検出力(例:0.80)を達成します。
- マン・ホイットニーはt検定の検出力の約95.5%を達成します(漸近相対効率 = 3/pi、約0.955)。
これは、t検定で80%の検出力に1群あたり64人の参加者が必要な場合、マン・ホイットニーで同じ検出力を達成するには約67人が必要であることを意味します。差は小さく、実際にはしばしば無視できる程度です。
しかし、データが非正規の場合、マン・ホイットニーはt検定よりも実際にはより検出力が高い場合があります。裾の重い分布や汚染正規分布では、マン・ホイットニーは同じ効果を検出するためにt検定よりも少ない参加者で済む場合があります。
効果量の比較
| 指標 | 検定 | スケール | ベンチマーク | |------|------|---------|------------| | Cohenのd | t検定 | -無限大~+無限大 | 0.2 小、0.5 中、0.8 大 | | 順位双列相関r | マン・ホイットニー | -1~+1 | 0.1 小、0.3 中、0.5 大 |
両方の効果量は群間差の大きさを定量化しますが、直接比較はできません。Cohenのdは差を標準偏差単位で表し、順位双列相関rは一方の群からランダムに選んだ値が他方の群からランダムに選んだ値を超える確率を表します。
査読者が期待すること
学術出版において、査読者は一般的に以下を期待します:
- 検定選択の正当性として、仮定の確認結果(正規性検定、外れ値の検査)を報告する。
- データの特性に対して適切な検定を報告する。
- 両方の検定を実行して有利な結果を報告しない(これはp-hackingの一形態です)。
- 可能であれば、分析計画で検定を事前に指定する。
一般的で擁護しやすいアプローチは:まず正規性の確認を行い、その結果に基づいて検定を選択する。仮定の確認結果を報告し、検定の選択理由を説明する、というものです。
ステップバイステップ判断フローチャート:t検定かマン・ホイットニーか?
t検定とマン・ホイットニーU検定のどちらを使うべきか迷ったら、以下の5つの質問に順番に答えていきましょう。
質問1:2つの群は独立していますか?
まず、2つの群が異なる参加者で構成されており、対応付けやマッチングがないことを確認してください。同一の被験者を2回測定した場合(例:事前テストと事後テスト)、独立サンプルの比較ではなく、対応のあるt検定またはウィルコクソン符号順位検定が必要です。同一被験者の繰り返し測定は、t検定とマン・ホイットニーの両方が要求する独立性の仮定に違反します。
質問2:従属変数は連続変数ですか?
t検定は、数値的な差に意味がある間隔尺度または比率尺度のデータを必要とします。アウトカムがカテゴリカル(はい/いいえ、合格/不合格)であれば、カイ二乗検定やフィッシャーの正確確率検定を検討してください。変数が順序尺度(ランキング、リッカート尺度項目)であれば、マン・ホイットニーに直接進みましょう。マン・ホイットニーは生の値ではなく順位で操作するため、順序データを自然に扱えます。
質問3:サンプルサイズは1群あたり30以上ですか?
サンプルサイズが重要な理由は中心極限定理にあります。1群あたり30以上の観測値があれば、元のデータ分布にかかわらず、平均値の標本分布は正規分布に近づきます。つまり、大きなサンプルサイズではt検定は中程度の非正規性に対して頑健になります。群が30未満の場合は、質問4に進み、分布の形状を注意深く確認してください。
質問4:データは正規性検定に合格しますか?
各群に対してShapiro-Wilk検定を個別に実施してください。両群ともp > 0.05であれば、正規性の仮定は妥当に支持されます — t検定を使用してください。いずれかの群が正規性から有意に逸脱している場合(p < 0.05)、Q-Qプロットとヒストグラムの視覚的検査と合わせて判断してください。小サンプルで明確な非正規性がある場合、マン・ホイットニーがより安全です。大サンプル(n > 30)で軽度から中程度の非正規性であれば、t検定は依然として許容されます。
質問5:分散は等しいですか?
Leveneの等分散性検定を実施してください。分散がほぼ等しい場合(Leveneのp > 0.05)、Studentのt検定が適切です。分散が有意に異なる場合(Leveneのp < 0.05)、等分散を仮定しないWelchのt検定を使用してください。分散が異なるだけではマン・ホイットニーに切り替える必要はありません — Welch補正がパラメトリックな枠組みの中でこの問題を効果的に解決します。
要約パス:
- 順序データ → マン・ホイットニー
- 連続変数、大サンプル、おおよそ正規 → t検定(StudentまたはWelch)
- 連続変数、小サンプル、非正規 → マン・ホイットニー
- 連続変数、大サンプル、重度の非正規 + 極端な外れ値 → マン・ホイットニー
APA報告形式の比較:並列例
どの検定を選んだかによって、報告形式が異なります。同じ研究を2つの方法で報告した例を示し、APA出力がどのように変わるかを確認します。
研究の背景: 研究者がマインドフルネストレーニングを受けた学生群(n = 30)と統制群(n = 30)のテスト不安スコアを比較します。
t検定のAPA報告例
対応のないt検定の結果、マインドフルネス群(M = 42.3, SD = 8.7)は統制群(M = 48.9, SD = 9.2)よりもテスト不安が有意に低かった、t(58) = 2.89, p = .005, d = 0.75。
主要要素:平均値、標準偏差、自由度付きt統計量、p値、Cohenのd。
マン・ホイットニーU検定のAPA報告例
マン・ホイットニーU検定の結果、マインドフルネス群(Mdn = 41.5)は統制群(Mdn = 49.0)よりもテスト不安スコアが有意に低かった、U = 287, z = -2.67, p = .008, r = .35。
主要要素:中央値、U統計量、zスコア、p値、順位双列相関r。
2つの報告の違い
| 要素 | t検定 | マン・ホイットニー | |------|-------|------------------| | 代表値 | 平均値(M)と標準偏差 | 中央値(Mdn) | | 検定統計量 | t(df) | Uとz | | 効果量 | Cohenのd | 順位双列相関r | | 効果量の基準 | 0.2 / 0.5 / 0.8 | 0.1 / 0.3 / 0.5 | | 信頼区間 | 平均差について | 中央値差について(任意) |
同じデータでもp値がやや異なります(0.005 vs 0.008)。t検定は正規分布データからより多くの情報を抽出し、より小さなp値を算出します。効果量も異なるスケールを使用します:d = 0.75はCohenの基準で中程度から大きい効果、r = 0.35は順位双列相関の基準で中程度の効果です。dとrの直接的な数値比較は妥当ではありません。
ノンパラメトリック検定に関するよくある誤解
ノンパラメトリック検定について広く信じられている信念のいくつかは、間違っているか誤解を招くものです。
誤解1:ノンパラメトリック検定は常に検出力が低い
事実: 理想的な条件(正規データ、外れ値なし)では、t検定はマン・ホイットニーより約5%高い検出力を持ちます。しかし、データが非正規の場合 — 裾が重い、歪んでいる、外れ値に汚染されている — マン・ホイットニーの方が大幅に高い検出力を示すことがあります。観測値の5-10%だけが異なる分布から来た汚染正規分布では、マン・ホイットニーがt検定を上回ることが頻繁にあります。「ノンパラメトリック検定は検出力を犠牲にする」という一般論は、パラメトリックの仮定が完全に満たされている場合にのみ正しいのです。
誤解2:マン・ホイットニーU検定は中央値を比較する
事実: マン・ホイットニーは、一方の群の値が他方の群の値よりも体系的に大きい傾向があるかどうかを検定します。技術的には、確率的優位性(stochastic dominance)を評価します — 一方の群からランダムに選んだ観測値が他方の群からランダムに選んだ観測値を超える確率です。両群の分布形状(歪度、散らばり)が同じ場合にのみ、中央値の比較に単純化されます。分布形状が異なると、中央値が等しくてもマン・ホイットニーが有意になることや、中央値が異なっても非有意になることがあります。
誤解3:検定を選ぶ前に必ず正規性を検定すべきである
事実: すべての分析の前にルーティンとして正規性検定を行うことは、必ずしも必要でも望ましくもありません。大サンプル(n > 30)では、Shapiro-Wilkなどの正規性検定は過剰検出力の問題があり、t検定の妥当性に実質的な影響がない些細な逸脱でも正規性を棄却します。研究デザインや測定尺度によって検定が決まる分野もあります。例えば、従属変数が5件法のリッカート尺度であれば、正規性検定の結果に関係なくマン・ホイットニーが適切です。デザインの文脈を考慮し、プロットを視覚的に確認し、単一の正規性検定のp値に分析戦略全体を委ねないでください。
誤解4:大サンプルであれば常にt検定が正当化される
事実: 大サンプルはt検定を中程度の非正規性に頑健にしますが、すべての問題を解消するわけではありません。重度の外れ値はn = 200以上でも平均値と標準偏差を歪めることがあります。データの5%が極端な値(測定エラーや別の下位集団からの値)で構成されている場合、サンプルサイズに関係なくt検定の平均値ベースの比較は誤解を招く可能性があります。また、大サンプルは測定の根本的な問題を解決しません — 変数が真に順序尺度であれば、1000の観測値でt検定を使うことがマン・ホイットニーを使うより適切になるわけではありません。
2つの検定が異なる結果を出す場合
データ分析で最も困惑する状況の1つは、同じデータに両方の検定を適用して矛盾する結論が得られること — 一方が有意で他方が非有意 — です。これは教科書が示唆するよりも頻繁に起こり、なぜ起こるかを理解すれば適切に対処できます。
不一致が生じる理由
最も一般的な原因は、効果が少なくとも一方の検定の検出閾値付近にあることです。t検定とマン・ホイットニーはデータの異なる側面(平均値 vs 順位分布)を評価するため、境界的な効果は一方の検定でのみ有意性の閾値を超えることがあります。その他の原因には:
- 外れ値がt検定を膨張/収縮させる。 少数の極端な値がt検定を有意方向に押したり非有意方向に押したりする一方、マン・ホイットニーはほとんど影響を受けません。
- 群間の分布の違い。 一方の群が歪んで他方が対称的な場合、2つの検定は実質的に異なる質問をしているため、異なる答えは驚くべきことではありません。
- 同順位がマン・ホイットニーの検出力を低下させる。 データに同一の値が多いと、順位の変動性が減少し、マン・ホイットニーの感度が低下することがあります。
対処法
- 両方の結果を透明に報告する。 両方の検定を実行した場合、両方の結果を報告してください。有意な方だけを選択的に報告するのはp-hackingの一形態です。
- 不一致について議論する。 データの特性(外れ値、歪み、同順位)に基づいて、なぜ検定が一致しないかを説明してください。
- データに合った検定を優先する。 正規性が違反されていればマン・ホイットニーの結果がより信頼できます。仮定が満たされていればt検定の結果がより重要です。
- 効果量に注目する。 p値が矛盾するメッセージを与える場合、効果量はより明確なストーリーを伝えることが多いです。境界的な有意性を持つ小から中程度の効果量は、単に研究がその効果を確定的に検出するのに十分な検出力を持っていなかったことを意味します。
- 感度分析を検討する。 外れ値の有無や異なる変換を適用して分析を行い、結論がどれほど頑健かを確認してください。
よくある質問(拡張版)
データがわずかに非正規でもt検定を使えますか?
はい。t検定は中程度の正規性違反に対して頑健です。特に1群あたりのサンプルサイズが30以上であれば、中心極限定理により平均値の標本分布は正規に近づきます。しかし、重度の歪み、重い裾、または小サンプル(n < 15)では、分布の形状に依存しないマン・ホイットニーU検定の方が適切です。
マン・ホイットニーU検定にはどの効果量を報告すべきですか?
順位双列相関rを報告してください。r = Z / sqrt(N)で計算し、Zは標準化された検定統計量、Nは全サンプルサイズです。解釈の基準はPearsonのrと同じです:.10は小さな効果、.30は中程度の効果、.50は大きな効果。共通言語効果量(CLES)を報告する研究者もおり、これは一方の群からランダムに選んだ観測値が他方の群の観測値を超える確率を表します。
マン・ホイットニーはウィルコクソン順位和検定と同じですか?
はい。マン・ホイットニーU検定とウィルコクソン順位和検定は、2つの独立した群を比較する数学的に等価な検定です。同じp値を産出し、同じ結論に至ります — 異なる検定統計量(U vs W)を使用するだけで、相互に変換可能です。これらをウィルコクソン符号順位検定(対応サンプル用の別の検定)と混同しないでください。
検定を選ぶ前に必ず正規性検定を行うべきですか?
必ずしもそうではありません。大サンプル(1群あたりn > 30)では、Shapiro-Wilkなどの正規性検定はt検定に実質的な影響がない些細な逸脱でも正規性を棄却することがよくあります。まず研究の文脈と測定尺度を考慮してください。Q-Qプロットとヒストグラムを視覚的に検査して、分布がおおよそ対称かどうかを評価してください。正規性検定のp値のみに頼るのではなく、データの全体的な形状、外れ値の有無、測定水準に基づいて判断してください。
マン・ホイットニーは同順位(タイ)を扱えますか?
はい、ただし同順位が多いと検出力が低下します。標準的なマン・ホイットニーの公式にはU統計量の分散を調整する同順位補正因子が含まれています。両群全体で15-20%以上の値が同順位の場合(離散データや粗い測定尺度で一般的)、検定の感度が低下します。この場合、同順位補正されたz統計量を報告し、同順位を減らすために測定を精密化できるか検討してください。
マン・ホイットニー検定に必要な最小サンプルサイズは?
意味のある結果を得るには、1群あたり最低5つの観測値が必要です。正規近似(z検定)が正確であるためには、1群あたり最低8-10が推奨されます。中程度の効果(r = .30)を検出するのに十分な統計的検出力を持つには、1群あたり最低20-30を目指してください。予想される効果量と望む検出力水準に合った正確なサンプルサイズは、検出力分析計算ツールを使用してください。
Welchのt検定はt検定とマン・ホイットニーの良い妥協案ですか?
Welchのt検定は1つの特定の仮定違反 — 不等分散 — に対処しますが、データがおおよそ正規分布していることは依然として仮定しています。分散が等しい場合にStudentのt検定と同等に機能し、等しくない場合にはより良く機能するため、優れたデフォルトの選択です。しかし、非正規性の問題は解決しません。分布の形状が懸念事項であれば、マン・ホイットニーが適切な選択として残ります。
順序データにマン・ホイットニーを使えますか?
はい。マン・ホイットニーU検定は生の値ではなく順位で操作するため、順序データに特に適しています。データポイント間の等間隔を仮定しないため、リッカート尺度項目、重症度評価、満足度ランキング、その他の順序カテゴリカル変数に適しています。実際、順序データはt検定よりマン・ホイットニーを選ぶ最も強い根拠の1つです。
よくある質問(従来版)
両方の検定を実行して、p値が小さい方を報告できますか?
いいえ。これはp-hackingの一形態であり、偽陽性率を膨張させます。データの特性に基づいて1つの検定を選択し、結果にかかわらずその結果を報告してください。
2つの検定が異なる結論を出した場合はどうすればよいですか?
境界的なデータで起こり得ます。t検定が有意でマン・ホイットニーが非有意(またはその逆)の場合、通常は効果が検出閾値に近いことを示しています。データに最も適切な検定の結果を報告し、不一致を考察で言及してください。
リッカート尺度のデータにt検定は適切ですか?
これは議論の的です。一部の研究者はリッカートデータを間隔尺度として扱いt検定を使用し、他の研究者は順序尺度であると主張しマン・ホイットニーを使用します。7件法以上で、データがおおよそ正規の場合、t検定はしばしば許容されます。3件法や5件法の尺度では、一般的にマン・ホイットニーがより安全です。
マン・ホイットニーの代わりにデータを変換すべきですか?
対数変換や平方根変換は歪んだデータを正規化し、t検定の使用を可能にします。これは有効なアプローチですが、比較対象が変わります(例:算術平均ではなく幾何平均)。変換がその分野で実質的に意味がある場合、良い選択肢となり得ます。
マン・ホイットニーは等しいサンプルサイズを必要としますか?
いいえ。マン・ホイットニーU検定は不均等な群サイズでも機能します。ただし、極端に不均等なサイズ(例:10 vs 100)は検定の感度に影響を与える可能性があります。可能な限りおおよそ均等な群を目指してください。
StatMateで両方を試す
StatMateを使えば、自分のデータで2つのアプローチを簡単に比較できます。t検定計算ツールとマン・ホイットニーU検定計算ツールに値を入力して、結果がどう比較されるか確認してください。両方の計算ツールには仮定の確認、効果量、APA形式の出力が含まれています。