Which normality test should I use: Shapiro-Wilk or Kolmogorov-Smirnov?

For most research purposes, use the Shapiro-Wilk test. It has greater statistical power than the Kolmogorov-Smirnov test for sample sizes up to 2,000, meaning it is better at detecting genuine departures from normality. The K-S test (with Lilliefors correction) is an acceptable alternative only when your sample exceeds 2,000 observations or when the Shapiro-Wilk test is not available in your software.

What sample size do I need for a reliable normality test?

There is no minimum sample size for running a normality test, but statistical power increases with sample size. With fewer than 20 observations, normality tests have very low power and may fail to detect substantial non-normality. With 20-100 observations, normality tests are most informative. Above 100, tests become overly sensitive and should be supplemented with effect-size measures such as skewness and kurtosis values.

Should I test normality on raw data or on residuals?

It depends on the analysis. For t-tests and ANOVA, test normality within each group separately — the assumption is that the dependent variable is normally distributed within each group. For regression, the normality assumption applies to the residuals, not the raw predictor or outcome variables.

What if the Shapiro-Wilk test is significant but the Q-Q plot looks normal?

This discrepancy typically occurs with large samples, where the Shapiro-Wilk test detects trivial deviations that have no practical consequence. In such cases, the visual evidence from the Q-Q plot is more informative than the p-value. Report both results, explain that the departure is negligible in magnitude, and proceed with parametric tests.

Can I use normality tests with ordinal or Likert-scale data?

Technically yes, but their interpretation is questionable for ordinal or Likert-scale data. Discrete data with limited response options will almost always fail a normality test because the data cannot form a smooth, continuous distribution. Focus instead on skewness and kurtosis values, and consider whether the total score across multiple items is approximately normal.

Do I need to test normality for every variable in my study?

No. Test normality only for variables involved in parametric analyses that assume it. For t-tests and ANOVA, check the dependent variable within each group. For regression, check the residuals. Independent variables in regression do not need to be normal. Testing every variable wastes time and inflates the risk of false positives from multiple testing.

How do I report normality results when I have many groups or variables?

Summarize the results rather than reporting each test individually. For example: Shapiro-Wilk tests confirmed that the dependent variable was normally distributed in all six groups (all Ws > .94, all ps > .10). Skewness values ranged from -0.42 to 0.67. If normality is violated in some groups, specify which and describe the nature of the violation.

Is there a normality test that works well for all sample sizes?

No single test is optimal across all sample sizes. The Shapiro-Wilk test offers the best overall performance for samples between 3 and 2,000. For very large samples, all formal tests become overly sensitive. The best approach for large samples is to combine visual methods (Q-Q plots, histograms) with descriptive measures of non-normality (skewness and kurtosis values).

正規性検定ガイド：Shapiro-Wilk vs Kolmogorov-Smirnov — いつ・どのように検定するか

統計学において正規性が重要な理由

最も一般的に使用される統計検定の多くはパラメトリック検定です。これらはデータが正規分布に従うことを仮定しています。この仮定が重大に侵害されると、結果が信頼できなくなる可能性があります。第1種の誤りの膨張、統計的検出力の低下、信頼区間の歪みなどが生じ得ます。

以下の検定はすべて何らかの形で正規性を仮定しています：

対応のあるt検定と対応のないt検定は、従属変数（または差の得点）が各群内で正規分布していることを仮定します。
一元配置分散分析と反復測定分散分析は、各群または条件内の残差の正規性を仮定します。
Pearson相関は、有意性検定のために二変量正規性を仮定します。
線形回帰は、残差が正規分布していることを仮定します。

正規性の仮定を侵害しても、分析が自動的に無効になるわけではありません。大標本では、中心極限定理が保護を提供します。しかし、小標本（nが30未満）では、非正規性が結果を意味のある形で歪める可能性があります。そのため、パラメトリック検定を実施する前に正規性を確認することは、量的研究におけるベストプラクティスとされています。

正規性を評価する方法

正規性を評価するための唯一の完璧な方法は存在しません。ベストプラクティスは、視覚的検査と統計的検定、記述的指標を組み合わせることです。各アプローチには長所と限界があります。

視覚的方法

ヒストグラムは、分布の形状をすばやく確認する手段を提供します。おおよそ釣鐘型で対称なヒストグラムは正規性を示唆します。ただし、ヒストグラムはビン幅に敏感で、小標本では誤解を招く可能性があります。

Q-Qプロット（分位数-分位数プロット）はより情報量が多い方法です。観測データの分位数を、正規分布のもとで期待される分位数に対してプロットします。データが正規であれば、点はおおよそ直線の対角線上に並びます。直線からの系統的な逸脱は、特定の種類の非正規性を明らかにします。

統計的検定

Shapiro-Wilk検定は、約2,000観測までのサンプルに対して最も広く推奨されている正規性検定です。さまざまな分布タイプにわたって強い統計的検出力を持っています。

Kolmogorov-Smirnov検定（Lilliefors修正付き）は、しばしばより大きなサンプルに対して使用される代替手法です。小〜中程度のサンプルにおける正規性からの逸脱の検出では、Shapiro-Wilk検定よりも検出力が低くなります。

記述的指標

歪度は、分布の非対称性を測定します。0の値は完全な対称を示します。正の歪度は右の裾が長いことを意味し、負の歪度は左の裾が長いことを意味します。

尖度は、正規分布に対する裾の厚さを測定します。正規分布の尖度は3（または超過尖度は0）です。値が大きいほど、裾が厚く外れ値が出やすいデータであることを示します。

正規性評価のための視覚的方法

視覚的検査は、あらゆる正規性評価の基礎です。統計的検定がはい/いいえの二値的な回答を提供するのに対し、グラフィカルな方法は分布逸脱の性質と深刻度を明らかにします。経験豊富な研究者は、特に非常に小さいまたは非常に大きいサンプルにおいて、正式な検定よりも視覚的方法をより信頼することが多いです。

ヒストグラム

ヒストグラムはデータ範囲をビンに分割し、各ビン内の観測頻度をプロットします。正規分布データの場合、ヒストグラムは対称的な釣鐘型曲線に似ているはずです。

解釈方法： おおよその対称性、中央付近の単一のピーク、徐々に細くなる裾を探します。一般的な逸脱には、複数のピーク（二峰性）、片側の長い裾（歪み）、明確なピークのない平坦な形状（一様分布）などがあります。

限界： ヒストグラムの外観はビンの数に大きく依存します。ビンが少なすぎると分布の形状が不明瞭になり、多すぎるとノイズの多い粗い外観になります。小標本（nが30未満）では、ランダム変動が形状を支配するため、ヒストグラムは信頼性が低いことが多いです。

APA報告： ヒストグラムは通常、統計量とともに正式に報告されるのではなく、本文中で参照されます。例：「ヒストグラムの視覚的検査は、わずかな正の歪みを伴うおおよそ正規分布を示唆した。」

Q-Qプロット

分位数-分位数（Q-Q）プロットは、正規性を評価するための最も診断的な視覚的ツールです。観測された順序値を、標準正規分布から期待される対応する値に対してプロットします。データが完全に正規であれば、すべての点は45度の参照線上に正確に位置します。

解釈方法： 個別の点ではなく、系統的なパターンに注目します。線の周りのランダムなばらつきは予想されるものです。一貫した曲率、裾の部分での屈曲、または線から逸脱する点のクラスターを探します。

APA報告： Q-Qプロットは、正式な検定結果とともに補助的な証拠として参照されることが多いです：

Q-Qプロットの視覚的検査により、参照線からの系統的な逸脱がなく、データがおおよそ正規分布していることが確認された。

箱ひげ図

箱ひげ図（ボックスプロット）は、中央値、四分位範囲、潜在的な外れ値を表示します。正規性の評価のために特別に設計されたものではありませんが、対称性と外れ値に関する迅速な情報を提供します。

解釈方法： 正規分布の場合、中央値の線は箱の中央に位置し、ひげはおおよそ等しい長さであるべきで、ひげの外側の外れ値の点はほとんどまたはまったくないはずです。非対称な箱ひげ図 — 中央値が一方の端に偏り、一方のひげが他方よりもはるかに長い場合 — は非正規性を示唆します。

実用的な活用： 箱ひげ図は、群間の分布を比較する際に最も有用です。一つの群が強く非対称な箱ひげ図を示す一方で他の群が対称的であれば、その特定の群に潜在的な正規性の問題があることを示唆します。

P-Pプロット

P-Pプロット（確率-確率プロット）はQ-Qプロットに類似していますが、分位数ではなく累積確率をプロットします。正規分布データの場合、点は対角線に沿って並びます。P-Pプロットは分布の中央部における逸脱に対してより敏感であり、Q-Qプロットは裾における逸脱に対してより敏感です。

使用すべき場合： P-Pプロットは公表された研究においてQ-Qプロットほど一般的ではありませんが、分布の中心部が正規性とどの程度一致するかを評価したい場合に有用です。裾の挙動（外れ値、厚い裾）が主な関心事であれば、Q-Qプロットを優先してください。

視覚的方法と統計的方法の組み合わせ

正規性評価のベストプラクティスは、視覚的方法と統計的方法を併用することです。単一の方法で完全な全体像を得ることはできません：

ヒストグラムから始めて、分布形状の大まかな感覚を得ます。
Q-Qプロットを検査して、逸脱の種類と位置に関する具体的な診断情報を得ます。
正式な検定を実施して（できればShapiro-Wilk）、定量的な測定を得ます。
歪度と尖度の値を確認して、非正規性の効果サイズ指標として活用します。

4つの指標がすべて一致すれば、正規性の評価に確信を持てます。一致しない場合 — 例えば、Shapiro-Wilk検定は有意だがQ-Qプロットはきれいな場合 — 視覚的証拠と歪度・尖度の実質的な大きさにより大きな重みを置いてください。

正規性のための統計的検定

統計的検定は、正規性に関する客観的で定量的な評価を提供します。ただし、各検定は異なる強みを持ち、検定の選択が重要になります。

Shapiro-Wilk検定

Shapiro-Wilk検定は、統計学の文献で最も推奨されている正規性検定です。すべての主要な統計ソフトウェアで利用可能であり、多くのプログラムでデフォルトの正規性検定となっています。

使用すべき場合

サンプルサイズが3から約2,000の場合にShapiro-Wilk検定を使用してください。ほとんどの研究シナリオ（卒業論文、学術誌論文、授業課題）では、この検定を使用すべきです。特に小標本における非正規性の検出において、Kolmogorov-Smirnov検定よりも検出力が高くなります。

解釈方法

検定は0から1の範囲の W 統計量を生成します。W 値が1に近いほど、データが正規分布に近いことを示します。値が低いほど、正規性からの逸脱が大きいことを示唆します。

判断基準は明快です：

p > .05 の場合、正規性の帰無仮説を棄却しません。データは正規分布と一致しています。
p ≤ .05 の場合、正規性を棄却します。データは正規分布から有意に逸脱しています。

具体的な例

25名の学生から試験得点を収集したとします。Shapiro-Wilk検定の結果、W = .964、p = .498 が得られました。p = .498 は .05 より大きいため、帰無仮説を棄却しません。データは正規性から有意に逸脱しておらず、t検定や分散分析などのパラメトリック検定を進めてよいことになります。

一方、W = .871、p = .005 という結果が得られた場合、有意な結果（p < .05）は、データが正規分布から意味のある形で逸脱していることを示します。

Kolmogorov-Smirnov検定

Kolmogorov-Smirnov（K-S）検定は、サンプル分布を理論的な正規分布と比較し、2つの累積分布関数間の最大絶対差を測定します。

使用すべき場合

K-S検定は、Shapiro-Wilk検定が利用できないような大きなサンプル（n > 2,000）に対して好まれることがあります。一部のソフトウェア、特にSPSSでは、探索的手続きにおいてShapiro-Wilk検定とともにK-S検定がデフォルトで報告されます。

限界

K-S検定は、小〜中程度のサンプルにおいてShapiro-Wilk検定よりも統計的検出力が著しく低いことが知られています。これは、正規性からの本当の逸脱を見逃す可能性が高いことを意味します。両方の検定が利用可能な場合、Shapiro-Wilk検定がほぼ常により良い選択です。

Lilliefors修正

標準的なK-S検定では、平均と標準偏差が事前に指定されていることが必要です。これらのパラメータがデータから推定される場合（実際にはほぼ常にそうです）、Lilliefors修正を適用する必要があります。この修正なしでは、検定は過度に保守的となり、非正規性を検出できなくなります。ほとんどの現代のソフトウェアはLilliefors修正を自動的に適用します。

Anderson-Darling検定

Anderson-Darling検定はK-S検定と類似していますが、分布の裾により大きな重みを置きます。これにより、極端な値における正規性からの逸脱に対してより敏感になり、裾が厚い分布や外れ値が出やすい分布の検出に特に重要です。

使用すべき場合： Anderson-Darling検定は、裾の挙動が重要な場合（例：金融データ、極値分析）にShapiro-Wilk検定の良い補完となります。R（nortestパッケージのad.test）、Python（scipy）、その他の統計ソフトウェアで利用可能です。

APA報告：

Anderson-Darling検定は、反応時間の分布が正規性から有意に逸脱していることを示した、A^2 = 1.84、p = .003。

D'Agostino-Pearson検定

D'Agostino-Pearsonオムニバス検定は、歪度と尖度を単一の検定統計量に統合します。標本の歪度と尖度が正規性のもとで期待される値から共同で異なるかどうかを評価します。

使用すべき場合： 非正規性が歪度または尖度（あるいはその両方）に起因すると疑われ、両方の側面を捉える単一の検定が必要な場合に特に有用です。最低20のサンプルサイズが必要で、n > 50の場合に最も検出力が高くなります。

APA報告：

D'Agostino-Pearsonオムニバス検定は、正規性からの有意な逸脱を示した、K^2 = 12.46、p = .002、正の歪度（z = 2.81）と超過尖度（z = 2.04）の両方を反映している。

正規性検定の比較

| 検定 | 最適な用途 | サンプルサイズ範囲 | 感度 | 検出力 | |---|---|---|---|---| | Shapiro-Wilk | 汎用 | 3〜2,000 | 全体的な形状 | 小〜中標本で最高 | | Kolmogorov-Smirnov（Lilliefors） | 大規模サンプル | すべて（2,000以上で最適） | 中心部の分布 | Shapiro-Wilkより低い | | Anderson-Darling | 裾の逸脱 | すべて | 裾の挙動 | 厚い裾の検出に優れる | | D'Agostino-Pearson | 歪度/尖度 | 20+（50以上で最適） | 歪度と尖度を個別に | 中程度 |

正規性検定におけるサンプルサイズの考慮事項

サンプルサイズは正規性検定の挙動に根本的な影響を与えます：

小標本（nが20未満）： すべての正規性検定の統計的検出力が低くなります。有意でない結果はデータが正規であることを意味しません — 検定が非正規性を検出する検出力が不足しているだけです。Q-Qプロットと主題に関する知識により大きく依存してください。
中程度の標本（n = 20〜100）： 正規性検定がこの範囲で最も有用です。意味のある逸脱を検出する合理的な検出力を持ちながら、些末な逸脱に過度に敏感ではありません。
大標本（n > 100）： 正規性検定は過度に敏感になります。些末で取るに足らない正規性からの逸脱でも有意な結果を生じます。この範囲では、p値よりも視覚的方法と非正規性の効果サイズの測定（例：歪度と尖度の値）に焦点を当ててください。

Q-Qプロットの解釈

Q-Qプロット（分位数-分位数プロット）は、正規性を評価するための最も有用な視覚的ツールの一つです。Q-Qプロットの読み方を身につけると、統計的検定だけでは十分に特徴づけられない分布上の問題を診断する能力が向上します。

正規なQ-Qプロットの見え方

データが正規分布している場合、Q-Qプロット上の点は対角の参照線に沿って密接に並びます。線の周りの軽微なランダムなばらつきは予想されるものであり、非正規性を示すものではありません。重要なのは、系統的な逸脱パターンを探すことです。

よくあるパターン

| Q-Qプロットのパターン | 解釈 | |---------------------|------| | 点が線に沿って密接に並ぶ | データはほぼ正規分布している | | 両端が線から離れる（S字型） | 裾が厚い（尖鋭）または裾が薄い（扁平） | | 右端で点が線の上方に曲がる | 右（正の）歪み | | 左端で点が線の下方に曲がる | 左（負の）歪み | | 1〜2点が線から大きく離れている | 外れ値の可能性 | | 階段状・ステップパターン | データが離散的またはまるめられている可能性 |

Q-Qプロットは p 値だけでは得られない診断情報を提供します。例えば、非正規性が歪み、厚い裾、外れ値、または分布の混合のいずれによって引き起こされているかを明らかにできます。この情報は問題への対処法を決定する際に有用です。

歪度と尖度の指針

歪度と尖度の値は、分布の形状に関する数値的な要約を提供します。計算が簡便で、視覚的・正式な検定を補完できます。

よく使われる経験則

文献にはいくつかの指針が存在します。最も一般的に引用される閾値は以下のとおりです：

| 指標 | 許容範囲 | 出典 | |------|---------|------| | 歪度 | 絶対値が2未満 | West, Finch, & Curran（1995） | | 尖度（超過） | 絶対値が7未満 | West, Finch, & Curran（1995） | | 歪度（より厳格） | 絶対値が1未満 | 実務で一般的に使用 | | 尖度（より厳格） | 絶対値が3未満 | 実務で一般的に使用 |

歪度と尖度をそれぞれの標準誤差で割ってz得点を計算する研究者もいます。.05水準で絶対値が1.96を超えるz得点は有意な非正規性を示唆します。ただし、このアプローチは大標本では過度に敏感になります。

実践的アドバイス

歪度と尖度は、正式な正規性検定と視覚的検査の補完として使用してください。代替とするのではありません。中程度の違反（歪度が約1、尖度が約3）は、中心極限定理のおかげで、サンプルサイズが30を超える場合にはしばしば許容されます。

正規性検定をAPA形式で報告する方法

結果セクションで正規性の評価を報告することは、透明性を高め、方法論的な厳密さを示します。以下は、2つの主要な正規性検定をAPA形式でフォーマットする方法です。

Shapiro-Wilk検定の報告

Shapiro-Wilk検定は、試験得点が正規分布していることを示しました、W(25) = .964、p = .498。

Shapiro-Wilk検定は、反応時間に正規性からの有意な逸脱を明らかにしました、W(42) = .871、p = .005。

Kolmogorov-Smirnov検定の報告

Lilliefors修正付きKolmogorov-Smirnov検定は、不安得点の分布が正規分布から有意に異ならないことを示しました、D(150) = .054、p = .200。

Kolmogorov-Smirnov検定は、収入データに有意な非正規性を示しました、D(500) = .112、p < .001。

完全な報告例

方法セクションまたは結果セクションでは、以下のように記述できます：

主分析に先立ち、従属変数の正規性をShapiro-Wilk検定とQ-Qプロットの視覚的検査により評価しました。統制群、W(28) = .957、p = .302、および実験群、W(30) = .971、p = .563 のいずれにおいても、試験得点は正規分布していました。歪度の値は許容範囲内でした（統制群：-0.34；実験群：0.21）。したがって、対応のないt検定を実施しました。

使用した正規性検定、サンプルサイズ、検定結果を常に明記してください。査読者はこの水準の詳細を期待しています。

正規性の侵害が問題とならない場合

すべての正規性の侵害が対応を必要とするわけではありません。非正規性にもかかわらずパラメトリック検定が有効である場合を理解することで、分析における不必要な複雑さを防ぎ、ノンパラメトリック代替手法への切り替えに伴う統計的検出力の損失を回避できます。

中心極限定理

**中心極限定理（CLT）**は、正規性の侵害がしばしば問題とならない最も重要な単一の理由です。CLTは、サンプルサイズが増加するにつれて、母集団分布の形状に関係なく、平均値の標本分布が正規性に近づくことを述べています。これは、平均に基づくパラメトリック検定（t検定、分散分析、回帰）の p 値が、生データが正規でなくても、サンプルが大きくなるにつれてますます正確になることを意味します。

実用的な閾値：

群あたり n > 30： CLTは、大部分の対称的またはわずかに歪んだ分布に対して合理的な保護を提供します。
群あたり n > 50： パラメトリック検定は、かなりの歪みと中程度の尖度に対してロバストです。
群あたり n > 100： 強く歪んだ分布でも、平均に基づく検定で信頼性のある p 値を生成します。

t検定と分散分析のロバスト性

数十年にわたるシミュレーション研究により、t検定と分散分析は特定の条件下で正規性の侵害に対して驚くほどロバストであることが実証されています：

等しい群サイズ： 群の n がおおよそ等しい場合、t検定と分散分析の両方とも、かなりの非正規性のもとでも正確な第1種の誤り率を維持します。これはロバスト性にとって最も重要な単一の要因です。
対称分布： 検定は歪みよりも厚い裾（超過尖度）に対してよりロバストです。対称的な非正規分布が問題を引き起こすことはまれです。
両側検定： 両側検定は片側検定よりもロバストです。両方の裾の誤差が相殺される傾向があるためです。

非正規性が問題となる場合： 小標本（群あたり nが15未満）、強く歪んだ分布（歪度が2を超える）、不等な群サイズと不等な分散の組み合わせ、片側検定が、正規性の侵害がパラメトリック結果の妥当性に最も影響を及ぼす状況です。

回帰と相関

回帰分析における正規性の仮定は、予測変数や結果変数そのものではなく、残差に適用されます。よくある誤解は、モデルを適合する前に生の変数の正規性を検定することです。XとYの両方が非正規であっても、残差は完全に正規であり得ます。逆に、正規分布する変数であっても、モデルが誤って指定されていれば非正規の残差を生成することがあります。

Pearson相関の場合、仮定は二変量正規性であり、これは正確な有意性検定のために必要です。しかし、n > 30の場合、Pearsonの r に対する有意性検定は二変量正規性からの中程度の逸脱に対してロバストです。重度に非正規なデータや小標本では、代わりにSpearmanの順位相関を使用してください。

「実質的有意性」の視点

一部の方法論者は、質問は「データは正規か？」ではなく「データは分析が有効であるために十分に正規か？」であるべきだと主張しています。この再構成は、完全な正規性の達成から、非正規性の程度が結果を意味のある形で歪めるのに十分かどうかの評価へと焦点を移します。この視点では、統計的検定よりも歪度、尖度の実質的な評価と視覚的検査に重点が置かれます。

分布タイプ別の安全なサンプルサイズ

| 分布の形状 | 安全な群あたりn | 推奨 | |---|---|---| | 対称、軽い裾 | 10-15 | パラメトリック検定は安全 | | 対称、重い裾 | 20-30 | パラメトリック検定は通常安全 | | 軽度の歪み（1未満） | 30-40 | CLTが適切な保護を提供 | | 中程度の歪み（1-2） | 50-100 | パラメトリック検定を慎重に使用；感度検定を報告 | | 重度の歪み（2を超える） | 100+またはノンパラメトリック | 変換またはノンパラメトリック代替を検討 |

データが正規でない場合の対処法

非正規性を検出することは最初のステップに過ぎません。それに対処する戦略が必要です。主に3つのアプローチがあり、選択は侵害の性質と深刻度に依存します。

データ変換

データ変換により、歪んだ分布を正規化できる場合があります。一般的な変換には以下があります：

対数変換（Y' = ln(Y)）-- フロア効果のある右に歪んだデータ（例：反応時間、収入、生物学的濃度）に効果的。すべての値が正でなければなりません；ゼロがある場合は定数を加えてください。
平方根変換（Y' = sqrt(Y)）-- 中程度に右に歪んだカウントデータに有用。対数変換よりも穏やかで、ゼロを保持します。
Box-Cox変換 -- 最大尤度法を使用して最適な正規化変換を見つけるべき乗変換の族。パラメータlambdaが特定の変換を決定します（lambda = 0は対数、lambda = 0.5は平方根）。
逆数変換（Y' = 1/Y）-- 強く右に歪んだデータに有用ですが、値の順序を逆転させ、ゼロを扱えません。

変換後、変換された変数に対して正規性検定を再実行してください。変換が成功すれば、変換されたデータでパラメトリック検定を分析できます。ただし、結果は変換されたスケール上にあるため、解釈の直感性が低下します。

変換データのAPA報告：

反応時間データの有意な正の歪み（歪度 = 2.14）のため、自然対数変換を適用した。変換された変数は正規性の仮定を満たした、W(45) = .972、p = .348。以降のすべての分析は対数変換されたデータに対して実施した。

ノンパラメトリック代替手法を使用する

変換が効果的でない場合や適切でない場合は、正規性を仮定しないノンパラメトリック検定に切り替えてください：

| パラメトリック検定 | ノンパラメトリック代替 | |-----------------|-------------------| | 対応のないt検定 | Mann-Whitney U検定 | | 対応のあるt検定 | Wilcoxon符号順位検定 | | 一元配置分散分析 | Kruskal-Wallis H検定 | | 反復測定分散分析 | Friedman検定 |

ノンパラメトリック検定は生の値ではなく順位を使用するため、分布の仮定の侵害に対してロバストです。トレードオフとして、正規性の仮定が実際に成り立つ場合に統計的検出力がわずかに低下します — 中程度のサンプルサイズで通常約5-15%の検出力の損失があります。

変換とノンパラメトリック検定の選択

変換とノンパラメトリック代替の間の決定はいくつかの要因に依存します：

変換を使用する場合： 変換されたスケールが自然な解釈を持つ（例：対数変換された反応時間）、変換がデータを効果的に正規化する、または平均と信頼区間を推定する能力を維持する必要がある場合。
ノンパラメトリック検定を使用する場合： どの変換もデータを正規化しない、研究の問いが平均ではなく中央値や順位に関するものである、またはデータに除去すべきではないが結果を左右すべきでもない真の外れ値が含まれている場合。
両方を報告する場合： どちらのアプローチがより適切か不確実な場合。パラメトリック分析とノンパラメトリック分析が同じ結論を導けば、結果への信頼が強化されます。一致しない場合は、非正規データに対してはノンパラメトリックの結果の方が一般的に信頼性が高いです。

ブートストラップ法

ブートストラップ法は、正規性も順位に基づく統計量も必要としない現代的な代替手法を提供します。ブートストラップは元のデータから数千の再標本データセットを生成し、検定統計量の経験的分布を使用して p 値と信頼区間を導出します。

利点： ブートストラップはあらゆる分布形状で機能し、元の測定スケールを保持し、ほぼすべての統計量に適用できます。査読付き学術誌でますます受け入れられており、APAでも推奨されています。

APA報告：

正規性の仮定が侵害されたため、ブートストラップ信頼区間（10,000サンプル、バイアス修正加速法）を算出した。群間の平均差は4.72であった、95% BCa CI [2.15, 7.84]、p = .003。

パラメトリック検定を続行する（大標本の場合）

中心極限定理は、十分に大きなサンプルでは、母集団の分布に関係なく、平均値の標本分布が正規性に近づくことを述べています。一般的な指針として：

群あたり n > 30 の場合、中程度の非正規性は通常許容されます。
群あたり n > 50 の場合、パラメトリック検定はほとんどの正規性からの逸脱に対してロバストです。
非常に大きなサンプル（n > 100）の場合、正規性検定は結果に実質的な影響を与えない些末な逸脱により棄却されることがあります。

非正規性にもかかわらず続行する場合は、論文中でこの点に言及し、感度分析としてパラメトリックとノンパラメトリックの両方の結果を報告することを検討してください。

よくある間違い

大標本での検定への過度な依存

Shapiro-Wilkの p 値は、正規性からの逸脱が統計的に有意かどうかを教えてくれますが、逸脱がどの程度深刻かは教えてくれません。大標本（n > 200）では、些末で無視してよい逸脱でも有意な結果を生じます。500個の観測値で歪度が0.15のデータセットでは、Shapiro-Wilk検定はしばしば有意になりますが、このレベルの非正規性はパラメトリック検定の妥当性に事実上影響を及ぼしません。正式な検定は常にヒストグラムとQ-Qプロットの視覚的検査と組み合わせ、歪度と尖度の値を非正規性の効果サイズ指標として評価してください。

視覚的方法の無視

ヒストグラムやQ-Qプロットを検査せずにShapiro-Wilkの p 値のみを報告する研究者がいます。これは問題があります。p 値は非正規性の性質を明らかにしないからです。侵害が歪み、厚い裾、外れ値、二峰性のいずれによるものかを知ることは、適切な対策を選択するために不可欠です。Q-Qプロットの生成には数秒しかかからず、単一の検定統計量よりもはるかに多くの診断情報を提供します。

Shapiro-Wilkがより適切な場合にK-Sを使用する

Kolmogorov-Smirnov検定は、小〜中程度のサンプルにおいてShapiro-Wilk検定よりも検出力が低くなります。サンプルサイズが2,000未満で両方の検定が利用可能な場合は、Shapiro-Wilkを選択してください。Shapiro-Wilkが利用可能であるにもかかわらず、30名のサンプルに対してK-Sを報告すると、検定選択について査読者から懸念が生じる可能性があります。

「正規性を棄却しない」ことと「データが正規である」ことを混同する

有意でないShapiro-Wilkの結果（p > .05）は、正規性に対する証拠が見つからなかったことを意味します。データが正規分布していることの証明ではありません。この区別は、検定が正規性からの逸脱を検出する検出力が限られている小標本で特に重要です。

正当化なしの変換

理由を説明せずに対数変換や平方根変換を適用することは、よくある方法論的誤りです。変換はデータの性質（例：反応時間は対数正規分布に従うことが知られている）や観察された非正規性の特定のパターンによって正当化されるべきです。常に根拠、適用した特定の変換、変換されたデータが正規性の仮定を満たすかどうかを報告してください。複数の変換を試みて「うまくいった」もののみを報告し、他のものを開示しないことは避けてください。

使用した検定を報告しない

使用した検定、サンプルサイズ、結果を明記せずに単に「データは正規分布していた」と書くのは不十分です。査読者と読者は、自ら証拠を評価する必要があります。常に検定名、検定統計量、サンプルサイズ、p 値を報告してください。

ソフトウェア別の正規性検定

統計ソフトウェアによって提供される正規性検定のオプションは異なります。クイックリファレンスを以下に示します：

SPSS： 探索的手続き（分析 > 記述統計 > 探索的）は、Shapiro-Wilk検定とKolmogorov-Smirnov検定を自動的に報告し、Q-Qプロットおよび歪度・尖度を含む記述統計も提供します。「プロット」ボタンをクリックし、「検定を含む正規性プロット」を選択してください。

R： Shapiro-Wilk検定にはshapiro.test(x)を使用します。Q-Qプロットにはqqnorm(x)の後にqqline(x)を使用します。nortestパッケージにはAnderson-Darling（ad.test）およびその他の正規性検定が含まれています。包括的な正規性評価のために、ggpubrパッケージのggqqplot()が信頼帯付きのプロットを提供します。

Python： Shapiro-Wilkにはscipy.stats.shapiro(x)、K-Sにはscipy.stats.kstest(x, 'norm')を使用します。Q-Qプロットにはscipy.stats.probplot(x, plot=plt)またはstatsmodels.graphics.gofplots.qqplot()を使用します。

StatMate： 正規性検定はすべてのパラメトリック計算機に組み込まれています。データを入力するだけで、各群に対してShapiro-Wilk検定が自動的に実行され、結果がAPA形式の出力に含まれます。

ステップバイステップの意思決定ガイド

正規性の問題に直面した場合、以下の体系的なプロセスに従ってください：

ステップ1：何が正規である必要があるかを特定する。 仮定が生データ（t検定、分散分析の各群）に適用されるか、残差（回帰）に適用されるかを確認します。正しい変数を検定してください。

ステップ2：視覚的に評価する。 Q-Qプロットとヒストグラムを作成します。系統的なパターンを探します：歪み、厚い裾、外れ値、多峰性。

ステップ3：正式な検定を実施する。 nが2,000未満の場合はShapiro-Wilkを使用します。W 統計量と p 値を記録します。

ステップ4：歪度と尖度を確認する。 West, Finch, and Curran（1995）の閾値（歪度が2未満、尖度が7未満）と値を比較します。

ステップ5：サンプルサイズを考慮する。 群あたり n > 50の場合、中程度の非正規性はパラメトリック検定の妥当性に影響を与える可能性が低いです。n < 15の場合、視覚的方法でさえ信頼性が低い可能性があります — ノンパラメトリック検定をデフォルトとして検討してください。

ステップ6：戦略を選択する。 正規性が満たされている場合、パラメトリック検定を進めます。侵害されている場合、侵害の深刻度と性質に基づいて、変換、ノンパラメトリック代替、またはブートストラップのいずれかを決定します。

ステップ7：透明に報告する。 どの検定を使用したか、結果、および選択した分析戦略で進めた根拠を文書化します。

よくある質問

Shapiro-WilkとKolmogorov-Smirnovのどちらの正規性検定を使用すべきですか？

ほとんどの研究目的では、Shapiro-Wilk検定を使用してください。2,000以下のサンプルサイズにおいてKolmogorov-Smirnov検定よりも高い統計的検出力を持ち、正規性からの真の逸脱をより良く検出できることを意味します。K-S検定（Lilliefors修正付き）は、サンプルが2,000観測を超える場合やソフトウェアでShapiro-Wilk検定が利用できない場合にのみ許容される代替手法です。

信頼性のある正規性検定にはどの程度のサンプルサイズが必要ですか？

正規性検定を実施するための最低サンプルサイズはありませんが、検定の統計的検出力はサンプルサイズとともに増加します。20未満の観測では、正規性検定の検出力が非常に低く、かなりの非正規性を検出できない場合があります。この範囲では、Q-Qプロットと変数の分布に関する理論的期待に主に依存してください。20〜100の観測では、正規性検定が最も有用です。100を超えると、検定は過度に敏感になるため、効果サイズの測定（歪度、尖度）で補完する必要があります。

生データで正規性を検定すべきですか、それとも残差で検定すべきですか？

分析によって異なります。t検定と分散分析の場合、各群内で個別に正規性を検定します — 仮定は従属変数が各群内で正規分布していることです。回帰の場合、正規性の仮定は生の予測変数や結果変数ではなく残差に適用されます。関連する仮定がモデル適合後の残差に関するものであるのに、生の結果変数の正規性を検定することはよくある間違いです。

Shapiro-Wilk検定は有意だがQ-Qプロットは正規に見える場合はどうすればよいですか？

この不一致は通常、大標本で発生し、Shapiro-Wilk検定が実質的な結果のない些末な逸脱を検出する場合です。このような場合、Q-Qプロットからの視覚的証拠が p 値よりも有益です。両方の結果を報告し、正規性からの逸脱は統計的に有意であるが、その大きさは無視できる程度であると説明してください。パラメトリック検定を進めてよいでしょう。

順序尺度やリッカート尺度のデータに正規性検定を使用できますか？

技術的には、正規性検定はあらゆる数値データに適用できますが、順序尺度やリッカート尺度のデータに対する解釈は疑問があります。限られた応答選択肢（例：5段階リッカート尺度）を持つ離散データは、滑らかで連続的な分布を形成できないため、ほぼ常に正規性検定に不合格となります。リッカート尺度データの場合、分布の歪度と尖度に注目し、ほとんどの分析により関連する合計得点（複数項目の合計）がおおよそ正規かどうかを検討してください。

研究のすべての変数に対して正規性を検定する必要がありますか？

いいえ。正規性を仮定するパラメトリック分析に関係する変数についてのみ正規性を検定してください。t検定と分散分析の場合、各群内の従属変数を確認します。回帰の場合、残差を確認します。回帰における独立変数は正規である必要はありません。カテゴリカル変数は当然免除されます。すべての変数を検定することは時間の無駄であり、多重検定による偽陽性のリスクを増大させます。

多くの群や変数がある場合、正規性の結果をどのように報告すればよいですか？

多くの群にわたって正規性を検定する場合、各検定を個別に報告するのではなく、結果を要約してください。例：「Shapiro-Wilk検定により、従属変数がすべての6群で正規分布していることが確認された（すべての W > .94、すべての p > .10）。歪度の値は-0.42から0.67の範囲であった。」一部の群でのみ正規性が侵害された場合は、どの群が非正規性を示したかを明記し、侵害の性質を記述してください。

すべてのサンプルサイズでうまく機能する正規性検定はありますか？

すべてのサンプルサイズで最適な単一の検定は存在しません。Shapiro-Wilk検定は、3から2,000のサンプルに対して最も優れた全体的な性能を提供します。非常に大きなサンプルの場合、すべての検定が過度に敏感になるため、正式な検定として理想的なものはありません。大標本に対する最善のアプローチは、視覚的方法（Q-Qプロット、ヒストグラム）を非正規性の記述的測定（歪度と尖度の値）と組み合わせ、West, Finch, and Curran（1995）の閾値を指針として使用することです。

StatMateで正規性を確認する

StatMateは、t検定、分散分析、その他のパラメトリック計算機にShapiro-Wilk正規性チェックを組み込んでいます。データを入力すると、StatMateは自動的に正規性の仮定チェックを実行し、各群の W 統計量と p 値を表示します。

正規性の仮定が侵害された場合、StatMateは適切なノンパラメトリック代替手法を推奨し、対応する計算機への直接リンクを提供します。例えば、対応のないt検定を実行してShapiro-Wilk検定が有意であった場合、StatMateはMann-Whitney U検定への切り替えを提案します。

すべての正規性検定の結果は、APA形式の出力、PDFエクスポート、Wordエクスポートに含まれているため、論文に直接貼り付けることができます。statmate.orgの無料t検定計算機または分散分析計算機で、仮定チェックの実際の動作をお確かめください。

統計学において正規性が重要な理由

正規性を評価する方法

視覚的方法

統計的検定

記述的指標

正規性評価のための視覚的方法

ヒストグラム

Q-Qプロット

箱ひげ図

P-Pプロット

視覚的方法と統計的方法の組み合わせ

正規性のための統計的検定

Shapiro-Wilk検定

使用すべき場合

解釈方法

具体的な例

Kolmogorov-Smirnov検定

使用すべき場合

限界

Lilliefors修正

Anderson-Darling検定

D'Agostino-Pearson検定

正規性検定の比較

正規性検定におけるサンプルサイズの考慮事項

Q-Qプロットの解釈

正規なQ-Qプロットの見え方

よくあるパターン

歪度と尖度の指針

よく使われる経験則

実践的アドバイス

正規性検定をAPA形式で報告する方法

Shapiro-Wilk検定の報告

Kolmogorov-Smirnov検定の報告

完全な報告例

正規性の侵害が問題とならない場合

中心極限定理

t検定と分散分析のロバスト性

回帰と相関

「実質的有意性」の視点

分布タイプ別の安全なサンプルサイズ

データが正規でない場合の対処法

データ変換

ノンパラメトリック代替手法を使用する

変換とノンパラメトリック検定の選択

ブートストラップ法

パラメトリック検定を続行する（大標本の場合）

よくある間違い

大標本での検定への過度な依存

視覚的方法の無視

Shapiro-Wilkがより適切な場合にK-Sを使用する

「正規性を棄却しない」ことと「データが正規である」ことを混同する

正当化なしの変換

使用した検定を報告しない

ソフトウェア別の正規性検定

ステップバイステップの意思決定ガイド

よくある質問

Shapiro-WilkとKolmogorov-Smirnovのどちらの正規性検定を使用すべきですか？

信頼性のある正規性検定にはどの程度のサンプルサイズが必要ですか？

生データで正規性を検定すべきですか、それとも残差で検定すべきですか？

Shapiro-Wilk検定は有意だがQ-Qプロットは正規に見える場合はどうすればよいですか？

順序尺度やリッカート尺度のデータに正規性検定を使用できますか？

研究のすべての変数に対して正規性を検定する必要がありますか？

多くの群や変数がある場合、正規性の結果をどのように報告すればよいですか？

すべてのサンプルサイズでうまく機能する正規性検定はありますか？

StatMateで正規性を確認する

今すぐ計算してみましょう

統計のヒントを受け取る