What is the correct APA format for reporting a Friedman test?

The standard format is: chi-sq(df) = X.XX, p = .XXX, W = .XX. For example: chi-sq(2) = 18.42, p < .001, W = .37. Include descriptive statistics with medians and IQRs, the justification for choosing a nonparametric test, and post-hoc comparisons when the omnibus test is significant.

What is Kendall's W and how do I interpret it?

Kendall's W (coefficient of concordance) measures the degree of agreement in rankings across participants. It ranges from 0 (no agreement) to 1 (perfect agreement). Benchmarks: .10 = small effect, .30 = medium effect, .50 = large effect. Calculate it as W = chi-sq / (N * (k - 1)), where N is the number of participants and k is the number of conditions.

Which post-hoc test should I use after a significant Friedman test?

Pairwise Wilcoxon signed-rank tests with Bonferroni correction are the most commonly used approach. They provide individual effect sizes (r) for each comparison. The Nemenyi test is an alternative that uses the original Friedman rankings and is less conservative with many groups. The Conover test offers maximum power but is less widely known.

What is the difference between the Friedman test and Kruskal-Wallis test?

The Friedman test compares three or more related groups (same participants across conditions), making it the nonparametric equivalent of repeated measures ANOVA. The Kruskal-Wallis test compares three or more independent groups (different participants), making it the nonparametric equivalent of one-way between-subjects ANOVA.

What sample size do I need for a Friedman test?

There is no strict minimum, but at least 6-8 participants are needed for reasonable power. For adequate power (.80) to detect a medium effect (W = .30) with three conditions, aim for approximately 20-25 participants. Power increases with both sample size and the number of conditions.

Friedman検定をAPA第7版で報告する方法 — 効果量・事後検定・報告例

Q: What is Kendall's W and how do I interpret it?

Kendall's W (coefficient of concordance) measures the degree of agreement in rankings across participants. It ranges from 0 (no agreement) to 1 (perfect agreement). Benchmarks: .10 = small effect, .30 = medium effect, .50 = large effect. Calculate it as W = chi-sq / (N * (k - 1)), where N is the number of participants and k is the number of conditions.

Q: Which post-hoc test should I use after a significant Friedman test?

Pairwise Wilcoxon signed-rank tests with Bonferroni correction are the most commonly used approach. They provide individual effect sizes (r) for each comparison. The Nemenyi test is an alternative that uses the original Friedman rankings and is less conservative with many groups. The Conover test offers maximum power but is less widely known.

Q: What is the difference between the Friedman test and Kruskal-Wallis test?

The Friedman test compares three or more related groups (same participants across conditions), making it the nonparametric equivalent of repeated measures ANOVA. The Kruskal-Wallis test compares three or more independent groups (different participants), making it the nonparametric equivalent of one-way between-subjects ANOVA.

Q: What sample size do I need for a Friedman test?

There is no strict minimum, but at least 6-8 participants are needed for reasonable power. For adequate power (.80) to detect a medium effect (W = .30) with three conditions, aim for approximately 20-25 participants. Power increases with both sample size and the number of conditions.

Friedman検定と反復測定分散分析の使い分け

Friedman検定は、一元配置反復測定分散分析のノンパラメトリック代替法です。3つ以上の関連群（同一の参加者が複数の条件または時点で測定される）を比較し、データが正規分布していることや等間隔尺度で測定されていることを要求しません。

以下のいずれかに該当する場合、Friedman検定を選択してください：

順序従属変数。 結果がリッカート型評定、選好順位、重症度カテゴリなどの順序尺度で測定されている。反復測定分散分析は等間隔またはそれ以上のデータを要求します；Friedman検定は順位で機能します。
非正規分布。 残差のShapiro-Wilk検定が有意であるか、Q-Qプロットが条件内で正規性からの深刻な逸脱を示している。反復測定分散分析は非正規性に対して中程度に頑健ですが、重度の違反（歪度、重い裾、床/天井効果）にはFriedman検定が妥当です。
小さいサンプルサイズ。 参加者が15〜20人未満の場合、正規性の仮定を検証するのが困難であり、中心極限定理による保護も限定的です。
球面性の違反。 Greenhouse-GeisserやHuynh-Feldt修正が反復測定分散分析の球面性違反に対処できる一方、Friedman検定は各参加者内で順位付けを行うため、この問題を完全に回避します。

Friedman検定は、各参加者内で条件間のスコアを順位付けし、条件間の順位和を比較することで機能します。ある条件が一貫してより高いスコアを産出する場合、その平均順位は他の条件よりも顕著に高くなります。

統計的検出力の比較

完全な正規性と球面性のもとでは、反復測定分散分析はFriedman検定よりも高い統計的検出力を持ちます。3条件の場合の漸近的相対効率はおよそ0.955であり、Friedman検定では同じ検出力を達成するために約5%多くの参加者が必要であることを意味します。しかし、正規性や球面性が違反されている場合、Friedman検定は極端な値や違反された仮定によって歪められないため、反復測定分散分析を上回る可能性があります。

| 判断要因 | 反復測定分散分析 | Friedman検定 | |---------|----------------|-------------| | 正規分布のデータ | はい | どちらでも | | 順序測定尺度 | — | はい | | 非正規分布 | — | はい | | 球面性の仮定が満たされている | はい | 不要 | | サンプルサイズ > 20、軽度の違反 | はい（修正付き） | どちらでも | | サンプルサイズ < 15、正規性が不確か | — | はい |

Friedman検定計算ツールで試してみてください。

APA報告テンプレート

APA第7版は、すべての推測統計検定に対して検定統計量、自由度、p値、効果量の測定を要求しています。Friedman検定はカイ二乗近似を使用するため、標準形式は以下の通りです：

A Friedman test indicated a statistically significant difference in [結果変数] across the [数] conditions, χ²(k - 1) = X.XX, p = .XXX, W = .XX.

必須要素

すべてのFriedman検定の報告には以下を含める必要があります：

完全な検定名：初出時に（Friedman検定）
参加者数（N）と条件数（k）
記述統計量： 各条件の中央値とIQR（または平均順位）
検定統計量： 自由度（k - 1）付きのカイ二乗値
正確なp値（または p < .001）
効果量： Kendallの W
事後比較： オムニバス検定が有意な場合

有意な結果のテンプレート

A Friedman test showed a statistically significant difference in pain ratings across the three treatment conditions (N = 25), χ²(2) = 18.42, p < .001, W = .37. Median pain ratings were 7.00 (IQR = 6.00-8.00) for placebo, 5.00 (IQR = 3.00-6.00) for low-dose, and 3.00 (IQR = 2.00-5.00) for high-dose.

非有意な結果のテンプレート

A Friedman test did not reveal a statistically significant difference in satisfaction ratings across the three time points (N = 30), χ²(2) = 3.24, p = .198, W = .05. Median satisfaction ratings were similar at baseline (Mdn = 4.00), 6 weeks (Mdn = 4.00), and 12 weeks (Mdn = 5.00).

Kendallの W 効果量

Friedman検定の標準的な効果量は、Kendallの一致係数（W）であり、参加者間の順位付けの一致度または一貫性を測定します。

Kendallの W の算出方法

W = χ²_Friedman / (N × (k - 1))

ここで N は参加者数、k は条件数です。

例： χ² = 18.42、N = 25、k = 3の場合：

W = 18.42 / (25 × 2) = 18.42 / 50 = 0.37

Kendallの W の解釈

Kendallの W は0から1の範囲をとります：

| W 値 | 解釈 | |--------|------| | .00 | 一致なし；順位付けはランダム | | .10 | 小さい効果 | | .30 | 中程度の効果 | | .50 | 大きい効果 | | 1.00 | 完全な一致；全参加者が同一に条件を順位付け |

これらの基準はCohenの慣例にほぼ対応しています。上の例の W = .37は中〜大程度の効果を表し、参加者が3つの処置条件をどのように順位付けしたかにおいて、かなりの一貫性があることを示しています。

APA形式での効果量報告

p値の直後に効果量を報告してください：

χ²(2) = 18.42, p < .001, W = .37

明示的にしたい場合：

χ²(2) = 18.42, p < .001, Kendall's W = .37

ステップバイステップの報告例

シナリオ

理学療法士が25名の患者における痛みの水準（0-10数値評価尺度）を3つの条件で評価します：無治療（ベースライン）、標準的な理学療法プロトコル、実験的な電気刺激プロトコル。25名全員がウォッシュアウト期間を挟んでランダム化された順序で3つの条件すべてを経験します。

ステップ1：記述統計量の報告

各条件の中央値と四分位範囲を提示します：

| 条件 | Mdn | IQR | 平均順位 | |------|-------|-----|---------| | 無治療 | 7.00 | 6.00-8.00 | 2.68 | | 標準PT | 5.00 | 3.00-6.00 | 1.92 | | 電気刺激 | 3.00 | 2.00-5.00 | 1.40 |

疼痛評定の中央値は、無治療条件で7.00（IQR = 6.00-8.00）、標準的な理学療法条件で5.00（IQR = 3.00-6.00）、電気刺激条件で3.00（IQR = 2.00-5.00）であった。

ステップ2：ノンパラメトリック検定の選択を正当化する

疼痛は上限のある順序的尺度で測定され、電気刺激条件において顕著な床効果が認められ、かつShapiro-Wilk検定が3条件中2条件で非正規性を示した（ともに p < .01）ため、反復測定分散分析の代わりにFriedman検定を選択した。

ステップ3：オムニバス結果の報告

Friedman検定は、3つの処置条件間で疼痛評定に統計的に有意な差を示した（N = 25）, χ²(2) = 18.42, p < .001, W = .37.

ステップ4：事後比較の報告

Friedman検定が有意な場合、対ごとの比較を実施します：

Bonferroni修正（調整済みアルファ = .017）による対ごとのWilcoxon符号順位検定の事後比較により、電気刺激条件は無治療と比較して有意に低い疼痛評定を示し（Z = -3.89, p < .001, r = .78）、標準PTと比較しても有意に低かった（Z = -2.67, p = .008, r = .53）。標準PTと無治療間の差も有意であった（Z = -2.82, p = .005, r = .56）。

完全なAPA段落

Friedman検定を用いて3つの処置条件間の疼痛評定を比較した（N = 25）。疼痛は上限のある尺度で測定され床効果が認められ、2条件で正規性の仮定が違反されていたため（Shapiro-Wilk p < .01）、ノンパラメトリック検定を選択した。疼痛評定は条件間で有意に異なった, χ²(2) = 18.42, p < .001, W = .37。中央値の疼痛は、無治療条件で7.00（IQR = 6.00-8.00）、標準的な理学療法条件で5.00（IQR = 3.00-6.00）、電気刺激条件で3.00（IQR = 2.00-5.00）であった。Bonferroni修正（調整済みアルファ = .017）による事後Wilcoxon符号順位検定は、電気刺激が無治療（Z = -3.89, p < .001, r = .78）および標準PT（Z = -2.67, p = .008, r = .53）の両方よりも有意に低い疼痛を産出したことを示した。標準PTも無治療よりも有意に低い疼痛を産出した（Z = -2.82, p = .005, r = .56）。すべての対ごとの効果量は大きく、3つの条件すべての間で臨床的に意味のある差を示している。

Friedman検定の事後検定

オムニバスFriedman検定が有意な場合、具体的にどの条件が異なるかを特定するための事後対ごと比較が必要です。3つの一般的なアプローチがあります。

1. Bonferroni修正による対ごとのWilcoxon符号順位検定

最も一般的なアプローチです。各条件ペアに対してWilcoxon符号順位検定を実施し、比較回数に応じてアルファを調整します。

k = 3条件の場合：3つの対ごと比較、調整済みアルファ = .05 / 3 = .017。

k = 4条件の場合：6つの対ごと比較、調整済みアルファ = .05 / 6 = .008。

利点： 各ペアに対して個別の効果量（r）を産出。広く理解されている。

欠点： 各比較ごとにデータを再順位付けし、オムニバス検定の元の順位付けを失う。多くの比較ではBonferroniが過度に保守的になる可能性がある。

2. Nemenyi検定

TukeyのHSDのノンパラメトリック類似法。すべてのペア間の平均順位を同時に比較します。

利点： Friedman検定の元の順位付けを使用。多くの群ではBonferroniより保守的でない。

欠点： 個別の効果量を提供しない。社会科学ジャーナルでの報告頻度が低い。

3. Conover検定

Friedman検定が有意な後にF分布を使用してペアを比較。Nemenyiより検出力が高いが、知名度が低い。

どの事後検定を選択すべきか

| 方法 | 最適な用途 | 報告される場所 | |------|----------|-------------| | 対ごとのWilcoxon + Bonferroni | 個別の効果量が必要 | 大部分のジャーナル | | Nemenyi | 多くの条件（k > 4） | 医学・生物学研究 | | Conover | 最大の検出力 | 一部の臨床試験 |

大部分の行動・社会科学研究では、Bonferroni修正による対ごとのWilcoxon符号順位検定が標準的な選択です。

非有意なFriedman検定結果の報告

Friedman検定を用いて、介入の3つのフェーズ（ベースライン、中間点、完了時；N = 22）で参加者の動機づけ評定が異なるかどうかを検討した。検定は統計的に有意な差を示さなかった, χ²(2) = 3.18, p = .204, W = .07。中央値の動機づけは、ベースラインで5.00（IQR = 4.00-6.00）、中間点で5.50（IQR = 4.75-6.25）、完了時で5.00（IQR = 4.00-6.00）であった。小さい効果量（W = .07）は、介入フェーズ間での動機づけの変動が最小限であることを示唆している。

縦断デザインのFriedman検定

Friedman検定は、同一の参加者が3つ以上の時点で測定される縦断研究でよく使用されます。

脱落者の扱い

Friedman検定はすべての時点にわたる完全なデータを要求します（リストワイズ削除）。脱落者を報告してください：

登録された42名の参加者のうち、35名が4回の評価すべてを完了した（83.3%の保持率）。脱落した参加者はベースラインのBDI-IIスコアにおいて完了者と有意に異ならなかった（Mann-Whitney U = 98, p = .374）。

Friedman検定報告のよくある間違い

1. 中央値ではなく平均値を報告する

すべてのノンパラメトリック検定と同様に、Friedman検定は順位で操作します。主要な記述統計量として中央値とIQRを報告してください。

2. 効果量を省略する

APA第7版は効果量を要求しています。Friedman検定にはKendallの W を使用してください。

3. 非有意なオムニバス結果の後に事後検定を実施する

事後対ごと比較は、オムニバスFriedman検定が統計的に有意な場合にのみ適切です。

4. 多重比較の修正を忘れる

事後検定を実施する際は、Bonferroni、Holm、その他の修正方法を適用してください。

5. Friedman検定とKruskal-Wallis検定を混同する

Friedman検定は関連した（被験者内）群用です。Kruskal-Wallis検定は独立した（被験者間）群用です。

6. 2条件のみにFriedman検定を使用する

2つの関連条件の場合、Wilcoxon符号順位検定を使用してください。2条件の場合、Friedman検定は符号検定に帰着し、Wilcoxon符号順位検定よりも検出力が低くなります。

Friedman検定APAチェックリスト

提出前に、結果に以下が含まれていることを確認してください：

初出時の完全な検定名（Friedman検定）
参加者数（N）と条件数（k）
各条件の中央値とIQR
各条件の平均順位（表またはテキストに）
自由度（k - 1）付きのカイ二乗統計量
正確なp値（または p < .001）
効果量：解釈付きのKendallの W
ノンパラメトリック検定選択の正当化
修正方法付きの事後対ごと比較（オムニバスが有意な場合）
各対ごと比較の個別効果量
差の方向性の明示的な記述

よくある質問

Friedman検定を報告する正しいAPA形式は何ですか？

標準形式は：χ²(df) = X.XX, p = .XXX, W = .XX です。例：χ²(2) = 18.42, p < .001, W = .37。記述統計量（中央値とIQR）、ノンパラメトリック検定選択の正当化、オムニバス検定が有意な場合の事後比較を含めてください。

Kendallの W とは何ですか？どう解釈しますか？

Kendallの W（一致係数）は、参加者間の順位付けの一致度を測定します。0（一致なし）から1（完全な一致）の範囲をとります。基準：.10 = 小、.30 = 中、.50 = 大。W = χ² / (N × (k - 1)) として算出します。

有意なFriedman検定の後にどの事後検定を使用すべきですか？

Bonferroni修正による対ごとのWilcoxon符号順位検定が、社会・行動科学で最も一般的に使用されるアプローチです。各比較に対して個別の効果量を提供します。Nemenyi検定は、元のFriedman順位を使用する代替法で、多くの群ではより保守的でありません。

Friedman検定とKruskal-Wallis検定の違いは何ですか？

Friedman検定は3つ以上の関連した群（条件間で同一の参加者）を比較します。Kruskal-Wallis検定は3つ以上の独立した群（異なる参加者）を比較します。Friedmanは反復測定分散分析のノンパラメトリック等価法；Kruskal-Wallisは一元配置被験者間分散分析のノンパラメトリック等価法です。

Friedman検定に必要なサンプルサイズは？

厳密な最小値はありませんが、検定に妥当な検出力を持たせるには少なくとも6〜8人の参加者が必要です。3条件で中程度の効果（W = .30）を検出するための十分な検出力（.80）には、約20〜25人の参加者を目標にしてください。

Friedman検定で欠測データをどう扱いますか？

Friedman検定はすべての条件にわたる完全なデータを要求します（リストワイズ削除を使用）。いずれかの条件でデータが欠測している参加者は完全に除外されます。除外された参加者数を報告してください。欠測データが相当量である場合は、多重代入または線形混合モデルとノンパラメトリック・ブートストラップの組み合わせを検討してください。

StatMateの無料Friedman検定計算ツール

Friedman検定の結果を手動でフォーマットするには、カイ二乗統計量の算出、Kendallの W の算出、さらに修正付きの個別の事後検定の実施が必要です。StatMateのFriedman検定計算ツールはすべてを自動化します：

即座のAPA出力。 反復測定データを入力すると、APA第7版にフォーマットされたカイ二乗、p、Kendallの W を含む出版可能な結果段落が得られます。
自動効果量。 Kendallの W が算出され解釈されます。
事後比較。 Bonferroni修正による対ごとのWilcoxon検定、個別の効果量を含みます。
視覚出力。 各条件のボックスプロットと順位分布チャート。
ワンクリックエクスポート。 クリップボードにコピー、PDF、APA形式のWord文書（Pro）。

手動の順位計算も修正公式の暗記も不要です。

Friedman検定計算ツールを開く