信頼性の報告が重要な理由
多項目尺度を使用するすべての量的研究は、不安、職務満足度、自己効力感、その他の心理学的構成概念のいずれを測定する場合であっても、その尺度が一貫したスコアを産出することを実証しなければなりません。信頼性の証拠がなければ、読者はあなたの測定がノイズではなく意味のあるものであるかを信頼することができません。これは些細な形式的要件ではありません。APA第7版は、研究で使用されたすべての測定器具について、研究自体のデータから算出した信頼性係数を提供すべきであると明示的に述べています。
クロンバックのアルファ(Cronbach, 1951)は、社会科学および行動科学において最も広く報告される内的整合性信頼性の指標です。尺度の項目が同一の潜在的構成概念を測定し、互いに共変動する程度を推定します。マクドナルドのオメガなどの代替指標を支持する最近の方法論的進歩にもかかわらず、クロンバックのアルファは出版された研究を支配し続けており、ほとんどの査読者や審査委員が期待する統計量です。
しかし、正しく報告することが多くの研究者にとっての障壁となっています。よくあるエラーには、項目数の省略、項目レベルの分析の欠如、アルファが実際に尺度について何を示しているかの誤解などがあります。本ガイドでは、基本的なAPAテンプレートから高度な項目分析の報告まで、具体的な数値例を用いて全プロセスを解説します。
クロンバックのアルファの基本APA形式
クロンバックのアルファを報告するための基本的なAPAテンプレートは以下の通りです:
尺度は[良好な/優れた]内的整合性を示した(Cronbach's α = .XX)。
実際には、完全な透明性のために項目数とサンプルサイズを常に含めるべきです:
10項目の不安尺度の内的整合性は良好であった(Cronbach's α = .84, n = 200)。
書式の主要ルール:
- ギリシャ文字のアルファ(α)はAPA形式ではイタリック体にします
- 1を超えることのない値は先頭のゼロを省略します(0.84ではなく.84)
- 数値とともに言語的記述子(優秀、良好、許容可能)を含めます
- 尺度の項目数を常に報告します
クロンバックのアルファの報告:ステップバイステップ
研究シナリオ
臨床心理学者が10項目の全般性不安障害尺度(GAD-10)を200名の学部生に実施しました。各項目は5件法のリッカート尺度(1 = 全く同意しない ~ 5 = 強く同意する)で評定されます。研究者は仮説検証に進む前に、この尺度が信頼性のあるスコアを産出することを確立する必要があります。
記述統計量
まず尺度レベルの記述統計量を提示します:
| 統計量 | 値 | |--------|------| | 項目数 | 10 | | N | 200 | | 尺度 M | 32.45 | | 尺度 SD | 7.82 | | Cronbach's α | .84 | | 平均項目間相関 | .34 |
正しいAPA報告例:良好な信頼性
10項目の全般性不安障害尺度(GAD-10)の内的整合性をクロンバックのアルファを用いて評価した。尺度は良好な内的整合性を示し(α = .84, 10項目)、平均項目間相関は.34であった。これは一般的に推奨される閾値.70(Nunnally & Bernstein, 1994)を上回っており、各項目が同一の構成概念を信頼性高く測定していることを示している。
正しいAPA報告例:低い信頼性
すべての尺度が許容可能なアルファ値を産出するわけではありません。問題のある結果の報告方法は以下の通りです:
6項目の社会的望ましさ下位尺度は疑問のある内的整合性を示した(α = .63, 6項目)。この値は一般的に受け入れられる閾値.70(Nunnally & Bernstein, 1994)を下回るため、この下位尺度に関する結果は慎重に解釈すべきである。項目分析により、項目4(修正済み項目合計相関 = .08)を削除するとアルファが.71に改善することが示唆された。
各要素の内訳
| 要素 | 値 | 説明 | |------|------|------| | α | .84 | クロンバックのアルファ係数、先頭ゼロなし | | 項目数 | 10 | 尺度の項目数を常に記載 | | 平均項目間 r | .34 | すべての項目ペア間の平均相関 | | 記述子 | 良好 | George and Mallery (2003) の基準に基づく | | 引用閾値 | .70 | 研究目的の標準的な最低値 |
クロンバックのアルファの解釈
最も広く引用される解釈の枠組みはGeorge and Mallery (2003) によるものです。これらの基準は厳密なカットオフではなくガイドラインですが、信頼性を記述するための共通の語彙を提供します:
| α 範囲 | 解釈 | 典型的な使用文脈 | |-----------|------|-----------------| | .90以上 | 優秀 | 臨床的判断、ハイステークス検査 | | .80 – .89 | 良好 | 大部分の研究目的 | | .70 – .79 | 許容可能 | 探索的研究、初期段階の尺度 | | .60 – .69 | 疑問あり | 慎重に使用;限界を報告 | | .50 – .59 | 不良 | 研究には一般的に受け入れ不可 | | .50未満 | 受け入れ不可 | 使用不可;測定器具を修正 |
これらの基準にはいくつかの重要な注意点があります:
アルファは項目数に伴い増加します。 40項目の尺度は、適度な項目間相関であっても容易に α = .90を達成できます。これは必ずしもその尺度が α = .78の5項目尺度より「優れている」ことを意味しません。アルファ値とともに、平均項目間相関(Clark & Watson, 1995による最適範囲:.15~.50)を常に考慮してください。
アルファは冗長な項目により人為的に膨張する可能性があります。 複数の項目が互いにほぼ同じ言い換えである場合、アルファは高くなりますが、尺度の内容的広がりが不足する可能性があります。信頼性分析には内容妥当性の検討を伴うべきです。
文脈が必要な閾値を決定します。 集団レベルの比較が目的の基礎研究では、α = .70が一般的に十分です。個人レベルの判断が行われる臨床スクリーニング測定器具(例:患者をさらなる評価に紹介するかどうか)では、α = .90以上が推奨されます(Nunnally & Bernstein, 1994)。
修正済み項目合計相関と項目削除時のアルファ
全体的なアルファの報告に加えて、徹底した信頼性分析には項目レベルの診断が含まれます。最も有益な2つの統計量は、修正済み項目合計相関と項目削除時のクロンバックのアルファです。
修正済み項目合計相関
修正済み項目合計相関は、単一の項目と残りのすべての項目の合計(その項目を除く)とのピアソン相関です。各項目が全体の尺度とどの程度強く関連しているかを示します。修正済み項目合計相関が低い項目(一般的に.30未満)は、尺度の他の部分と同じ構成概念を測定していない可能性があります。
項目削除時のアルファ
この統計量は、特定の項目を尺度から削除した場合に全体のアルファがどうなるかを示します。項目削除時のアルファが現在のアルファよりもかなり高い場合、その項目は尺度の内的整合性を低下させており、削除の候補となる可能性があります。
項目分析表の例
原稿に尺度開発や心理測定学的評価が含まれる場合、項目レベルの結果を表で提示します:
| 項目 | M | SD | 修正済み項目合計 r | 項目削除時の α | |------|------|------|---------------------|-----------------| | 項目1 | 3.42 | 1.05 | .52 | .82 | | 項目2 | 3.18 | 1.12 | .58 | .82 | | 項目3 | 3.67 | 0.98 | .47 | .83 | | 項目4 | 2.95 | 1.21 | .61 | .81 | | 項目5 | 3.54 | 1.08 | .55 | .82 | | 項目6 | 3.31 | 1.15 | .49 | .82 | | 項目7 | 3.08 | 1.19 | .44 | .83 | | 項目8 | 3.72 | 0.92 | .12 | .86 | | 項目9 | 3.45 | 1.07 | .53 | .82 | | 項目10 | 3.29 | 1.10 | .56 | .82 | | 尺度 | 32.45 | 7.82 | — | α = .84 |
項目分析のAPA形式での報告
各項目の尺度内的整合性への寄与を評価するために項目分析を実施した。修正済み項目合計相関は.12(項目8)から.61(項目4)の範囲であった。10項目中9項目が、推奨される閾値.30(Field, 2018)を上回る修正済み項目合計相関を示した。項目8は修正済み項目合計相関が.12であり、これを削除するとアルファが.84から.86に上昇する。内容カバレッジの損失に対するわずかな改善を考慮し、項目8は最終尺度に保持した。
項目を削除するタイミング
項目の削除は、統計的基準と実質的判断の組み合わせに基づくべきです:
- 統計的基準:修正済み項目合計相関が.30未満、かつ項目削除時のアルファが意味のある程度高い(例:.02以上の上昇)
- 実質的基準:その項目が内容妥当性にとって不可欠でない — 削除しても構成概念のカバレッジにギャップが生じない
- 統計のみに基づいて項目を削除してはいけません。 項目合計相関が低い項目であっても、構成概念の重要な側面を捉えている唯一の項目である可能性があります。その場合、低い相関を記載しつつ項目を保持し、原稿にその根拠を述べてください。
よくある間違いと回避方法
項目数なしでアルファを報告する
アルファは尺度の項目数に直接影響を受けます。その尺度が5項目なのか50項目なのかを明記せずに α = .85と報告することは、値を適切に評価することを不可能にします。常に項目数を含めてください:「(α = .85, 12項目)」
アルファを単次元性の指標として扱う
これはおそらく最も広まっている誤解です。クロンバックのアルファは、尺度が単次元であることを検定したり確認したりするものではありません。2つの相関した次元を持つ尺度でも高いアルファを産出でき、その多次元構造を覆い隠す可能性があります。単次元性を確立するには、因子分析(探索的または確認的)が必要です。アルファは、尺度が単次元であることを確認した後に算出するか、識別された各下位尺度について別々に算出すべきです。
二値(二項)項目にアルファを使用する
項目が0/1(正解/不正解、はい/いいえ)で採点される場合、適切な統計量はKuder-Richardson 20公式(KR-20)です。数学的には、KR-20とクロンバックのアルファは二値データに対して同一の値を産出します。しかし、KR-20というラベルを使用することで、項目が二値であることを読者に伝え、方法論的認識を示します。測定器具が二値型とリッカート型の項目を混合している場合、尺度全体についてはクロンバックのアルファを報告し、混合形式であることを注記してください。
各下位尺度について個別にアルファを報告しない
測定器具に下位尺度がある場合(例:認知、感情、身体の下位尺度を持つうつ病質問票)、全体尺度に加えて各下位尺度について個別にアルファを報告しなければなりません。全体尺度のアルファのみを報告すると、分析で別々の予測変数や結果変数として使用される可能性がある個々の下位尺度における低い信頼性が隠れる可能性があります。
元の妥当性検証のアルファのみを報告する
信頼性はテストではなく得点の特性です。元の測定器具妥当性検証論文で報告されたアルファは、その特定のサンプルに適用されます。自分自身のデータからアルファを算出して報告しなければなりません。比較のために元のアルファを引用することは問題ありませんが、報告した値が現在のサンプルからのものであることを明確にしてください。
信頼性と妥当性を混同する
高いアルファは、尺度がそれが測定すると主張するものを測定していることを意味しません。アルファは一貫性(項目はまとまっているか?)に対処しますが、尺度が意図した構成概念を捉えているかどうかについては何も語りません。10項目の天気関連項目のセットは、うつ病の測定としてまったく妥当でなくても α = .92を産出する可能性があります。
クロンバックのアルファと他の信頼性指標の比較
異なる信頼性指標は異なる状況に適しています。以下の表は主な代替指標をまとめたものです:
| 指標 | 推定するもの | 前提 | 使用場面 | |------|------------|------|---------| | Cronbach's α | 内的整合性 | タウ等価性(等しい因子負荷) | リッカート型尺度のデフォルト選択;ほとんどの査読者が期待 | | McDonald's ω(オメガ) | 内的整合性 | 共変量モデル(不等な負荷を許容) | 項目の因子負荷が不等な場合;推奨が増加中 | | KR-20 | 内的整合性 | 二値項目 | 二値(0/1)項目;数学的にアルファと同一 | | 折半法(Spearman-Brown) | 内的整合性 | ランダム分割の等価性 | 簡易推定;非常に長い尺度に有用 | | 再検査信頼性 r | 時間的安定性 | 構成概念が時間経過で安定 | スコアが2時点間で安定していることを示す必要がある場合 | | 評定者間一致 κ(コーエンのカッパ) | 評定者間一致 | 独立した評定者 | 2人以上の評定者による観察またはコード化されたデータ |
複数の信頼性推定値を報告する場合
心理測定学的論文や測定器具の妥当性検証研究では、クロンバックのアルファとマクドナルドのオメガの両方を報告することがますます期待されています。アルファは既存の文献との連続性を提供し(以前に公表された値との直接的な比較を可能にし)、オメガはタウ等価性を仮定しないより偏りの少ない推定値を提供します。確立された尺度を使用する応用研究では、アルファのみの報告で通常十分です。
クロンバックのアルファが適切でない場合
多次元尺度
因子分析により尺度に2つ以上の異なる次元があることが明らかになった場合、尺度全体について単一のアルファを報告することは誤解を招きます。アルファはすべての項目が単一の構成概念を測定していることを前提としています。多次元尺度の場合、2つの選択肢があります:
- 各下位尺度について個別にアルファを報告する(推奨)
- 多次元性を考慮するマクドナルドのオメガ合計(ωt)を報告する
二値(二項)項目
上述の通り、二値項目のみで構成される測定器具にはKR-20を使用してください。数値結果はアルファと同一ですが、KR-20というラベルは正しい項目形式を読者に伝え、教育・認知検査で期待される慣例です。
非常に短い尺度(2~3項目)
アルファは項目数に非常に敏感です。2~3項目のみでは、項目が強い相関を持っていてもアルファはほぼ常に低くなります。2項目尺度の場合、代わりにSpearman-Brown係数を報告してください:
2項目の知覚ストレス測定は十分な信頼性を示した(Spearman-Brown係数 = .78, r = .64)。
3項目尺度の場合、アルファと平均項目間相関の両方を報告すべきです。.20~.40の平均項目間相関は、短い測定に対して許容可能と見なされます(Briggs & Cheek, 1986)。
形成的指標
クロンバックのアルファは、潜在的構成概念が項目の変動を引き起こす反映的測定モデル用に設計されています。形成的モデル(項目が構成概念を引き起こす — 例:収入、教育、職業を組み合わせた社会経済的地位指数)では、項目同士が相関することは期待されず、アルファは無意味です。代わりに、形成的構成概念用に設計された合成信頼性指標を使用してください。
クロンバックのアルファのAPA報告チェックリスト
原稿を提出する前に、信頼性セクションに以下のすべてが含まれていることを確認してください:
- 先頭ゼロなしのクロンバックのアルファ係数
- 尺度の項目数
- 言語的記述子(優秀、良好、許容可能など)
- 使用した基準への引用(例:Nunnally & Bernstein, 1994; George & Mallery, 2003)
- 各下位尺度について個別に報告されたアルファ(該当する場合)
- 元の妥当性検証ではなく、自身の研究データから算出されたアルファ
- 修正済み項目合計相関と項目削除時のアルファを含む項目分析表(尺度開発や心理測定学的研究の場合)
- 平均項目間相関(特に短い尺度の場合)
- 問題のある項目と保持または削除の判断に関する注記
よくある質問
クロンバックのアルファの最低許容値はいくつですか?
最も広く引用される閾値は、研究目的で.70です(Nunnally & Bernstein, 1994)。しかし、適切な最低値は文脈に依存します。探索的研究や初期段階の研究では、.60が許容される場合があります。個人レベルの意思決定に使用される臨床測定器具では、.90が推奨されます。短い尺度の場合、強い項目間相関を持つ方が、かろうじて.70に達する長い尺度よりも有用である可能性があるため、アルファ係数とともに項目数と平均項目間相関を常に考慮してください。
クロンバックのアルファが高すぎることはありますか?
はい。.95を超えるアルファは、項目の冗長性を示す可能性があります — つまり、複数の項目がわずかに異なる言葉でほぼ同じ質問をしています。これは印象的な信頼性を産出しますが、内容の広がりと回答者の負担の犠牲を伴います。アルファが.95を超える場合、項目間相関行列で非常に高い相関(.80以上)のクラスターを調べ、内容妥当性を犠牲にすることなくいくつかの項目を削除できるかどうかを検討してください。
自分が開発していない尺度の信頼性をどのように報告しますか?
確立された測定器具を使用する場合、自分のサンプルからのアルファを報告し、文脈として元の開発アルファを引用してください:
ベック抑うつ質問票第2版(BDI-II; Beck et al., 1996)は、本サンプルにおいて良好な内的整合性を示した(α = .88, 21項目)。これは元の妥当性検証で報告された値(α = .91)と一致している。
アルファは方法セクションと結果セクションのどちらで報告すべきですか?
APA の慣例では、信頼性情報は方法セクションの測定器具サブセクションに配置されます。信頼性データが研究課題の中心である場合(例:心理測定学的研究を実施している場合やグループ間で信頼性を比較している場合)、結果セクションでの追加報告が適切です。
クロンバックのアルファは許容可能だが、ある下位尺度が低い場合はどうすればよいですか?
問題を透明に報告してください。全体尺度と下位尺度のアルファを表に提示し、問題のある下位尺度に言及し、その下位尺度に依存する結果の解釈にどのように影響する可能性があるかを議論してください。低信頼性の下位尺度を主要分析から除外すべきか、感度分析でのみ使用すべきかを検討してください。
StatMateを使用したAPA形式のクロンバックのアルファ結果
クロンバックのアルファを手計算で算出するには、すべての項目の分散共分散構造に対する行列演算が必要です — 特に10項目以上の場合、これは面倒でエラーが発生しやすいプロセスです。StatMateのクロンバックのアルファ計算ツールは、ワークフロー全体を自動化します。
項目レベルのデータを入力すると、StatMateが全体のアルファ、修正済み項目合計相関、すべての項目の項目削除時のアルファ、および平均項目間相関を計算します。結果はAPA第7版形式でフォーマットされ、原稿に直接貼り付けることができます。項目分析表は問題のある項目を自動的に特定し、修正済み項目合計相関が.30を下回る項目をハイライトします。
StatMateに計算とフォーマットを任せることで、項目数の報告忘れ、小数点の誤り、項目レベルの診断の省略といったよくあるエラーを回避し、信頼性結果が研究にとって何を意味するかの解釈に時間を集中できます。
まとめ
クロンバックのアルファをAPA形式で報告するには、単一の数値以上のものが必要です。アルファ係数、項目数、サンプルサイズ、および引用された基準を伴う言語的記述子を含めてください。心理測定学的研究では、修正済み項目合計相関と項目削除時のアルファ値を含む項目分析表を提供してください。アルファは単次元性を確立しないことを覚えておいてください — それには因子分析が必要です。短い尺度の場合、アルファに平均項目間相関を補足してください。多次元的な測定器具の場合、各下位尺度について個別にアルファを報告してください。そして、確立された測定器具を使用する場合でも、常に自分自身のデータからアルファを算出してください。次の原稿で信頼性結果を執筆する際に、本ガイドの例とチェックリストを参考にしてください。