信頼性とは何か? なぜ重要なのか?
調査票、質問紙、心理尺度から意味のある結論を導くためには、まずその測定ツールが一貫して同じものを測定していることを確認する必要があります。これが信頼性の本質です。
身近な例で考えてみましょう。体重計に同じ1分間のうちに何度乗っても、毎回違う値が表示されるとしたら、その体重計は信頼できません。研究で使う測定ツールについても同じことが言えます。
研究において、信頼性とは測定ツールが安定した一貫性のある結果を生み出す程度を指します。信頼性が確認されていない測定ツールで得られたデータに基づく結論は、土台が不安定な建物のようなものです。
信頼性の種類
信頼性にはいくつかの種類があり、それぞれ異なる側面を評価します。
- 再テスト信頼性(テスト・リテスト信頼性) — 同じ対象に同じ測定を異なる時点で実施し、時間的な安定性を測定します。
- 評価者間信頼性 — 異なる評価者が同じ対象を評価したとき、その一致度を評価します。
- 内的整合性 — 一つの尺度内の項目が同じ基礎的構成概念を測定しているかどうかを評価します。
- 折半法信頼性 — 項目を二つの半分に分割して相関を算出し、スピアマン・ブラウンの公式で全体の信頼性を推定します。
このうち、内的整合性の評価で最も広く使われている指標がクロンバックのアルファです。以下では、この指標の計算方法、解釈基準、そして項目レベルの診断方法について詳しく解説します。
クロンバックのアルファ — 公式の直感的な理解
クロンバックのアルファは以下の公式で計算されます。
alpha = (k / (k - 1)) x (1 - (項目分散の合計 / 合計得点の分散))
ここで、kは項目数を表します。
この公式が意味することを直感的に理解しましょう。すべての項目が同じ構成概念を一貫して測定していれば、個々の項目の分散の合計は合計得点の分散に比べて小さくなります。その結果、括弧内の比率が小さくなり、アルファは1に近づきます。
逆に、各項目がバラバラなものを測定している場合、項目分散の合計は合計得点の分散に対して大きくなり、アルファは低い値になります。
クロンバックのアルファの解釈基準
| アルファ値 | 解釈 | |------------|------| | alpha ≥ .90 | 優秀 | | .80 ≤ alpha ≤ .89 | 良好 | | .70 ≤ alpha ≤ .79 | 許容範囲 | | .60 ≤ alpha ≤ .69 | 疑問あり | | .50 ≤ alpha ≤ .59 | 不十分 | | alpha ≤ .49 | 受容不可 |
一般的に、研究目的では .70 以上が望ましいとされています。ただし、探索的な研究の初期段階では .60 以上でも許容される場合があります。一方、臨床場面での個人に対する意思決定に用いる尺度では .90 以上が求められることもあります。
アルファが高すぎる場合(例:.95以上)にも注意が必要です。これは項目間の冗長性を示唆しており、いくつかの項目が実質的に同じ内容を測定している可能性があります。
項目レベルの診断
クロンバックのアルファは尺度全体の信頼性を示しますが、個々の項目がどの程度尺度に貢献しているかを確認するには、項目レベルの診断が不可欠です。
修正済み項目合計相関
修正済み項目合計相関(Corrected Item-Total Correlation)は、各項目とその項目を除いた残りの項目の合計得点との相関を示します。
- 相関が .30 以上 — 尺度への貢献が十分
- 相関が .30 未満 — 尺度全体との関連が弱く、削除の候補
「修正済み」とは、その項目自身を合計得点から除外して計算することを意味します。これにより、項目自身との自己相関による過大評価を防ぎます。
項目削除時のアルファ(Alpha-If-Item-Deleted)
特定の項目を削除した場合にアルファがどう変化するかを示す指標です。
- ある項目を削除してアルファが上昇する場合 — その項目は尺度の内的整合性を低下させている可能性があり、削除を検討すべきです。
- ある項目を削除してアルファが低下する場合 — その項目は尺度の信頼性に貢献しているため、保持すべきです。
この二つの診断指標を組み合わせることで、尺度の改善に向けた具体的な判断が可能になります。
APA形式での信頼性の報告方法
本尺度は良好な内的整合性を示した(クロンバックのアルファ = .85)。
APAスタイルで信頼性を報告する際は、以下の点に注意してください。
- アルファ値は小数点以下2桁まで報告する
- 先頭のゼロは省略する(0.85 ではなく .85)
- 尺度名と標本サイズも併せて記載する
- 必要に応じて、項目数も明記する
- 下位尺度がある場合は、各下位尺度のアルファも報告する
よくある間違いと誤解
アルファは妥当性ではない
高いアルファ値は、項目が一貫して同じものを測定していることを意味しますが、それが測定したい概念を正しく測定しているかどうか(妥当性)を保証するものではありません。信頼性は妥当性の必要条件ですが、十分条件ではありません。極端な例として、「今日の天気」に関する質問を10個集めれば高いアルファが得られるかもしれませんが、それは不安尺度としての妥当性を持ちません。
アルファは項目数に影響される
公式にkが含まれていることからもわかるように、項目数が多いほどアルファは高くなる傾向があります。そのため、項目数が非常に多い尺度では、アルファが高くても必ずしも内的整合性が優れているとは限りません。項目数の異なる尺度間でアルファを比較する際は、この点に留意してください。
小さな標本サイズでは推定が不安定になる
標本サイズが小さい場合、アルファの推定値は不安定になります。信頼性の分析には、少なくとも項目数の5〜10倍の標本サイズが推奨されます。例えば、20項目の尺度であれば、100〜200名のデータが望ましいでしょう。
アルファは一次元性を仮定する
クロンバックのアルファは、すべての項目が単一の構成概念を測定していることを前提としています。多次元的な尺度にアルファを適用すると、信頼性を過小評価する可能性があります。その場合は、まず因子分析で下位尺度を特定してから、各下位尺度ごとにアルファを算出することが適切です。
二値データや順序データへのアルファの使用
クロンバックのアルファは連続データを前提としています。二値データ(はい/いいえ)にはKR-20(クーダー・リチャードソンの公式20)を、順序データにはポリコリック相関に基づく序数アルファの使用を検討してください。リッカート尺度(例:5段階評価)では、アルファが実用上十分な近似を与えることが多いですが、選択肢が少ない場合は注意が必要です。
StatMateのクロンバックのアルファ計算ツールを試す
StatMateの信頼性分析ツールを使えば、データを入力するだけでクロンバックのアルファ、修正済み項目合計相関、項目削除時のアルファを自動で算出できます。統計の専門知識がなくても、わかりやすい結果とAPA形式のレポートを簡単に得ることができます。
面倒な手計算やソフトウェアの設定は不要です。データを貼り付けて、ボタンを押すだけで信頼性分析が完了します。
結果はAPA形式で表示され、そのままコピーして論文やレポートに使用できます。PDF出力にも対応しているため、分析結果の記録や共有も簡単です。
尺度開発や質問紙調査の信頼性検証にぜひご活用ください。