トップQs
タイムライン
チャット
視点
クロンバックのα係数
ウィキペディアから
Remove ads
クロンバックのアルファ(クロンバックの、Cronbach's alpha)、タウ等価信頼性(、tau-equivalent reliability)またはアルファ係数(係数、coefficient alpha)、信頼性係数ともよばれ、テストや尺度の内的整合性を測る指標である[1][2][3]。アメリカの心理学者リー・クロンバックにちなんで名付けられた。
多くの研究が、クロンバックのアルファを無条件に使用することに対して警告を発している。統計学者は、構造方程式モデリング(SEM)や一般化可能性理論に基づく信頼性係数が、多くの状況において優れた代替案であると考えている[4][5][6][7][8][9]。
Remove ads
歴史
リー・クロンバックは、1951年の最初の論文でこの係数を「係数アルファ(Coefficient alpha)」と導出方法を方向した[1][10]。この「係数アルファ」は、それ以前の研究でも暗黙的に使用されていたが[11][12][13][14]、彼の解釈は以前の研究に比べて直感的に魅力的であると考えられ、非常に人気を博した[15]。
- 1967年、メルビン・ノヴィックとチャールズ・ルイスは、比較されるテストや尺度の真値が、測定対象者とは無関係の定数だけ異なっている場合に、アルファが信頼性と等しくなることを証明した。この場合、テストや尺度は「本質的にτ等価(essentially tau-equivalent)」であると言われた[16]。
- 1978年、クロンバックは、1951年の最初の出版物が広く引用された理由は、「主にありふれた係数にブランド名を付けたからだ」と主張した[2][3]。彼は、当初、評定者間信頼性や再検査信頼性などで使用される他の種類の信頼性係数に、連続するギリシャ文字(すなわち、など)を付けて命名する予定だったが、後に考えを変えたと説明した。
- その後、2004年にクロンバックとリチャード・シャベルソンは、読者に対してクロンバックのアルファではなく、一般化可能性理論に基づく信頼性係数を使用するよう奨励した。クロンバックは「クロンバックのアルファ」という名称の使用に反対し、クロンバックの1951年の同名の論文以前にKR-20の一般式を発表した研究の存在を明確に否定した[9]。
Remove ads
クロンバックのアルファを使用するための前提条件
式と計算
要約
視点
クロンバックのアルファは、各尺度項目からスコアを取得し、それを各観測の合計スコアと相関させることによって計算される。得られた相関は、すべての個別項目スコアの分散と比較される。クロンバックのアルファは、尺度内の質問または項目の数、項目ペア間の平均共分散、および測定された合計スコアの全体的な分散の関数として最もよく理解される[19][8]。
ここで:
- は尺度内の項目数を表す
- は各項目 i に関連する分散
- は合計スコア に関連する分散
あるいは、次の式で計算することもできる[20]。
ここで:
- は平均分散を表す
- は項目間の平均共分散を表す。
Remove ads
よくある誤解
要約
視点
クロンバックのアルファの適用は必ずしも簡単ではなく、よくある誤解を生む可能性がある。そのうちのいくつかをここに詳述する。[7]
クロンバックのアルファの値は0から1の範囲にある
定義上、信頼性が0未満になることも1を超えることもありえない。多くの教科書では誤って、クロンバックのアルファ()を信頼性係数と同一視され、その範囲について不正確な説明をしている。は、本質的にτ等価でないデータに適用された場合、信頼性よりも低くなることがある。仮にがの値をそのままコピーし、がの値に-1を掛けてコピーしたとしよう。
項目間の共分散行列は以下のようになり、となる。
負のは、負の識別力や逆採点項目の処理ミスなどの理由で発生しうる。
とは異なり、SEMに基づく信頼性係数(例:)は常に0以上である。
この異常は、クロンバック(1943)によってを批判するために最初に指摘されていたが[21]。しかし、クロンバック(1951)[10]は、に関連する潜在的な問題点を論じた彼の論文ではこの問題についてコメントしなかった[9][22]。
測定誤差がなければ、クロンバックのアルファの値は1になる
この異常もまた、クロンバックのα()が信頼性を過小評価するという事実に起因する。
仮にがの値をそのままコピーし、がの値を2倍してしたとしよう。
項目間の共分散行列は以下のようになり、となる。
上記のデータに対して、とはともに1の値を持つ。上記の例はChoとKim(2015)によって提示されている[7]。
クロンバックのアルファの値が高いことは、項目間の同質性を示している
多くの教科書は、クロンバックのアルファ()を項目間の同質性の指標として言及している[23]。この誤解は、クロンバック(1951)[10]の、高い値が項目間の同質性を示すという不正確な説明に起因する。同質性は現代の文献ではほとんど使用されない用語であり、関連研究ではこの用語を1次元性を指すものと解釈している。いくつかの研究は、高い値が1次元性
を示さないという証明や反例を提供している。[24][7][25][26][27][28]以下の反例を参照。
上記の1次元データではである。
上記の多次元データではである。
上記のデータはを持つが、多次元である。
上記のデータはを持つが、1次元である。
1次元性はの前提条件である。1次元性を確認するためにを計算するのではなく、を計算する前に1次元性を確認すべきである。[3]
クロンバックのアルファの値が高いことは、内的整合性を示している
「内的整合性」という用語は信頼性の文献で一般的に使用されるが、その意味は明確に定義されていない。この用語は特定の種類の信頼性(例:内的整合性信頼性)を指すために使用されることがあるが、クロンバックのアルファ()に加えて、どの信頼性係数がここに含まれるのかは正確には不明である。クロンバック(1951)[10]は、明確な定義なしにいくつかの意味でこの用語を使用した。ChoとKim(2015)[7]は、がこれらのいずれの指標でもないことを示した。
「項目を削除した場合のアルファ」を使用して項目を削除すると、常に信頼性が向上する
「項目を削除した場合のアルファ」を使用して項目を削除すると、サンプルレベルの信頼性が母集団レベルの信頼性よりも高く報告される「アルファ・インフレーション」が生じる可能性がある[29]。また、母集団レベルの信頼性を低下させる可能性もある[30]。信頼性の低い項目の削除は、統計的な根拠だけでなく、理論的・論理的な根拠に基づいて行われるべきである。また、サンプル全体を2つに分割して交差検証することも推奨される[29]。
Remove ads
理想的な信頼性水準と信頼性を高める方法
要約
視点
ナナリーによる信頼性水準の推奨
ナナリーの著書[31][32]では、信頼性係数の適切な水準を決定するための主要な情報源としてよくとりあげられる。しかし、このとりあげられ方は彼の目的と矛盾している。彼は、もともと、研究の目的や段階に応じて異なる基準を使用すべきだと提案していた。それにも関わらず、研究の種類が探索的研究、応用研究、尺度開発研究のいずれであっても、「0.7」という基準が普遍的に採用されている[33]。彼は研究の初期段階の基準として「0.7」を提唱したが、現実の雑誌に掲載されるほとんどの研究はその範疇には入らない。「0.7」よりも、ナナリーの応用研究の基準である「0.8」が、ほとんどの実証研究により適している[33]。
ナナリーの示した推奨水準は、カットオフポイントを意味するものではなく、それを満たしているかどうかが重要であり、どれだけ上回っているか下回っているかは重要ではない。彼は「0.8」の基準に言及する際に、厳密に「0.8」でなければならないという意味ではなかった。信頼性の値が「0.8」に近い場合(例:0.78)、彼の推奨は満たされていると見なすことができる[34]。
高い信頼性水準を得るためのコスト
ナナリーの考えは、信頼性を高めるにはコストがかかるため、あらゆる状況で最大の信頼性を得ようと努める必要はないというものだった。
妥当性とのトレードオフ
信頼性が完璧な測定は妥当性を欠く[7]というトレードオフの関係になっている。例えば、信頼性1のテストを受ける人は、満点か0点のいずれかを受け取ることになる。なぜなら、1つの項目に正解または不正解した場合、他のすべての項目にも同じように回答することになるからである。信頼性を高めるために妥当性が犠牲にされる現象は、減衰のパラドックスとして知られている[35][36]。
高い信頼性の値は、内容的妥当性と対立することがある。高い内容的妥当性を達成するためには、各項目が測定すべき内容を包括的に表現する必要がある。しかし、信頼性を高めるためだけに、本質的に同じ質問を異なる方法で繰り返し測定する戦略がしばしば用いられる[37][38]。
効率性とのトレードオフ
他の条件が同じであれば、項目数が増えるにつれて信頼性は向上する。しかし、項目数の増加は測定の効率性を妨げる。
信頼性を高める方法
上記で議論した信頼性向上に伴うコストにもかかわらず、高い信頼性水準が求められる場合がある。信頼性を高めるために以下の方法が考えられる。
データ収集前:
- 測定項目の曖昧さを排除する。
- 回答者が知らないことは測定しない[39]。
- 項目数を増やす。ただし、測定の効率を過度に阻害しないように注意が必要である。
- 信頼性が高いと知られている尺度を使用する[40]。
- 予備テストを実施し、信頼性の問題を事前に発見する。
- 他の項目と内容や形式が異なる項目(例:逆採点項目)を除外または修正する。
データ収集後:
- 「項目を削除した場合のアルファ」を用いて問題のある項目を削除する。ただし、この削除には理論的根拠が伴うべきである。
- クロンバックのアルファ()よりも正確な信頼性係数を使用する。例えば、は平均してよりも0.02大きい[41]。
Remove ads
どの信頼性係数を使用するか
要約
視点
近年、クロンバックのアルファ()は圧倒的な割合で使用されている。ある研究では、研究の約97%が信頼性係数としてクロンバックのアルファ()を使用していると推定している[3]。しかし、いくつかの信頼性係数の精度を比較したシミュレーション研究では、クロンバックのアルファ()は、不正確な信頼性係数であるという共通の結果に至っている[42][43][6][44][45]。
方法論的な研究では、クロンバックのアルファ()の使用に批判的である。既存の研究の結論を単純化し分類すると以下のようになる。
クロンバックのアルファの代替案
既存の研究において、「すべてのデータに対して無条件にを使用するという慣行に反対する」という点では、事実上満場一致である。しかし、の代わりにどの信頼性係数を使用すべきかについては、異なる意見が示されている。
数種の信頼性係数の精度を比較した各シミュレーション研究[42][43][6][44][45]において、それぞれ異なる信頼性係数が第一位にランク付けされた[7]。
多数派の意見は、構造方程式モデリング(SEM)に基づく信頼性係数をの代替として使用することである[3][7][46][5][47][8][6][48]。
しかし、いくつかのSEMに基づく信頼性係数(例:1次元または多次元モデル)のうちどれが最適かについてはコンセンサスがない。
一部の人々は代替案として[6]を提案しているが、は信頼性とは完全に異なる情報を示す。 はReveilleのに匹敵する係数の一種である。[49][6]それらは信頼性を代替するのではなく、補完するものである。[3]
SEMに基づく信頼性係数のうち、多次元信頼性係数が使用されることは稀であり、最も一般的に使用されるのはである。[3]これは合成信頼性または共変同属信頼性としても知られている。
信頼性の単一推定値に加えて、項目反応理論に基づくアプローチは、スコア分布全体にわたる条件付き信頼性の推定値を提供することができる[50]。
構造方程式モデリング(SEM)に基づく信頼性係数のためのソフトウェア
SPSSやSASなどの汎用統計ソフトウェアには、を計算する機能が含まれている。の式を知らないユーザーでも、数回のマウスクリックだけで推定値を得るのに問題はない。
AMOS、LISREL、MPLUSなどのSEMソフトウェアには、SEMに基づく信頼性係数を計算する機能がない。ユーザーは式に入力して結果を計算する必要がある。この不便さと起こりうるエラーを避けるため、SEMの使用を報告している研究でさえ、SEMに基づく信頼性係数の代わりにクロンバックのアルファ()に依存してしまっている。[3]SEMに基づく信頼性係数を自動的に計算するためのいくつかの代替手段がある。
- R(無料):psychパッケージ[51]は、さまざまな信頼性係数を計算する。
- EQS(有料):[52]このSEMソフトウェアには信頼性係数を計算する機能がある。
- RelCalc(無料):[3]Microsoft Excelで利用可能。はSEMソフトウェアを必要とせずに取得できる。SEMソフトウェアの結果に基づいて、さまざまな多次元SEM信頼性係数やさまざまな種類のを計算できる。
Remove ads
脚注
外部リンク
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads