心理学のお勉強

心理測定法

信頼性と妥当性


信頼性と妥当性は心理測定においての最重要問題です。はっきり言って、これを満たさないものは何一つとして信用できない、といっても構いません。

ではその信頼性、妥当性というのはいったいなんなのでしょうか。言葉はなんか近そうですが、心理学的には明確に区別されています。

簡単に言えば、信頼性は同じ測定対象、つまり、同じ人にもう1度試したなら、ほぼ同じような結果が得られるという性質のことで、もし試すたびに違う結果が出るようなら、それは信頼性が低いものと判断しています。

そして、妥当性は、測りたい対象がちゃんと測れているか、細かく言えば、測定値を解釈したり、そこでした推論、導いた決定が正しいかどうかを表す性質です。

測定の最終目標はこの妥当性を持つことです。そして、その妥当性を持つ必要条件が信頼性を持つこと、と考えておいていただければいいかと思います。

では、まず信頼性を理論的に考えてみましょう。ここで、数学的に無限回テストを行うと、その平均値(これを「真の得点」という)と、測定値との間のズレ(測定誤差)によって信頼性が示される、と仮定します。

これはつまり、真の得点t、測定誤差εとすると、測定値xはx=t+εとなりますので、この真の得点の分散と、測定値の分散で比を取る、そしてそれを信頼性の指標とすることを意味しています。この指標のことを「信頼性係数 ρxx'といいます。

しかし、実際には無限回テストを行うなんてことはできませんので、この指標は現実にとりうるデータの中で推定していくことになります。

ここでよく考えられるのが、「平行テスト法」というものを使ってρxx'を推定する方法です。平行テスト法は、真の得点が等しく、測定誤差も等しい2種類のテストを行うことで、そこで得られる2つの測定値x、x'、真の得点t、そして、2つの測定誤差ε、ε'から、先ほどと同じような関係、

式1

これを見出し、ここで「2つのテストの間は相関しない」と仮定することで、平行テスト間の相関係数が信頼性係数と一致する性質を使います。つまり、これを指標としてしまおう、という魂胆。これをまとめて式に表すと、

式2

これ、式の中に相関係数の定義が入り込んでいることがポイントです。

ただこの平行テスト法、2種類もテストを作らないといけないので、それなりに面倒くさいです。ということでもちろん、これ以外の方法がちゃんと考えられています。

そのひとつが「再テスト法」です。この場合、同じテストを2度繰り返して行います。そしてそこから指標を求めようとするわけですね。ただ、記憶や学習の効果が現れてしまうとアウトなので、それが起きない場合でないと使えません。

「折半法」というものもあります。これでは1つのテストを2つのセクションにわけ、それを平行テストにしてしまいます。こういうテストなので、項目の数が多ければ多いほど信頼性が上がりますが、ただ、元のテストの信頼性係数より相関係数は低くなってしまうので、それを「スピアマン・ブラウンの公式 ρxx'=2r12/1+r12(r12:2つのテスト間の相関係数)」で補正する手間がかかってきます。

テストを2つどころじゃなく、3つ、4つ…とn個に分けて、それらにどれくらい一貫性があるか見る方法もあります。このときは「クロンバックのα係数」を求めて、これをρxx'の下限値とする。つまり、このα係数が大きければ大きいほど、信頼性が高いといえるわけです。ちなみにα係数の式は以下の通り。sx2は全体の得点の分散、si2は部分テストiの分散です。

式3

また、テストの各項目を1つのテストとみなして、正答率と誤答率の積、つまり、分散から信頼性を求める方法もあります。

このようにして信頼性が得られたら、次は妥当性をチェックしなければなりません。この妥当性には手続きそのものが本当に妥当かどうか考える「理論的妥当性」と、実際にデータを得て、分散分析とか、因子分析とか、相関分析なんかで統計的に判断する「統計的妥当性」の2つの方法があります。

考え方のその1は「基準連関妥当性」で、これは得点やカテゴリを区切って、そのどこに当たるかを見る妥当性。「TOEICスコアが600=Cランクに入る」とかがそう。これは基準の得られ方、つまり、基準がテストをやったときに得られるなら「併存的妥当性」、基準がテストの後に得られるなら「予測的妥当性」と、2つのタイプに分かれてきます。

これらの妥当性の指標(妥当性係数)は、基準との間の相関係数です。相関ですから、テストの信頼性が低ければ、この値は小さくなります。つまり、

式4

なお、実際に計算してみてるとわかると思うのですが、このとき、真の妥当性係数は観測された相関係数よりも大きな値になります(r=0.6、ρxx'=0.8とすると、=.75)。このことには気をつけてください。

もう1つの考え方は、予測されることが測定値によって実現するかどうか、です。言ってみればこれが妥当性の本筋で、「構成概念妥当性」といいます。これは言葉にすれば、同じ「もの」を測るテストなら相関しなければならない(収束的妥当性)、違う「もの」を測っているならば相関してはいけない(識別的妥当性)、とまとめることが出来るでしょう。

最終的にはこの構成概念妥当性が満たされなければ、正しい測定は成り立ちえません。ですので、ここが大事であることを記憶しておいてください。

ということで、超駆け足で見てきましたが、このような信頼性と妥当性の上に、心理測定は成り立っています。