項目反応理論（IRT）とは？テスト・アンケートの精度を高める測定手法

項目反応理論（IRT）とは

項目反応理論（Item Response Theory: IRT）は、テストやアンケートの各項目（問題・質問）への回答パターンから、回答者の能力（潜在特性）と項目の特性（難易度・識別力）を同時に推定する統計理論です。

1960年代にフレデリック・ロード（Frederic Lord）やゲオルク・ラッシュ（Georg Rasch）によって基礎が確立されました。従来の古典的テスト理論（CTT）では「合計得点」でしか能力を測れませんでしたが、IRTは問題の難しさを考慮した上で、より精密な能力推定を可能にします。

TOEFLやGMAT、日本の共通テストのIRT活用など、現代の大規模テストの多くがIRTに基づいて設計されています。

IRTの主要パラメータは以下の3つです。

パラメータの数に応じて3種類のモデルがあります。

項目特性曲線（ICC）は、横軸に能力値（θ）、縦軸に正答確率をとったS字カーブです。曲線の位置（左右）が難易度を、傾き（急さ）が識別力を表します。

十分な回答データ（一般に300件以上が推奨）を収集します。項目の形式（二値回答か多値回答か）とテストの目的に応じてモデルを選びます。

統計ソフトウェア（R の ltm / mirt パッケージ、Python の pyirt など）でパラメータを推定します。推定結果から項目の品質を判定します。

テスト情報関数は、各能力水準でテスト全体がどれだけ精密に測定できるかを示します。目的に応じて情報量のピーク位置を調整します。

IRTはサンプルサイズの要求が高く、2PLモデルで最低500件、3PLモデルでは1,000件以上の回答が推奨されます。少数データでは推定が不安定になります。

局所独立性（各項目への反応が能力値のみに依存し、他の項目の回答に影響されない）の仮定を確認する必要があります。記述式問題のように前後の項目が影響し合う場合は適用が困難です。

一次元性（測定する能力が1つ）の仮定も重要です。複数の能力を同時に測っている場合は、多次元IRTモデルの適用を検討します。

パラメータの解釈には心理測定の専門知識が求められます。分析ツールの出力をそのまま鵜呑みにせず、項目内容と照らし合わせた検証が必要です。

項目反応理論（IRT）は、テストやアンケートの各項目の特性と回答者の能力を統計的に分離して推定する手法です。古典的テスト理論では実現できなかったテスト間の等化や適応型テストを可能にし、人材評価やマーケティングリサーチなどビジネス領域でも活用が広がっています。

項目反応理論（IRT）の考え方と実践 - 日本教育心理学会（チュートリアルセミナー資料）
Item Response Theory - Columbia University Mailman School of Public Health（IRTの概要と応用）
CBT試験の精度を高めるIRTとは？ - CBT Solutions（IRTの仕組みと実務応用の解説）