📈データ分析・定量スキル

項目反応理論(IRT)とは?テスト・アンケートの精度を高める測定手法

項目反応理論(IRT)は、テストやアンケートの各項目への回答パターンから、回答者の能力と項目の特性を同時に推定する統計手法です。基本概念、モデル、実践手順を解説します。

#項目反応理論#IRT#テスト理論#心理測定

    項目反応理論(IRT)とは

    項目反応理論(Item Response Theory: IRT)は、テストやアンケートの各項目(問題・質問)への回答パターンから、回答者の能力(潜在特性)と項目の特性(難易度・識別力)を同時に推定する統計理論です。

    1960年代にフレデリック・ロード(Frederic Lord)やゲオルク・ラッシュ(Georg Rasch)によって基礎が確立されました。従来の古典的テスト理論(CTT)では「合計得点」でしか能力を測れませんでしたが、IRTは問題の難しさを考慮した上で、より精密な能力推定を可能にします。

    TOEFLやGMAT、日本の共通テストのIRT活用など、現代の大規模テストの多くがIRTに基づいて設計されています。

    構成要素

    IRTの主要パラメータは以下の3つです。

    パラメータ記号説明
    識別力a(alpha)その項目が能力の高低をどれだけ鋭く区別できるか
    難易度b(beta)正答確率が50%になる能力値の水準
    当て推量c(gamma)能力が極めて低くても偶然に正答する確率

    パラメータの数に応じて3種類のモデルがあります。

    モデルパラメータ特徴
    1パラメータモデル(Raschモデル)b のみ全項目の識別力が等しいと仮定。解釈が容易
    2パラメータモデルa, b項目ごとに識別力が異なることを許容
    3パラメータモデルa, b, c多肢選択式の当て推量を考慮
    項目特性曲線(ICC)のイメージ

    項目特性曲線(ICC)は、横軸に能力値(θ)、縦軸に正答確率をとったS字カーブです。曲線の位置(左右)が難易度を、傾き(急さ)が識別力を表します。

    実践的な使い方

    ステップ1: データを収集しモデルを選択する

    十分な回答データ(一般に300件以上が推奨)を収集します。項目の形式(二値回答か多値回答か)とテストの目的に応じてモデルを選びます。

    • 二値回答(正誤): 1PL / 2PL / 3PLモデルを適用
    • 多値回答(リッカート尺度): 段階反応モデル(GRM)や部分採点モデルを適用
    • 項目数が少ない場合: Raschモデル(1PL)が安定しやすい

    ステップ2: パラメータを推定し項目を評価する

    統計ソフトウェア(R の ltm / mirt パッケージ、Python の pyirt など)でパラメータを推定します。推定結果から項目の品質を判定します。

    • 識別力(a)が0.5未満: 能力を区別する力が弱い項目
    • 難易度(b)が受検者集団から大きく外れる: 易しすぎ・難しすぎの項目
    • 項目適合度(fit statistics)の確認: モデルに合わない項目を特定

    ステップ3: テスト情報量を確認し最適化する

    テスト情報関数は、各能力水準でテスト全体がどれだけ精密に測定できるかを示します。目的に応じて情報量のピーク位置を調整します。

    • 合否判定テスト: カットオフスコア付近で情報量が最大になるよう項目を選定
    • 能力測定テスト: 測定したい能力範囲全体で均一な情報量を確保
    • 適応型テスト(CAT): 回答に応じて最適な項目を逐次選択

    活用場面

    • 資格試験や検定試験の問題評価と等化(異なる回の試験を同一尺度で比較)
    • 人材アセスメントにおける能力測定の精度向上
    • 顧客満足度調査やエンゲージメントサーベイの項目精査
    • eラーニングでの適応型テスト(CAT)の設計
    • 医療領域での患者報告アウトカム(PRO)尺度の開発
    • マーケティングリサーチにおける態度尺度の最適化

    注意点

    IRTはサンプルサイズの要求が高く、2PLモデルで最低500件、3PLモデルでは1,000件以上の回答が推奨されます。少数データでは推定が不安定になります。

    局所独立性(各項目への反応が能力値のみに依存し、他の項目の回答に影響されない)の仮定を確認する必要があります。記述式問題のように前後の項目が影響し合う場合は適用が困難です。

    一次元性(測定する能力が1つ)の仮定も重要です。複数の能力を同時に測っている場合は、多次元IRTモデルの適用を検討します。

    パラメータの解釈には心理測定の専門知識が求められます。分析ツールの出力をそのまま鵜呑みにせず、項目内容と照らし合わせた検証が必要です。

    まとめ

    項目反応理論(IRT)は、テストやアンケートの各項目の特性と回答者の能力を統計的に分離して推定する手法です。古典的テスト理論では実現できなかったテスト間の等化や適応型テストを可能にし、人材評価やマーケティングリサーチなどビジネス領域でも活用が広がっています。

    参考資料

    関連記事