語彙力診断の裏側 — 項目応答理論(IRT)で実力を正確に測る仕組み

えいたんごクイズの語彙力診断では、たった20問のクイズであなたの推定語彙数を算出しています。少ない問題数でどうやって正確に測れるのか。その裏側にある技術「項目応答理論」について、できるだけわかりやすく解説します。

項目応答理論(IRT)とは

項目応答理論（Item Response Theory、略称IRT）は、テストの各問題（項目）に対する回答パターンから、受験者の能力を統計的に推定する理論です。

この技術は、世界中の大規模テストで実際に使われています。特に英語の試験では広く普及しています。

TOEFL iBT（Test of English as a Foreign Language internet-Based Test） — 世界最大規模の英語能力試験。留学や大学院入試で求められることが多く、コンピュータ上でIRTに基づく適応型出題を採用しています。
TOEIC（Test of English for International Communication） — ビジネス英語力の指標として日本でもっとも受験者が多い英語試験のひとつ。スコアの算出にIRTが使われており、異なる回のテストでもスコアを公平に比較できるようになっています。
英検CBT / 英検S-CBT — 従来の紙の英検に加えて、コンピュータで受験するCBT形式が導入されています。CBT形式ではIRTの考え方が活用されています。
GMAT（Graduate Management Admission Test） — ビジネススクール入学のための適性試験。受験者の回答に応じて出題が変わる適応型テストの代表例です。
GRE（Graduate Record Examination） — アメリカの大学院入試で広く使われる試験。セクション単位で適応型出題を採用しています。
医師国家試験や司法試験の一部 — 日本国内でもIRTを活用した採点・分析が導入されています。

このように、IRTは「受験者の本当の実力を正確に測りたい」という場面で、英語試験を中心に世界中で採用されている確立された技術です。

これらの試験は、いずれもコンピュータを使って受験するCBT（Computer Based Testing、コンピュータ試験）の形式をとっています。紙のテストでは全員に同じ問題を出すしかありませんが、CBTではIRTを使って「受験者の実力に合った問題」をリアルタイムに選ぶことが可能になります。

従来のテストとの違い

従来のテストでは、「100点満点中何点」という素点で評価するのが一般的です。しかし、この方式にはいくつかの問題があります。

従来の方式（素点ベース）

テストの難易度によって点数が変動する
簡単なテストで80点をとった人と、難しいテストで80点をとった人の実力は異なる
全員に同じ問題を出す必要がある

IRTによる方式（能力値ベース）

各問題の難易度を事前に把握している
「どの難易度の問題に正解/不正解だったか」から能力を推定する
難しい問題に正解すれば能力推定値が大きく上がり、簡単な問題に不正解なら大きく下がる
受験者ごとに異なる問題を出しても、同じ尺度で比較できる

つまりIRTでは、「何問正解したか」ではなく「どんな難易度の問題に正解したか」が重要になります。

えいたんごクイズでの使い方

えいたんごクイズの語彙力診断では、IRTの考え方をそのまま活用しています。

診断が始まると、まずあなたの能力を「中程度」と仮定して問題を出します。正解すれば能力推定値を上方に修正してより難しい問題を、不正解なら下方に修正してやさしい問題を出します。これを20問繰り返すことで、あなたの語彙力をかなりの精度で絞り込むことができます。

このように、回答に応じてリアルタイムに出題を変える方式を適応型テスト（CAT: Computerized Adaptive Testing）と呼びます。TOEFL iBTなどで使われているのと同じ仕組みです。

なぜ20問で測れるのか — 3つの難易度モード

英語の語彙力には非常に大きな幅があります。英検5級レベル（数百語）から1級レベル（1万語以上）まで、すべてを正確にカバーするには、本来30問〜40問程度の問題数が必要です。

しかし、1回のテストが40問もあると、気軽に挑戦しにくくなります。「ちょっとやってみよう」という気持ちでは始められません。

そこで、えいたんごクイズでは3つの難易度モードを用意しました。

かんたん

英検5級〜3級レベルを中心に出題。英語学習を始めたばかりの方や、小中学生におすすめ。

ふつう

英検3級〜2級レベルを中心に出題。高校生や、英語をある程度学んできた方向け。

激ムズ

英検準1級〜1級レベルを中心に出題。語彙力に自信がある方への挑戦状。

モードを分けることで、各モードがカバーする能力範囲を絞り込んでいます。20問という限られた問題数でも、対象範囲が狭くなれば精度は十分に確保できます。結果として、どのモードでも約2分で診断が完了します。

自分がどのモードを選べばいいかわからなければ、まず「ふつう」から試してみてください。結果を見て、簡単すぎた・難しすぎたと感じたら、別のモードに挑戦すれば、より正確な推定語彙数が得られます。

あなたの回答がシステムを育てます

IRTの精度を決めるもうひとつの重要な要素が、各問題の難易度パラメータです。

「この単語はどのくらいの実力の人なら正解できるか」を、問題ごとに推定しています。この推定に使っているのが、皆さんの回答データです。

多くの人が正解する問題は「やさしい」、多くの人が間違える問題は「難しい」。ただし単純な正答率ではなく、回答者の能力推定値と照らし合わせて、より精緻な難易度パラメータを算出しています。

つまり、皆さんがクイズに挑戦すればするほど、問題の難易度推定が正確になり、次に受ける人の診断精度が向上します。あなたの1回の挑戦が、すべての英語学習者のためになるのです。

ぜひ、どんどん使ってください。

あなたの語彙力、測ってみませんか？

20問・約2分。回答データはシステムの改善にも役立ちます。

2分で語彙力診断する英単語クイズに挑戦する