潜在ランク理論(ニューラルテスト理論)

ここは,僕が仲間と一緒に開発している潜在ランク理論(ニューラルテスト理論)についての紹介ページです.潜在ランク理論(LRT)は,自己組織化マップ(self-organizing map, SOM)や生成トポグラフィックマッピング(generative topographic mapping, GTM)のメカニズムを利用したノンパラメトリック・テスト理論です.

簡単なご紹介 PPT

Can-Do Chartの例 PDF

LRTは,2007年のInternational Meeting of Psychometric Society (IMPS2007)で初めて発表し,外国の研究者を含めて,多くの方々に興味をもっていただいています.もし,興味があれば,研究を手伝ってください.理論系・応用系・ソフトウェア開発など,どんな形でも大歓迎です.やっているうちに,この理論の不完全だったり不十分だったりするところも見えてくるかもしれませんが,みなさんと力を合わせて豊かにしていきたいです.また,こういった研究を行ったということを報告してくだされば,当ページで紹介していきたいと思います.どうぞよろしくお願いします.

テストの連続得点の功罪

世界中の教育現場で,多くの生徒はテストの結果(連続得点)で学力を評価されています.しかし,たとえば,100点満点のテストにおいて,65点と70点の間には実質的な学力差があるでしょうか.100点満点のテストにおいて,5点差や10点差は能力差と断言することは難しく誤差の可能性が高いです.それにも関わらず,テストの連続得点を用いて,学力評価や入試選抜に用いてよいでしょうか.

テストは,体重計や身長計のように解像度(信頼性)が高くありません.体重計はわずかに異なる2人の体重を見分けることができますが,テストはわずかに異なる2人の学力を見分けることができません.体重計が測定したA君の62kgB君の60kgは,間違いなくA君のほうが2kg重いと判断できるほど体重計は精度が高いです.しかし,テストが測定したCさんの62点とDさんの60点は,間違いなくCさんのほうが学力が高いと判断できるほど,テストは精度が高くありません.つまり,テストができるのは,せいぜい受験者集団を520のグループに段階評価するくらいです.テストをよく用いる学校現場でも,0100点で細やかに評価する必要はなく,5段階程度に分類できれば十分であるという教員の方々もいます.

連続得点は,小幅ながらも常に得点が変動するので動機付けの観点から良いという意見もあります.しかし,それでも誤差のような点数の乱高下で,生徒を一喜一憂させるべきではないと考えています.また,入試などでは,連続得点を用いるときめの細かい入学定員の操作が行えるので,便利だという意見もあります.しかし,微細な1点の違いで天国と地獄を分けるよりは,テストでざっくりと段階評価を行って,あとは面接や内申書などのほかの情報を用いて定員操作を行うべきだと考えています.つまり,テストを用いて学力を段階評するということは,テストの相対的な権威を下げ,他の教育情報を用いる契機になると思っています.この他にも段階評価は,プレースメントテストのように,入学者の英語力に応じて少クラスに編成したいときなどにも便利です.

試験は,広い意味で,どの学生をどの学校に入学させるかというような社会的配置の問題でもあるので,資源に乏しいわが国では,人材の適切な配置の失敗が,国益を損なうことにつながることもあります.

段階評価のためのテスト標準化理論の必要性

それでは,どのように学力を段階評価するのでしょうか.実は,学力の段階評価とテストの資格試験化は密接に関係しています.資格試験とは,テストの結果で,受験者の具体的な能力の細目を説明でき,それら細目の獲得の程度を保証できるテストのことです.大学入試センター試験も資格試験として運用してはどうかという意見が,平成7 (1999) 年の中央教育審議会と平成8 (2000) 年の大学審議会( 現在の中央教育審議会大学分科会) の答申で出されました.そこでは,センター試験も大学に進学する最低限の学力があるのかどうかを判定するための資格試験として用いることが提言されています.

テストを資格試験化し,学力を段階評価するためには,そのような目的を達成するようなテスト理論を用いる必要があります.テスト理論は,テストを標準化して経年運用したり,学力を評価するための統計理論です.テスト理論では,項目反応理論(item response theory, IRT)が最もよく用いられており,TOEFLTOEICなど,IRTを用いて運用されている大規模テストも多いです.しかし,IRTや古典的テスト理論(classical test theory, CTT)は,連続的な学力評価尺度が仮定されている(たとえば,TOEFLの紙テスト版は300677の連続尺度)ので,テストを資格試験化する際の標準化理論としては難しさが残ります.したがって,学力を連続尺度上ではなく順序尺度上で段階評価するテスト標準化理論が必要なのです.もちろん,連続尺度を適当な区間に分割すれば,段階評価とならないこともありませんが,連続尺度上のどこで分割を行うかについて面倒な問題が残ります.

そのような背景から,本サイトでは潜在ランク理論(ニューラルテスト理論)の開発を進めています.LRTは,自己組織化マップや生成トポグラフィックマッピングのメカニズムを利用した統計モデルであり,学力を段階評価するために連続尺度ではなく順序尺度を仮定したテスト理論です.

資格試験のためのテスト理論

図は,従来の連続尺度による評価と,潜在ランク理論(ニューラルテスト理論)を用いた順序尺度による段階評価の違いを模式的に表しています.テストは,単に選抜に用いるだけではなく,どの程度の学力を受験者が有しているかについての診断機能を保持していることが望ましいです.したがって,学力を段階評価し,各能力段階(潜在ランク latent rank)の学力プロフィールである学力進度表(Can-Do Chart;「アクセサリ」参照)を明らかにすることが重要です.Can-Do Chartは連続尺度のもとで作成することは難しく,順序尺度のもとで作成したほうが各段階に対応する学力水準を記述することが簡単です.Can-Do Chartの作成することは,テストを品質管理していることであり,テストが測定しているものを明らかにすることで,テストのアカウンタビリティが確保されます.

潜在ランク理論

ニューラルテスト理論は,潜在変数が順序尺度であるような統計モデルです.そのような種類の統計モデルは,まだまだ開発されていなく,我々は,潜在ランク理論(latent rank theory, LRT)という枠組みを提案して統計モデルを開発しています.

 

潜在ランク理論(latent rank theory, LRT

データ型

LRT-SOM

LRT-GTM

2値データ

RN08-01

RN08-06

順序データ

RN07-03

準備中

名義データ

RN07-21

準備中

連続データ

準備中

準備中

 

ニューラルテスト理論は,自己組織化マップ(self-organizing mapping, SOM)あるいは生成トポグラフィックマッピング(generative topographic mapping, GTM)のメカニズムを利用してモデルを推定する潜在ランク理論です.GTMを用いたLRTモデル(LRT-GTM)は,バッチ型学習モデルと言い,SOMを用いてモデルを推定するよりも計算時間が短く,また,毎回の計算が変動しません.SOMを用いた推定は,気になるほどではありませんが,毎回ごとの計算結果が微妙に異なっています.ただし,SOMを用いた結果の方が,推定される項目参照プロファイル(「特徴」参照)が滑らかになる場合が多いです.