2.21.2008

試題反應理論

昨天的普通心理學參訪活動裡介紹了一個有趣的地方,心理系進行試題反應理論(item response theory, IRT)研究的實驗室。IRT是80年代後才漸漸具備雛型的測驗理論,目前台灣市面上能見到的依據IRT設計的測驗大概有GRE、托福等等。

IRT是當代測驗理論(modern test theory)的基礎,有別於以真實分數模式(true score model)為基礎的古典測驗理論(classical test theory)。

真實分數模式是一個表達一個古典測試結果的意義的模式︰
X = T + e
其中X代表受試者得到的分數(observed score),T代表受試者實際上的能力(true ability),e代表分數與能力之間的可能誤差值(random error)。以此為基礎建立的古典測試提供相同的題目給所有受試者,每個題目分配有固定的分數。台灣教育體系中大部份的考試都屬於古典測試。

古典測試的基礎很簡單,但是有一些缺點︰
因為使用固定的一組題目,一個古典測試的難度、鑑別度、信度是樣本依賴的。我們沒有辦法利用不同測試者的測試結果做出有意義且可反應試題的客觀難度、鑑別度、信度的比較。

古典測試理論無視受試者的個別差異。古典測驗對於每個題目assign固定的分數,經由這樣的操作得出的不同受試者之間的分數比能否準確地反應其能力比,是值得懷疑的。

古典測驗理論無視受試者的反應組型(item response pattern)。古典測驗理論假設在同一場測驗中得到相同分數的受試者會具有相同的能力,然而得到相同分數並不代表受試者做對和做錯的題目完全相同(即,不代表其具有一樣的反應組型),這樣的給分方式不夠informative。

古典測驗沒效率。測驗是為了測量受試者的能力值,因此,使用越接近受試者能力極限的題目來進行的測驗會越有效率,越容易在最短的時間內得到最準確的結果。反之,讓受試者面對太簡單或者太難的題目都只是在浪費時間。使用同一組題目進行測驗的古典測驗無法針對受試者的能力來選擇個別試題,因此效率不佳。*1


這些缺點在當代測驗理論中都可望被解決。以托福為例子,托福考試事先備有題庫,並且依據受試者的答題情況決定下一題的難度。也就是說,雖然大題庫是相同的,但是每位受試者的試題不一定相同。在這樣情況下,我們可以提供每位受試者最逼近其能力極限的試題,提高測驗效率,並且以廣大受試者的答對率和一些其它的資訊,例如受試者的最後分數為基礎,來計算單一試題的客觀難度、鑑別度和信度,並且依此調整單一試題的配分,做出能夠逼近受試者真實能力的結果分數。因為試題獨立,所以不論是根據難度還是出題方向來描繪反應組型都不困難,在英文測驗中,for instance,我們甚至可以將字彙試題分類,統計某一受試者擅長的字彙領域(例如「商業」、「醫學」)。

我參觀的實驗室處理的主要是某些受試者在托福這樣的測驗中因為試題外洩而不當得利的問題。像托福這種從大題庫裡抽題的測驗,最容易的作弊方式就是用各種方法尋找最近參加過測驗的人憑記憶寫下來的考古題,雖然托福每隔一段時間就會更換題庫,依然無法杜絕這種作弊。實驗室裡學長姐的工作就是想辦法避免讓這樣的人得到高分,他們用電腦程式跑數學模型來測試各種應對方案。相關的方法有很多,比方說使用平行題庫(我想大概就是增加待用試題數量的意思,讓作答狀況相同的兩個受試者依然有可能做到不一樣的下一題)、規定同一單一試題重複使用次數的上限等等。其中我聽到最酷的方法是根據受試者的作答時間的pattern來判斷該生是否唸過考古題。這個法子當然不會像「你做每一題的時間都低於5秒,I got you!!」這樣簡單,我想它的判斷應該也同時依靠其它的作答特徵,例如做不同難度或長度的試題的時間差(如果不管題目難不難這個人都用同樣的時間解決,他就很有可能唸過考古題)、答對試題的pattern(如果這個人把一系列難題三秒解決,卻栽在兩題簡單題上,他就很有可能唸過考古題)等等。(我剛剛又想到了,我們甚至可以設計一些專門用來測試受試者有沒有作弊的試題,讓程式在發現有作弊嫌疑的受試者時丟給他,這些測試試題可以是該受試者之前「輕鬆答對」的題目的counterpart,即對於同一個概念以不一樣的出題方式進行測驗的題目,如此一來,如果答對前面題目的受試者卻栽在它的counterpart上,他就很有可能是因為唸過考古題所以答對的。)IRT真的是滿有趣的東西,讓我再度後悔沒有好好念數學。






*1︰缺點事實上不只這些,余民寧的文章裡有比較完整的介紹



Referecnes
試題反應理論的介紹/余民寧
IRT in wiki
true score theory



本文最初發表於我的舊網誌

沒有留言:

張貼留言