題庫與電腦化適性測驗

第二章文獻探討

第三節題庫與電腦化適性測驗

壹、題庫

題庫是指每道試題均經過編製、分析、系統編碼、測試、評論、修正、刪改而建立起試題特徵資料的一群試題，並且可用來組成評量各種教學成果的工具。

動態的題庫主要是考慮新增試題的參數問題，利用不同時間所獲得的試題來進行整個題庫之間的等化連結。McCallon 與 Schumacker (2002)對現代化電腦題庫的定義，是指存有可即時提供正式考試所使用的試題庫，並運用電腦進行存取與組卷，

題庫中的每一試題均有必要的試題參數及特徵，同時也有內容分析及測驗目標。

一、建立題庫的步驟

針對題庫的建立，一般可依據課程標準、教材大綱、雙向細目表的編寫而成，

它的建立過程，如許擇基、劉長萱等(1992)歸納為試題的編寫與修訂、選題預試、

試題的校準與銜接、更新題庫、測驗編輯、評估測驗品質、測驗是否達預期的水 準、執行考試、評分、決策、研究與評鑑等十一個步驟(如圖 2-2)。

二、題庫之品質

題庫品質，可分從題庫建立、影響品質因素和品質指標等三方面加以討論。

（一）題庫的建立

以古典測驗或試題反應理論為基礎所建立之題庫，在程序上大同小異，大致如下列幾個步驟：1.建立試題內容規格，2.試題撰寫，3.預試，4.試題分析並篩選試題，5.題庫管理。在試題分析方法中，古典測驗理論以試題的鑑別度、難度與測驗的信、效度做為題庫品質的參考指標；而試題反應理論則以難度參數、鑑別度參數、猜測度參數、測驗訊息函數及相對效率做為描述題庫品質之指標。在測驗編製完成之後，古典測驗理論必須進行建立常模和標準化的步驟，而以試題反應理論為基礎之題庫則需運用等化連結的技術及理論，對題庫作進一步的擴充。

（二）影響題庫品質之因素

影響題庫品質之因素可分為外在及內在因素兩大類。

外在因素方面包括：1.足夠經驗的測驗編製專家；2.充分的時間；3.充裕的經費；4.能不斷預試及修正的循環編輯機制；5.眾多的受試者。在理想狀態下以試題反應理論為基礎之題庫，應在各能力水準皆有充足數量的試題，而且各試題皆能精確測量受試者之能力。但在題庫建立的實務上，難以建立理想的題庫，因此在實務上妥協的方法為：1.將能力值限定於某範圍內；2.考慮經費及成本，題庫的規模(總題數)、預試及修正的次數皆有適量的限制；3.當受試者為一群能力水準呈常態分配者，需應用選題策略以改善試題受曝光率影響之情況。

內在因素方面，陳麗如等(1999)認為須考慮：1.試題內容與測驗目的配合程度；

2.題庫規模；3.參數(a、b、c 等參數)分配；4.試題曝光率。

圖 2-2 題庫發展流程圖

______________________________________________________________________

資料來源：出自余民寧(2009：243)

（三）題庫品質指標

有關題庫品質的研究中，大多以試題參數為題庫品質之參考指標。在建立題庫的實務過程中，經由受試者之作答反應組型資料，及試題分析軟體進行各試題之參數估計，最後依研究者個人之經驗篩選出「優良」試題，以建立題庫。

一般而言，以試題反應理論為基礎之題庫，其品質管理策略之訂定，可將試題參數(a、b、c)視為影響試題品質之主要因素。而不同題庫間之品質水準，常採用測驗訊息函數(test information function； TIF)來加以比較( Hambleton &

Swaminathan, 1985)。

（四）電腦化適性測驗題庫的特質

要發展電腦化適性測驗，首先要有一個具有試題反應理論為基礎之題庫，題庫中之參數，必須以共同量尺來表示才能有一致的標準。

以試題反應理論為基礎之題庫，有下列特點(王寶墉，1995；陳麗如，1999；

余民寧，2009):

1.題庫的試題參數應包括鑑別度、難度及猜測度等三個參數。

2.難度參數應能涵蓋所有受試者的能力。

3.若能力介於±3 時，難度參數亦應介於±3 之間。

4.鑑別度參數應在 0.8 以上，若使用太高或太低的鑑別度參數時，亦應有理由。

5.猜測參數應在 0.3 以下。

6.題庫的題數最少在 100 題以上。

7.題庫中之試題都能測量到相同的能力或潛在特質。

當然，不同的測驗目的也會影響到題庫的試題參數之分佈範圍(特別是難度參數)。例如，資優班學生甄選用的電腦化適性測驗題庫，其難度參數最好在 1.0 到 1.5 之間。鑑別智力不足用的電腦化適性測驗題庫，其難度參數最好在 -0.3 到 -1.0 之間，而測量一般常態分佈的群體之電腦化適性測驗題庫，其難度最好在±3，且均勻分佈(陳麗如，1999)。

關於題庫的大小，理論上是越大越好。而且試題之難度參數要能配合受試者的能力分佈。當鑑別度大，猜測參數小時，題庫內試題的總題數就不必太大，反之，試題品質較差時，題庫則需要較大數量之試題。

三、題庫的評價

由於題庫的建立需要一定的經費和技術，一般來說，只有那些 1.經常需要進

行測驗的部門或團體；2.對測驗及評量有正確觀念的主管支持；3.充裕的經費；4.

足夠經驗的測驗編製專家；5.充分的時間等條件適合時，才能夠建立題庫成功。

（一）題庫的優點

題庫能在各個領域上都得到廣泛的應用，是因為使用題庫有下列的優點(余嘉元，1992)：

1.對試題進行明確的分類。

2.將大量試題組織成具有結構性。

3.可以計算出試題的參數並刪除質量不好的試題，

4.對試題進行等化連結，擴增題庫的規模。

5.測驗試題組織靈活，對不同受試者提供不同的試題。

6.記錄每個受試者對試題的反應情況，輔助教師組織因材施教的訊息。

7.容易根據所感興趣的測量目標，組織試題。

8.得到足夠數量和測量目標有關的試題。

9.可以編製出高品質的測驗。

10.容易編製平行的測驗，也能夠根據編製者的要求，編製出不同難度的測驗。

（二）建立題庫的缺點

余嘉元(1992)指出題庫的缺點，其主要的問題是專業技術層次要求高，並非每一個使用者都能掌握題庫的建立、修改和使用技術，其次，題庫的建立是需要測驗專家和電腦程式專家共同參與才能完成。

綜合上述之文獻分析可以歸納出，建立題庫是具有許多顯而易見的優點，並且題庫可預期將來對測驗編製的重要性，同時也會節省編製測驗的時間與經費，尤其是唯有高品質的題庫才能有高精確度的測驗，而這也是本研究必須建置題庫的主要目的。

貳、電腦化適性測驗

一、適性測驗的歷史

最早應用適性測驗（即因材施測式的測驗方式）的例子，是以 1908 年 Binet 所作的智力測驗為代表(Weiss, 1985)。1960 年代末期，Lord 感覺到，對於低能力與高能力的受試者而言，固定長度的測驗無法有效滿足這些受試者能力估計之需求，因此才極力投入適性化測驗之研究。Lord 認為如果被挑選用來施測的試題都能針對每位受試者之能力提供最大訊息量，則縮短測驗的長度，應該不會降低對每位受試者能力的精確測量。理論上而言，每位受試者所接受的施測試題，應該都會是不同的試題組合(余民寧，2009)。

適性測驗之發展可簡單依施測的方式分為五個階段，人工化(1905~1950 年代後期)、結構式電腦化(1950 後期~1970 年代前期)、模式導向電腦化(1970 後期~1990 年代前期)、智慧化、診斷化(1990 後期~1990 年代後期)、遠距化(1990 年代後期~

迄今)(李茂能，2002)。但是要實施精確的適性測驗，唯有在電腦誕生後，才有普及施行適性測驗的可能。因為現代科技的發達，日新月異，大容量記憶體可以貯存數目龐大的測驗訊息、各種測驗、施測記錄及測驗分數，不斷更新的運算速度可快速達到系統要求，因此在現代科技的推波助瀾下，電腦化適性測驗的發展愈趨成熟。

二、適性測驗的類型

1900 年初期，Binet-Simon 在法國所發展的智力測驗，可以說是第一個適性測驗(Weiss, 1983)。1951 年，Hick 整理出適性測驗的基本原則(De Ayala, 2009)。

兩階段式測驗 (two-stage testing)

適性測驗

策金字塔測驗

略 (紙筆或電腦施測)

固定分支選題策略彈性測驗 (fixed-branching item selection)

分層適性測驗多階段式測驗

(multistage testing)

貝氏估計策略 (電腦施測)

變化分支選題策略

(variable-branching item selection) 最大訊息量策略圖 2-3 適性測驗策略

依據文獻指出適性測驗因分支結構的策略差異而構成不同的類型，主要分為兩階段式測驗(two-stage testing)與多階段式測驗(multistage testing)兩大類(圖 2-3)。

在多階段式策略下可分為固定分支模式(fixed-branching )與變化分支模式

(variable-branching)。模式取決於試題之選擇方式，分為以數學為基礎的模式稱為變化分支選題策略(variable-branching item selection)，以結構為基礎的模式稱為固定分支選題策略(fixed-branching item selection) (De Ayala, 2009)。固定分支策略又可分為:金字塔測驗(pyramidal testing)、彈性測驗(flexilevel test)、及分層適性測驗 (stradaptive testing)，可以使用紙筆或電腦施測。變化分支策略以試題反應模式為其理論基礎，可分為貝氏估計策略與最大訊息量策略，主要使用電腦來進行施測。

De Ayala(2009)於書中指出 Cleary, Linn, & Rock 提出 two-stage test、Lord 提出 flexilevel test、Weiss 提出 stradaptive test 及 Larkin & Weiss 與 Lord 提出 pyramidal test 等適性測驗策略，玆描述如下。

（一）兩階段適性測驗

兩階段適性測驗(two-stage adaptive testing)，包括一個共同測驗及一個或一個以上之分別測驗，共同測驗與分別測驗之間具有階層關係如圖 2-4。兩階段適性測驗是一種分測驗與分測驗之間分支策略結構，第一部份共同測驗目的只是作為第二部份的參考，稱之為「定路線測驗」(routing test)，含有不同難度水準的測驗。

定路線測驗結果可對受試者能力進行粗略的評估，再依此評估給予適合受試者能力之第二部份分別測驗。分測驗的試題通常由簡單容易至困難成線性排列，施測的進度亦同。兩階段測驗中的分別測驗可用較少的試題對受試者提供較多的訊息，進行施測的試題數目及所花的時間比傳統測驗少。

容易困難

圖 2-4 兩階段適性測驗

（二）金字塔型適性測驗

金字塔型適性測驗又稱為樹狀結構型(tree-structure)適性測驗，此種施測方式採固定分支選題策略，選題以單一試題為選擇單位，受試者在任一階層只能對一

在文檔中線上適性測驗系統之建置以婦產科學為例 (頁 30-49)

第二章 文獻探討

第三節 題庫與電腦化適性測驗

壹、題庫

貳、電腦化適性測驗

第二章文獻探討

第三節題庫與電腦化適性測驗