• 沒有找到結果。

題庫與電腦化適性測驗

第二章 文獻探討

第三節 題庫與電腦化適性測驗

壹、題庫

題庫是指每道試題均經過編製、分析、系統編碼、測試、評論、修正、刪改 而建立起試題特徵資料的一群試題,並且可用來組成評量各種教學成果的工具。

動態的題庫主要是考慮新增試題的參數問題,利用不同時間所獲得的試題來進行 整個題庫之間的等化連結。McCallon 與 Schumacker (2002)對現代化電腦題庫的定 義,是指存有可即時提供正式考試所使用的試題庫,並運用電腦進行存取與組卷,

題庫中的每一試題均有必要的試題參數及特徵,同時也有內容分析及測驗目標。

一、建立題庫的步驟

針對題庫的建立,一般可依據課程標準、教材大綱、雙向細目表的編寫而成,

它的建立過程,如許擇基、劉長萱等(1992)歸納為試題的編寫與修訂、選題預試、

試題的校準與銜接、更新題庫、測驗編輯、評估測驗品質、測驗是否達預期的水 準、執行考試、評分、決策、研究與評鑑等十一個步驟(如圖 2-2)。

二、題庫之品質

題庫品質,可分從題庫建立、影響品質因素和品質指標等三方面加以討論。

(一) 題庫的建立

以古典測驗或試題反應理論為基礎所建立之題庫,在程序上大同小異,大致 如下列幾個步驟:1.建立試題內容規格,2.試題撰寫,3.預試,4.試題分析並篩選 試題,5.題庫管理。在試題分析方法中,古典測驗理論以試題的鑑別度、難度與測 驗的信、效度做為題庫品質的參考指標;而試題反應理論則以難度參數、鑑別度 參數、猜測度參數、測驗訊息函數及相對效率做為描述題庫品質之指標。在測驗 編製完成之後,古典測驗理論必須進行建立常模和標準化的步驟,而以試題反應 理論為基礎之題庫則需運用等化連結的技術及理論,對題庫作進一步的擴充。

(二) 影響題庫品質之因素

影響題庫品質之因素可分為外在及內在因素兩大類。

外在因素方面包括:1.足夠經驗的測驗編製專家;2.充分的時間;3.充裕的經 費;4.能不斷預試及修正的循環編輯機制;5.眾多的受試者。在理想狀態下以試題 反應理論為基礎之題庫,應在各能力水準皆有充足數量的試題,而且各試題皆能 精確測量受試者之能力。但在題庫建立的實務上,難以建立理想的題庫,因此在 實務上妥協的方法為:1.將能力值限定於某範圍內;2.考慮經費及成本,題庫的規 模(總題數)、預試及修正的次數皆有適量的限制;3.當受試者為一群能力水準呈常 態分配者,需應用選題策略以改善試題受曝光率影響之情況。

內在因素方面,陳麗如等(1999)認為須考慮:1.試題內容與測驗目的配合程度;

2.題庫規模;3.參數(a、b、c 等參數)分配;4.試題曝光率。

圖 2-2 題庫發展流程圖

______________________________________________________________________

資料來源:出自余民寧(2009:243)

(三) 題庫品質指標

有關題庫品質的研究中,大多以試題參數為題庫品質之參考指標。在建立題 庫的實務過程中,經由受試者之作答反應組型資料,及試題分析軟體進行各試題 之參數估計,最後依研究者個人之經驗篩選出「優良」試題,以建立題庫。

一般而言,以試題反應理論為基礎之題庫,其品質管理策略之訂定,可將試 題參數(a、b、c)視為影響試題品質之主要因素。而不同題庫間之品質水準,常採 用測驗訊息函數(test information function; TIF)來加以比較( Hambleton &

Swaminathan, 1985)。

(四) 電腦化適性測驗題庫的特質

要發展電腦化適性測驗,首先要有一個具有試題反應理論為基礎之題庫,題 庫中之參數,必須以共同量尺來表示才能有一致的標準。

以試題反應理論為基礎之題庫,有下列特點(王寶墉,1995;陳麗如,1999;

余民寧,2009):

1.題庫的試題參數應包括鑑別度、難度及猜測度等三個參數。

2.難度參數應能涵蓋所有受試者的能力。

3.若能力介於±3 時,難度參數亦應介於±3 之間。

4.鑑別度參數應在 0.8 以上,若使用太高或太低的鑑別度參數時,亦應有理由。

5.猜測參數應在 0.3 以下。

6.題庫的題數最少在 100 題以上。

7.題庫中之試題都能測量到相同的能力或潛在特質。

當然,不同的測驗目的也會影響到題庫的試題參數之分佈範圍(特別是難度參 數)。例如,資優班學生甄選用的電腦化適性測驗題庫,其難度參數最好在 1.0 到 1.5 之間。鑑別智力不足用的電腦化適性測驗題庫,其難度參數最好在 -0.3 到 -1.0 之間,而測量一般常態分佈的群體之電腦化適性測驗題庫,其難度最好在±3,且 均勻分佈(陳麗如,1999)。

關於題庫的大小,理論上是越大越好。而且試題之難度參數要能配合受試者 的能力分佈。當鑑別度大,猜測參數小時,題庫內試題的總題數就不必太大,反 之,試題品質較差時,題庫則需要較大數量之試題。

三、題庫的評價

由於題庫的建立需要一定的經費和技術,一般來說,只有那些 1.經常需要進

行測驗的部門或團體;2.對測驗及評量有正確觀念的主管支持;3.充裕的經費;4.

足夠經驗的測驗編製專家;5.充分的時間等條件適合時,才能夠建立題庫成功。

(一) 題庫的優點

題庫能在各個領域上都得到廣泛的應用,是因為使用題庫有下列的優點(余嘉 元,1992):

1.對試題進行明確的分類。

2.將大量試題組織成具有結構性。

3.可以計算出試題的參數並刪除質量不好的試題,

4.對試題進行等化連結,擴增題庫的規模。

5.測驗試題組織靈活,對不同受試者提供不同的試題。

6.記錄每個受試者對試題的反應情況,輔助教師組織因材施教的訊息。

7.容易根據所感興趣的測量目標,組織試題。

8.得到足夠數量和測量目標有關的試題。

9.可以編製出高品質的測驗。

10.容易編製平行的測驗,也能夠根據編製者的要求,編製出不同難度的測驗。

(二) 建立題庫的缺點

余嘉元(1992)指出題庫的缺點,其主要的問題是專業技術層次要求高,並非每 一個使用者都能掌握題庫的建立、修改和使用技術,其次,題庫的建立是需要測 驗專家和電腦程式專家共同參與才能完成。

綜合上述之文獻分析可以歸納出,建立題庫是具有許多顯而易見的優點,並且 題庫可預期將來對測驗編製的重要性,同時也會節省編製測驗的時間與經費,尤 其是唯有高品質的題庫才能有高精確度的測驗,而這也是本研究必須建置題庫的 主要目的。

貳、電腦化適性測驗

一、適性測驗的歷史

最早應用適性測驗(即因材施測式的測驗方式)的例子,是以 1908 年 Binet 所作的智力測驗為代表(Weiss, 1985)。1960 年代末期,Lord 感覺到,對於低能力 與高能力的受試者而言,固定長度的測驗無法有效滿足這些受試者能力估計之需 求,因此才極力投入適性化測驗之研究。Lord 認為如果被挑選用來施測的試題都 能針對每位受試者之能力提供最大訊息量,則縮短測驗的長度,應該不會降低對 每位受試者能力的精確測量。理論上而言,每位受試者所接受的施測試題,應該 都會是不同的試題組合(余民寧,2009)。

適性測驗之發展可簡單依施測的方式分為五個階段,人工化(1905~1950 年代 後期)、結構式電腦化(1950 後期~1970 年代前期)、模式導向電腦化(1970 後期~1990 年代前期)、智慧化、診斷化(1990 後期~1990 年代後期)、遠距化(1990 年代後期~

迄今)(李茂能,2002)。但是要實施精確的適性測驗,唯有在電腦誕生後,才有普 及施行適性測驗的可能。因為現代科技的發達,日新月異,大容量記憶體可以貯 存數目龐大的測驗訊息、各種測驗、施測記錄及測驗分數,不斷更新的運算速度 可快速達到系統要求,因此在現代科技的推波助瀾下,電腦化適性測驗的發展愈 趨成熟。

二、適性測驗的類型

1900 年初期,Binet-Simon 在法國所發展的智力測驗,可以說是第一個適性測 驗(Weiss, 1983)。1951 年,Hick 整理出適性測驗的基本原則(De Ayala, 2009)。

兩階段式測驗 (two-stage testing)

適 性 測 驗

策 金字塔測驗

略 (紙筆或電腦施測)

固定分支選題策略 彈性測驗 (fixed-branching item selection)

分層適性測驗 多階段式測驗

(multistage testing)

貝氏估計策略 (電腦施測)

變化分支選題策略

(variable-branching item selection) 最大訊息量策略 圖 2-3 適性測驗策略

依據文獻指出適性測驗因分支結構的策略差異而構成不同的類型,主要分為 兩階段式測驗(two-stage testing)與多階段式測驗(multistage testing)兩大類(圖 2-3)。

在多階段式策略下可分為固定分支模式(fixed-branching )與變化分支模式

(variable-branching)。模式取決於試題之選擇方式,分為以數學為基礎的模式稱為 變化分支選題策略(variable-branching item selection),以結構為基礎的模式稱為固 定分支選題策略(fixed-branching item selection) (De Ayala, 2009)。固定分支策略又 可分為:金字塔測驗(pyramidal testing)、彈性測驗(flexilevel test)、及分層適性測驗 (stradaptive testing),可以使用紙筆或電腦施測。變化分支策略以試題反應模式為 其理論基礎,可分為貝氏估計策略與最大訊息量策略,主要使用電腦來進行施測。

De Ayala(2009)於書中指出 Cleary, Linn, & Rock 提出 two-stage test、Lord 提出 flexilevel test、Weiss 提出 stradaptive test 及 Larkin & Weiss 與 Lord 提出 pyramidal test 等適性測驗策略,玆描述如下。

(一) 兩階段適性測驗

兩階段適性測驗(two-stage adaptive testing),包括一個共同測驗及一個或一個 以上之分別測驗,共同測驗與分別測驗之間具有階層關係如圖 2-4。兩階段適性測 驗是一種分測驗與分測驗之間分支策略結構,第一部份共同測驗目的只是作為第 二部份的參考,稱之為「定路線測驗」(routing test),含有不同難度水準的測驗。

定路線測驗結果可對受試者能力進行粗略的評估,再依此評估給予適合受試者能 力之第二部份分別測驗。分測驗的試題通常由簡單容易至困難成線性排列,施測 的進度亦同。兩階段測驗中的分別測驗可用較少的試題對受試者提供較多的訊 息,進行施測的試題數目及所花的時間比傳統測驗少。

容易 困難

圖 2-4 兩階段適性測驗

(二) 金字塔型適性測驗

金字塔型適性測驗又稱為樹狀結構型(tree-structure)適性測驗,此種施測方式 採固定分支選題策略,選題以單一試題為選擇單位,受試者在任一階層只能對一

金字塔型適性測驗又稱為樹狀結構型(tree-structure)適性測驗,此種施測方式 採固定分支選題策略,選題以單一試題為選擇單位,受試者在任一階層只能對一

相關文件