電腦化測驗

第二章文獻探討

第一節電腦化測驗

壹、測驗的發展趨勢

一、測驗的意義

測驗是「採用一套標準的刺激，對個人的特質作客觀測量的有系統程序」(郭生玉，1980)。測量(measurement)是指以特定的工具，根據某一種法則，指派一種符號(數字或文字等)給人、事或物的歷程或活動；此歷程或活動與人的一生息息相關。測驗(test)或狹義的考試(examination)是測量過程中最常見的工具之一，其內容多樣，形式也多。測驗或考試不外乎在進行診斷、選才、安置、預測、成就評定、證照認定等活動，無論其目的為何，測驗所要求的是準確、公平或合理(何榮桂，2006)。簡而言之，測驗就是在作社會與行為科學的研究時，用來收集資料的一種工具(李連順，

2000)。

二、測驗的發展史

測驗最早可追溯至三千多年前中國隋堂時代的科舉制度，歐美各國之文官考試制度亦效法於我國。考試制度的創設雖然源自中國，綿延數千年後，世界各國爭相採用，以作為建立文官制度的選拔依據但是中國卻一直沒有針對「考試」這門學問進行比較科學化的量化分析，致使近代的心理計量學(psychometrics)卻發展且發揚於外國，西風東漸後，才傳入中國。心理計量學是一門研究心理測驗(psychological testing)與評斷(assessment)的科學(Cohen, Montague, Nathanson, & Swerdlik, 1988, P.26)，是一門包括量化心理學(quantitative psychology)、個別差異(individual differences)、和心理測驗理論(mental test theories)等研究範圍的學問(余民寧，1991)。而心理

測驗的濫觴，是在西元1905年法國心理學家A. Binet and T. Simon所發展的比西量表法(BinetSimon Scale)智力測驗，它可以說是人類第一個客觀的心理測驗。然就測驗與評量的發展史而言，根據美國教育委員會(American Council on Education)所發行的「教育測量(Educational Measurement)」一書將測驗評量的發展大至分為三個時期開創期(西元1850年～西元1950年)、

盛行期(西元1951年～西元1970年)、擴展期(西元1971年～西元1988年)，研究者參考相關文獻將測驗評量發展時程整理如下表21所示(余民寧，

1991；江仲翔，2003)：

表21 測驗評量的發展時程表

時程相關理論測驗編製的重點

開創期

(西元1850年～1950年)

1. 比西量表(測驗理論的起源)

2. 強調在測信度的重要性。

3. 重視內容校度和校標關聯效度。

4. 提倡常模參照測驗的理念。

1. 標準化測驗。

2. 實行試題分析。

3. 利用電腦統計。

盛行期

(西元1951年～1970年)

1. 重視副本信度。

2. 建構效度概念的建立。

3. 提倡校標參照測驗。

1. 由於電腦的快速分析，產生大量的客觀測驗。

2. 個別化趨勢，而產生了適性測驗。

3. 建立眾多題庫。

表21 測驗評量的發展時程表(續)

時程相關理論測驗編製的重點

盛行期

(西元1951年～1970年)

1. 認知理論的的影響。

2. 試題反應理論 (Lord,1980)的誕生。

3. 重視整合分析。

4. 貝式統計的思考模式提出。

1. 適性測驗之編製。

2. 電腦科技的融入 3. 強調測驗的倫理

規範。

轉型期

(西元1951年～1970年)

1. 多元智力理論 (Gardner,1983)的提出，影響後續智力理論的發展。

2. 強調應以「全人」和「終生學習」為出發點的測驗與評量。

3. 此階段發展的評量信、效度與測驗品質、客觀公平性等，皆未獲得合理的解決，仍需努力改進。

1. 測驗與評量的轉型，重視實做與真實評量。

2. 新式評量觀念

「檔案評量」亦被提出作為評量人類多元心智能力的主要架構。

綜合上述，就測驗評量的理論而言，學者們將其分成兩派：一是古典理論，主要以真實分數模式(true score model) (Gullikson, 1987; Lord &

Novick, 1968)(亦即，觀察分數等於真實分數與誤差分數之和，數學公式為 X=T+E)為主幹，其發展已為時甚久，且有相當之規模，計算公式簡單明瞭，

適用於大多數的教育與心理測驗資料，以及社會科學資料的分析，為目前測驗學界使用最廣的理論依據；另一是當代測驗理論(modern test theory) 主要是以試題反應理論(item response theory) (Hambleton & Swaminathan,

1985; Hambleton, Swaminathan, & Rogers, 1991; Hulin, Drasgow, & Parsons, 1983; Lord, 1980)為架構，其理論的發展為時較晚，正處於發展中的狀態，

計算公式較複雜深奧，但其立論與假設均合理且嚴謹，所適用的測驗資料種類雖屬有限，卻深受測驗學者的青睞，與古典理論相較，有過之而無不及(余民寧，1991)。然在測驗的施測方式及編製過程而言，因資訊科技的發達、電腦與網路的普及，已從古典理論為基礎的標準化測驗，發展至現今以試題反應理論為基礎的電腦化適性測驗，已有跨國性的測驗及我國許多職考、資格考都應用電腦進行施測，如TOEFL、GRE、劍橋職場外語檢測(BULATS)及我國交通部公路局的駕照考試、考選部的多項國家考試，

都已實施電腦化測驗，可見目前測驗的發展，已趨向電腦化的施測方式，

然電腦化測驗會因依據理論而有所不同，本研究將於下面繼續探討。

貳、電腦化測驗的發展

測驗的理論與實際已不是一個新的問題，但隨著工具的發展與改變，

其實施方式也隨著改變。傳統的紙筆測驗，因電腦的輔助而有電腦化測驗。測驗電腦化的結果，可使測驗的情境更標準化，取代人工計分，減少誤差，節省時間與人力，皆為常見的優點。目前已有很多著名的測驗用電腦化施測 (如ETS 之托福等)，此種發展趨勢將逐漸取代紙筆測驗(何榮桂，2000)。因電腦的發達，現今許多教學活動都已融入資訊科技，而網路的普及，促使遠距離教學應運而生，當然電腦化測驗也隨之發展。然電腦化測驗的發展最早可追溯到1934年，美國哥倫比亞大學教授Benjamin Wood即與IBM的工程師合作開始發展電腦閱卷機(mechanical testscoring machine)，彼等的努力，隨即被一位高中的科學教師Reynold B. Johnson實現，類似目前使用之電腦計分卡在這個時代就已誕生了(何榮桂，2006)，

而運用電腦於測驗，大致上與電腦的發展是平行進行的，如1970年代的文字介面大型電腦，此時電腦運用於測驗，僅是記分、閱卷及處理報告的功

能。1980年代圖形介面及個人電腦的誕生，電腦才逐漸普及，也廣泛被應用在各個領域，此時電腦與測驗的結合才真正被實現，但電腦化測驗僅是將傳統的測驗電腦化嗎？在1980年代後期，開始發展針對個別化的適性測驗，電腦化適性測驗的應用讓電腦化測驗的發展向前邁進了一大步。

何謂電腦化測驗？余民寧(2002)認為是用電腦科技來輔助施測者編輯試題題本、進行施測、資料統計計分及結果的分析、報告、解釋之測驗方式。換言之，電腦化測驗的主要內涵即是利用電腦科技間接地測量人類的某種心理特質，測量的內容廣泛，例如：學習成就、認知能力及性向等(陳新豐，2007)。隨著資訊科技進步，電腦化測驗依據不同的測驗理論及電腦技術的發展，而發展出不同類型的電腦化測驗，而其分類方式繁多(余民寧，2002；何榮桂，1990、1997；陳易芬，1993；陳志信，1993；陳柏熹，

2006；陳新豐，2007；葉千綺，1998；Bunderson , Inouye & Olsen, 1989) ，其中何榮桂(1997)將電腦化測驗分類為「傳統的電腦化測驗(Computerized Based Tests, CAT)」、「電腦化適性測驗(Computerized Adaptive Tests, CAT)」、「線上測驗(Web Based Tests)」等，而陳新豐(2007)將其三種電腦化測驗的意義整理如下表22：

表22 電腦化測驗一覽表(陳新豐，2007)

傳統的電腦化測驗電腦化適性測驗線上測驗英文全名 Computerized Based

Tests

Computerized Adaptive Tests

Web Based Tests

英文簡稱 CBT CAT WBT

意義

將傳統紙筆測驗改成以電腦螢幕或網路當呈現介面，逐一或全部呈現試題的電腦輔助施測的方式。

針對不同能力程度的考生及其不同的作答速度，提供適合其能力作答的適當難度試題，謀求估計考生能力的最大精確性，達成量身訂作的「因才施測」最高理想境界。

就測驗環境而言，結合網際網路的優點，

將能夠提供超越時空、隨選隨測、高彈性的施測環境的測驗方式。

表22 電腦化測驗一覽表(續)

傳統的電腦化測驗電腦化適性測驗線上測驗理論基礎古典測驗理論試題反應理論古典測驗理論

試題反應理論

特色

1.與傳統紙筆測驗內容相同

2.施測及計分利用電腦輔助

1.量身訂製的施測內容

2.可以顯現個別的能力差異

3.施測流程非線性 4.無法跳答

5.施測長度不同

1.網際網路的施測環境 2.施測時間、

地點彈性

實例

International Computer Driving Licence：ICDL、

Institute of Certified Management

Accountants：ICMA

TOEFL、GRE、SAT 目前尚無全球舉辦之正式考試

陳新豐(2007)針對國內博碩士論文以「電腦化測驗」為主題進行搜尋整理，發現電腦化測驗相關研究以「電腦化適性測驗」及「線上測驗」居多，而多數的線上測驗屬於傳統電腦化測驗，由此顯見國內電腦化測驗的研究趨勢。何榮桂(2006)認為電腦化測驗運用資訊科技管理測驗，簡化試務流程，符合應考人即測即評之「效率」及「經濟」需求，已是測驗發展之必然趨勢。

有關電腦化的測驗的優點，本研究參考相關文獻整理如下(李連順，

2000；何榮桂，1990；林敏芳，2005；周倩，1998；陳志信，1993；Ree and Carreta,1998)。

1. 不受時空的限制，可隨時隨地進行，且易於反覆的練習。

2. 可立即得到回饋。

3. 多樣化的呈現方式，可利用圖片、聲音、動畫及影片的結合，真實

呈現題目的情境。

4. 節省人力與時間，提高工作效率。據一些研究顯示，以電腦來實施同一版本的紙筆測驗，前者只需後者的57%的施測時間。

5. 可作適性化測驗，達因材施教的評量環境。

6. 在施測中，可收集測驗過程或受試者額外的訊息，可提供改進施測的依據，亦可做認知診斷的分析。

7. 題庫眾多，擴充、修改容易。

8. 可將測驗標準化，進行情境的有效控制，避免人為的情境干擾。

9. 可降低測量的誤差，如利用電腦可控制顯示題目的數目，避免字跡對評量的影響。

10. 易引發學習動機。

電腦化測驗結合網際網路之後，其更可以提供超越時空、隨選隨測、

更彈性的施測環境(何榮桂，1997)。McCormack and Jones (1997)認為網路測驗能夠改善評量的程序和方法，因為網路測驗具備有節省時間、即時回饋、減少資源、保存記錄、更加便利等特性。然電腦化測驗亦存在著一些問題，是值得我們注意的，本研究亦參考相關文獻整理如下(李連順，2000；

林裕集，2001；林敏芳，2005；陳志信，1993；Mazze and Harvey,1988；

Ager,1993)：

1. 試題呈現的方式，電腦化測驗通常採一題一題的方式呈現，遇到過長的閱讀測驗文章往往須加修改，以免受試者在閱讀時必須按鍵以

在文檔中相關性思考之電腦化施測系統研發及其實證研究 (頁 14-22)

第二章 文獻探討

第一節 電腦化測驗

第二章文獻探討

第一節電腦化測驗