線上測驗是否有可能具備與紙筆測驗相同評分效力？

(1)

線上測驗是否有可能具備與紙筆測驗相同評分

效力？

楊亨利應鳴雄

國立政治大學資訊管理學系親民技術學院資訊管理系

摘要

由於線上測驗系統提供填充題及問答題等題性測驗時，會產生嚴重的測驗評分等化（Equation）問題，因此目前大部分的網路測驗系統的考試題形便以是非題、單選題及複選題為主。為了瞭解線上測驗是否能具備與傳統測驗相同的評分效力，本研究在第一階段發展了一個具備模糊評分機制的線上測驗系統。該系統除了包括一般測驗系統所提供的是非、單選、複選等題型外，也能利用智慧評分機制來進行填充題評分。在第二階段，本研究將傳統紙筆測驗、一般型評分機制、本研究提出之智慧型評分機制進行評分效力比較。研究結果顯示在包含填充題型的測驗中，不同的評分機制在測驗成績的評分結果上會有顯著差異，而智慧型評分機制運作初期雖然可以減少與紙筆評分間的差異，並改善一般型評分機制的評分效力，但仍無法在統計上或得具有相同評分效力的結果。但是智慧型評分機制在擴充詞彙語意後，其評分結果會比未擴充前更加提升。此外，「已擴充語意後的智慧型評分機制」與「紙筆評分」的評分結果並無顯著差異，此結果顯示出透過智慧型模糊評分機制，線上評分系統將有可能具有與紙筆評分相同的評分效力來處理具有填充題型的測驗評分工作。關鍵詞關鍵詞關鍵詞關鍵詞：：：：測驗等化、測驗評分等化、電腦線上測驗、填充題、模糊評分機制

壹、緒論

測驗是利用試題來評量學生成就的一種工具，也是評量學習成果的有效方法。傳統紙筆測驗，無論是出題、考試、閱卷、成績計算等作業，皆由人工進行處理，而受測者通常也被指定在同一時間及同一地點進行考試。如此一來，不但測驗效率不高，且人工作業出錯的機會亦相對較大（何榮桂，1990；周文正，1998）。電腦輔助測驗（Computer-Based Testing [CBT]）因為能使測驗的效率提高、測驗時間的減少、測量誤差的降低、多元豐富的試題呈現方式、能夠獲得測驗相關的其他資訊（何榮桂， 1990）。因此連托福考試也採用電腦輔助測驗方式進行，考選部也正積極規劃國家考試採行電腦化測驗作業，並期望能達成考試技術的重大突破（考試院，2003）。美國心理學會（American Psychological Associate [APA]）在1986年，發表電腦基礎測驗在發展、使用以及解釋上的指導原則，以使

(2)

得電腦測驗能夠與傳統紙筆測驗具有同樣的效力（Bugbee, 1996）。國內學者也指出，實施線上電腦輔助測驗在教學活動中的確有其必要，而且使用電腦進行測驗時，其測驗效果應該與傳統紙筆測驗結果相同（何榮桂，2000a， 2000b；簡茂發，1999）。目前網路測驗系統的設計經常受到傳統紙筆測驗觀念的影響，因此測驗題型仍以單選題、複選題及文字測驗為主。雖然目前亦有少數系統提供填充題及其他類型的測驗，但卻都只能做到答案的樣式（Pattern）比對，而卻未對答案語意進行分析比對。因此在現有提供填充題型測驗的系統中，若作答者填答之答案與題目設定的標準答案不同，系統便判定為錯誤。林明達（1998）認為使用電腦批閱申論題及填充題的測驗題型並不容易，其中填充題的答案常有不同的寫法或有許多相同意義的詞彙，使得無法明確的指定標準答案。因此，勢必造成電腦系統評分結果與老師的結果不同，而產生嚴重的測驗評分效力問題。先不管申論題，當線上測驗有填充題時，是否真能做到Bugbee（1996）所提出「電腦測驗需能夠達到與傳統紙筆測驗具有同樣的效力」的觀念要求？這是本研究試圖解答的問題？為回答此問題，本研究先探討各種不同的測驗題型在線上測驗系統上進行施測時，影響具備傳統紙筆測驗相同效力的因素為何，並探討解決之方法。而後在第一階段，利用模糊函數、相似語詞庫、集合、樣式比對、規則推論等觀念及技術，設計一個包含填充題之智慧型的線上測驗系統。接下來，在第二階段，透過學生實際參與，來試圖實證一個妥善設計的線上測驗系統應與傳統紙筆測驗評分效果相同。

貳、文獻探討

一、測驗方式的演化

由於教育的目的在於引發學生行為的改變，因此教師必須善用測驗來評量學生學習後行為改變的情形，所以測驗在各種學科中，均扮演著重要的角色（林璟豐，2001）。就教學而言，測驗的主要目的在於增進學習的效果，因此必須將測驗納入成為整個教學過程中的一部份（陳英豪等，1982）。測驗題目及題型的設計，通常會考量教學的目標，在教育測驗理論中教育目標可分成認知領域、情意領域及動作技能等三種不同的層次（陳李綢，1997）。何榮桂等人（1999）則從網路教學的角度切入，認為紙筆測驗在編撰試題、施測、閱卷、評分等過程之中，相當耗費人力、物力，且對遠距學習者則未必能參與這種「會考式」的紙筆測驗。因此若透過電腦及網路的測驗將能提供適當的支援與輔助。所謂的電腦輔助測驗（Computer-Based Testing [CBT]）是將傳統的考試工具及考題轉移到電腦之中，讓學生藉由電腦螢幕閱讀考題、利用鍵盤或滑鼠來移動游標並點選答案。 Alessi 和 Trollip（1991）指出，電腦輔助測驗在應用上，具有選擇組合試題、易於產生試題及共享試題題庫等效用。何榮桂（1990）也認為電腦輔助測驗，具有測驗的效率提高、試題呈現更加豐富、減少測量的誤差、減少測驗時間及其他測驗資訊的獲得等優點。目前許多電腦輔助測驗均輔以試題反應理

(3)

化測驗系統。此類系統又稱為電腦化適性測驗

（Computer-Adaptive Testing [CAT]），它屬於一

種智慧型的測驗方法（Van der Linden & Glas,

2000；Wainer & Dorans, 2000）。電腦輔助測驗

的應用，早在 1992 年美國著名的 GRE

（Graduate Record Examination）測驗便已利用

電腦進行考試，更於1993年實施電腦適性測驗的考試形式（周倩、簡榮宏，1997）。台灣地區托福測驗（TOEFL）自2000年10月起也由傳統的紙筆測驗改為電腦化測驗（財團法人語言訓練中心，2003）。隨著網際網路的普及，電子化學習（e-Learning）及網際網路遠距教學也成為目前相當熱門的議題，以網路測驗所能夠達成的效果而言，它不僅只是施測的工具，同時也可以是教學的工具（周文正，1998）。目前國內外架構在網路上的網路測驗系統題型主要包括是非題、選擇題、填充題、配合題、問答題、模擬表現測驗（林璟豐，2001）。 McCormack 及 Jones（1997）認為網路測驗能夠改善評量的程序和方法，因為網路測驗具備有節省時間、即時回饋、減少資源、保存記錄、更加便利等特性。周倩、簡榮宏（1997）在其針對網路測驗的優缺點進行研究時指出，大部份的學生較信任網路測驗的結果、認為網路測驗是比較具有效率的考試方式、大部份的受試者喜歡網路測驗的方式、認為利用網路測驗並不會影響考試實力。但是網路測驗的缺點是比傳統紙筆考試的速度慢、比較容易作弊、閱讀線上考試比閱讀紙張試題更容易感到疲倦、面對螢幕有礙考試時的思考、以及打字速度會影響答題表現等。

Mark（1997）及Bennett et al.（1999）則

認為，在網路測驗的試題呈現上，目前有兩種技術的運用對網路測驗的未來有明顯的影響：（1）利用多媒體的方式來呈現更多元的測驗問題，（2）利用人工智慧使電腦自動判斷如何去測驗及進行評量。

二、測驗題型

Gronlund（1998）依據題型的表現方式，將所有的題型歸納成以下四大類：（一）選擇反應（Selected Response）：如選擇、複選、是非及配合題等。（二）供應反應（Supply Response）：如填充、簡答、申論題等。（三）限制性實作（Restricted Performance）：乃是指高度結構化的任務，例如選擇實驗室設備、測量濕度，或是從電腦中呼叫資料。（四）延伸性實作（Extended Performance）：此類型評量需要較多的理解和判斷，如實驗的進行、利用電腦解決問題等。本研究以認知領域為教學目標進行智慧型線上測驗系統設計，因此僅探討認知領域中的選擇反應及供應反應測驗題型，對於情意領域、技能領域的實作性測驗則不進行探討。在認知領域之中，對於學生的學習測驗，大致上可以區分成認識型題目（Recognition-Type Items）及建構型題目（Constructed-Response Items），本研究所包含的測驗題型不僅包含認識型題目外，也包含建構型題目中的填充題型。認識型題目即Gronlund（1998）分類中的選擇反應型題目，此類題目通常會包含一段文字敘述的刺激，以及一些選擇或選項以提供學生根據刺激來辨認各個選項，並選擇出適當的答案，例如是非題、選擇題及配合題。而建構型題目即Gronlund（1998）分類中的供應反應型題目，此類題目包含了問題或狀況的刺激，再要求受試者根據題目的要求，將自己對於內容的瞭解，以文字或是語言的方式表達出來，例如名詞解釋、填充題（Short-Answer Items）

(4)

及問答題等（鼎茂，2000）。認識型題目的特點是它的答案不會因為人、時、地而有所改變，亦即其答案都是固定的，不會因為評分者的不同或情境時間不同，而產生重閱評分結果的差異。然而，建構型題目之答案卻經常會因評分者的不同或情境時間不同，而產生重閱評分差異。填充題主要是要求學生在一個未完成的敘述句之中，填上「字」或是「句子」，而使之成為一個正確且完整的敘述。雖然填充題在施測上，具備提供更高層次的知識測驗、更精確的測量學生知識、降低學生在未充分準備時的猜答機率等優點，但因為同義詞彙太多，容易造成計分不客觀的情形（陳英豪等，1982；李大偉，1995），因此如何使填充題型的測驗有更客觀合理的計分方式，並使測驗系統能辨識出與答案相關的語意詞彙，並提供與紙筆測驗相同評分效力的評分方法，將有其研究的重要性。理論上，我們可以在網路環境中實施任何型態的測驗，但由於客觀的現實環境限制、技術上的困難及經費上不足，目前為止最常應用在網路上的測驗題型，仍以選擇題、複選題、是非題等選擇反應題型為主。而且由於電腦評分上的困難，填充反應題型則比較少見，結構性與延伸性實作之題型，更是罕見。而填充反應題型之所以在線上測驗系統使用的不多，最主要原因在於電腦難以自動辨識相同之詞彙，並會造成評分效力的問題，因此若能使電腦擁有與老師相同的專業評分準則及專業知識，那麼對於未來線上測驗系統的發展及應用，將能更加成熟，所以本研究將針對填充題型所造成的評分效力問題進行研究。

三、驗評分效力

美國心理學會（American Psychological Associate [APA]）在1986年，發表了以電腦為基礎的測驗在發展、使用以及解釋上的指導原則，以使電腦測驗能夠與傳統紙筆測驗具有同樣的效力。其中包括：在解釋電腦測驗之成績時，任何因為電腦造成的影響效果必須清除或重新計算；電腦測驗的發展者必須證明其測驗效度；而決定效度的方法與紙筆測驗相同；個人在電腦測驗與紙筆測驗上的成績等級順序必須近乎相同；平均數散佈情形也必須近似相等（Bugbee, 1996）。因此近年來有一些學者便針對電腦適性測驗的試題等化（Equation）等問題進行研究，並認為電腦測驗之評量應該與傳統測驗評量有著相同的評量效度（Tsai, et al., 2001；Han, et al., 1997）。

四、人工智慧與模糊理論在測驗系統的

應用

為了使測驗系統能更具效能，許多研究也結合人工智慧及模糊理論等技術，進行診斷系統的發展（Langley et al., 1990；Marshall,

1993；Sun, 1999；Moundridou, 2003；Hwang,

2003；林明達，1998）。若能適當結合人工智慧技術測驗系統中，將能解決複雜的出題、評分、解釋及回饋等問題，並使測驗系統能支援教學，促進學生學習績效。而Devedzic（2003）則更進一步指出「內容導向智慧」（Content-Oriented Intelligence），將是下一代網站教育系統發展的重要議題。 Zadeh（1965）提出模糊集合論，該理論將傳統集合的特徵函數從0到1之間絕對選擇，推展為0到1之間的任意值，此種新的特徵函數可稱之為歸屬函數（Membership Function）。在填充題測驗中，由於不同的填答者在填寫答案使用的詞彙並不相同，有些詞彙與標準答案的語意完全相同，有些則是部分相同，有些則是完全不同，因此若使用模糊集合的觀念將能使測驗系統不再只是具有非「對」即「錯」的

(5)

二元評分能力。因此林明達（1998）認為申論題及填充題的測驗題型使用電腦閱卷不易，其中填充題的答案常有不同的寫法或有許多相同意義的詞彙，使得無法明確的指定標準答案，這將是一個十分值得努力方向。此外，目前國內外對於如何建立一套可以自行學習關鍵字詞、同義字詞、具有人工智慧的閱卷系統，並未見有特別的研究。Mark（1997）認為利用人工智慧使電腦能自動判斷如何去測驗及進行評量，是值得研究的方向，其對於網路測驗的未來也有明顯的影響。

五、目前線上測驗系統及智慧型測驗系

統發展

隨著資訊科技及網路技術的發展，藉由電腦來進行測驗已成為不可避免之趨勢，而國內外對於線上測驗系統或智慧型測驗系統之發展應用也相當多，例如：美國 IBM 與 Arthur Anderson公司所發展之電腦輔助測驗系統（何榮桂等人，1996）、1992年起美國GRE測驗採用電腦適性測驗（CAT）、1997 年美國管理會計師協會 IMA 採用電腦測驗進行會計師認證

考試（Peterson and Reider, 2002）、2000年10

月台灣地區 TOEFL 測驗採用電腦化測驗（CBT）、2003 年 9 月考試院宣布未來國家考試將採行電腦化測驗（財團法人語言訓練中心， 2003），由此可見採用電腦與網路技術來輔助測驗，將成為未來測驗的必然趨勢。然而，目前國內外對於使用電腦進行測驗的研究，主要以Lord（1980）所介紹的項目反映理論（IRT）及Weiss（1980）所介紹的電腦適性測驗（CAT）為主，其中較為著名的研究包括何榮桂等人（1996）提出一個採用遠距適性測驗的系統架構及後續一連串 CAT 之研究，以及游寶達（1998）對於智慧型電腦適性測驗進行研究，並利用模糊理論及智慧選題法，建構一個 ICAT 系統（http://ical.cs.ccu.edu.tw/），以提升 CAT 對受測者能力值的評估精確度和穩定性。另外，彰化師範大學生物學系的研究團隊發展了一個網際網路評量與試後分析系統WATA（Web-based

Assessment and Test Analysis System），該系統

包含兩個模組，分別為總結性評量模組

（ SAM-WATA ）與形成性評量模組

（ FAM-WATA ）。 WATA 具有 Triple-A

（Assembling、Administrating、Appraising）的

架構，此系統之「考試管理引擎」可讓教學者輕易的管理考試行程、線上題庫與使用雙向細目分析表命題；「監考引擎」可讓教學者輕易掌握應考者的考試；「試後分析引擎」可以讓教學者迅速取得試後分析的資訊（王子華等人， 2002）。此外，在目前遠距教學環境中，許多教學系統也會將測驗系統納入其中，例如 ClassNet 系統支援教師在線上編寫測驗題目、解答，測驗題型包括是非、選擇及申論，是非及選擇由系統批改，申論則以電子郵件寄給教師批閱

（Van Grop & Boysen, 1997）。Mallard系統提

供選擇、計算、布林運算等題型，系統會適時進行提示、回饋及計分（Swafford and Brown, 1996）。黃國禛等人（2002）在國科會科學教育處推動的整合計畫中，針對測驗題目進行智慧型的線上測驗題型分析與改進研究，採用題目語意分析，來解決相似題目重複出現的相關問題。本研究則是針對填充題型的測驗答案語意進行分析，以解決線上填充題測驗的效力等化問題。

(6)

表 1 國內知名線上測驗系統功能比較表網站名稱功能測驗內容領域測驗類型其他說明 e-School 電子校園 http://eschool.com.tw 線上測驗、線上考卷製作、線上評分、答案詳解、成績排名、時間計時兒童部、國中部、高中部、大學、社會大學等各級教育多元內容單選題、複選題、填充題 1.填充題無語意辨識能力 2.填充題僅可設計一個空格的題目長春藤線上測驗中心 http://www.ivytest.com.tw 線上測驗、線上考卷製作、線上評分大學、四技二專、高中、五專、托福、高普考、證券業務、駕照考試等試題測驗單選題、複選題 K-bar 考試網 http://www.k-bar.com.tw 線上測驗、線上考卷製作、線上評分、時間計時升學模擬測驗（大學及高中）、語文能力測驗（中文、日文、托福、 GEPT 全民英檢）、高普考、證照等單選題、複選題、填充題 1.填充題無語意辨識能力 2.填充題僅可設計一個空格的題目狀元考試資訊網站 http://elec.taivs.tp.edu.tw/kitty 線上測驗、線上考卷製作、線上評分、記錄及評估題目答題難易度、隨機出題四技二專、二技、技能檢定、預官、高普考測驗選擇題線上測驗服務中心 http://www.onlinetest.org 線上測驗、線上評分、成績查詢、時間計時、題目支援圖形內容學科能力測驗（國文、英文、數學、社會、自然、歷史）單選題、複選題國中生活科技線上測驗系統 http://home.kghs.kh.edu.tw/olt 線上測驗、線上考卷製作、線上評分、成績查詢、時間計時、題目支援圖形內容、試題轉換國中生活科技領域單選題、是非題、填充題 1.填充題僅可設計一個空格的題目 2.填充題提供相似詞答案處理

參、目前提供填充題型線上測驗系統評分效力先期研究

Bugbee（1996）認為使用電腦進行測驗必須具有與紙筆測驗相同的測驗效力，為了確實瞭解目前國內線上測驗系統提供之功能及填充題評分效力，本研究針對目前國內知名的網路線上測驗系統，從功能、測驗內容領域、測驗題型方面進行比較。表1中顯示目前國內知名的線上測驗系統，大多數均提供選擇題的測驗題型，而部分的系統則提供了是非題及填充題等題型。而比較值得注意的是，這些線上測驗系統的填充題測驗，僅能設計一個空格的題目，不能支援一個以上格子的題目，此外，在答案的分析辨識上，均採用與是非及選擇相同的字元比對。也就是說如果標準答案是「雙十節」，受測者輸入「國慶日」、「雙十國慶」則都算答錯，這與紙筆測驗教師批改之結果可能會有所差異。然而，在表1中的「國中生活科技線上測驗系統」，它的填充題型提供了相似詞的答案分析功能，該系統允許老師在預先於答案欄中將可以接受的答案均輸入在同一個答案欄中（用半形逗號分開），例如老師在標準答案中

(7)

輸入「國慶日,雙十國慶,雙十節」，則當學生輸入「國慶日」、「雙十國慶」、「雙十節」時，該系統則分析為學生答題正確，但這些語意卻無法被其他相似題目或試題重複使用，且無法解決相同語意答案之擴充、相似語意智慧辨識等問題。而在回饋部分，多數系統只針對測驗結果，給予成績評分結果查詢，並未保留當初測驗之電子試卷及回饋內容，這些均有待加強。此外，為了確實瞭解一般線上測驗與紙筆測驗間的評量等化差異來源，本研究首先參考 K-bar 考試網及陽明國中官老師課程教學網之測驗系統功能，發展一個一般型線上評分系統，此系統之測驗題型包括是非題、單選題、複選題及填充題，填充題可有一個以上的填充格；此外，此雛形系統如同一般測驗系統，亦可於線上編輯題庫及線上評分，但填充題之評分方式則以目前坊間一般測驗系統之絕對二元評量方式進行（需與標準答案完全相符才評量為正確之回答）。一般型評分系統完成後，本研究針對中部某技術學院資訊管理科修習電子商務課程之87位學生，利用平時學習評量時間先進行紙筆測驗，測驗題型包括是非題、單選題、複選題及填充題各5題，當所有學生皆完成測驗後，教師請每位同學連至線上之雛形測驗系統，開啟完全相同題目之電子測驗卷，並將紙筆測驗卷上所寫的答案，複製到線上電子測驗卷中。經過事後教師對紙筆測驗卷的評分及測驗系統的評分比較，發現學生回答相同的答案在不同的測驗工具上卻出現明顯的分數差異，而且線上測驗系統之分數明顯低於紙筆測驗的分數。而其中是非題、單選題、複選題之得分在紙筆測驗及線上測驗之結果完全相同，顯示這些題型藉由電腦系統評分能具有相當高之評分效力，然而在填充題部分之得分在紙筆測驗及線上測驗上確有非常明顯的分數差異，顯示目前線上測驗系統若提供填充題之題型，電腦無法具備與紙筆測驗相同的評分效力。隨後本研究將每一份試卷進行仔細的分析比對，本研究發現填充題型在線上測驗無法擁有紙筆測驗同樣的評分效力，其主要形成的原因歸納如下：一、電腦科技本身造成評量效力降低：由於電腦環境中的字有全半形、大小寫之分，因此非關學生本身知識而是電腦環境造成的評量效力差異便可能形成。例如答案是半形大寫的「B2B」，但學生卻輸入小寫「b2b」、全形的「Ｂ２Ｂ」答案，在線上測驗中則經常被誤評為「答錯」。二、相同語意眾多造成評量效力降低：由於相同的答案可能有許多相同的語意字彙可替代，因此不同的學生可能寫出不同的字彙但有相同語意的答案，例如標準答案原本為「B2B」，但學生可能寫出「B to B」、「Business to Business」、「企業對企業」等擁有相同語意的答案，在紙筆測驗中教師一般而言會給予「答對」的評分，而線上測驗卻因為無法辨識語意，因此給予「答錯」的評分。三、集合順序問題造成評量效力降低：例如某一題目為「電子商務中常見三種的經營模式分別是 _______、_______、_______。」此題標準答案若為「B2B、B2C、C2C」，但受測者填寫成「B2C、C2C、B2B」，在紙筆測驗中教師知道本題答案屬於同一集合，因此順序可互換，故會給予「答對」的評分，而一般線上測驗因為只能逐一比對，因此發現三格的內容均不相同，故三格填充都會給予「答錯」的評分。四、中文程度低落造成評量效力降低：由於目前學生經常藉由手機或電腦進行人際溝通，減少了手寫書信的機會，因而學生中文程度普遍下降。在紙筆測驗環境中某些學生因為某個字不會寫而有出現錯別字、

(8)

同音異字或用注音取代的情形。而在線上測驗環境中，學生可透過輸入法選出原本不會寫的中文字，但若因為中文程度而誤選了同音異字的錯字，則在線上測驗系統中只要答案有一點點不同，都會被評為「答錯」，因而沒有真實教師「斟酌」給分的模糊機制。五、隨機性漏字疏忽造成評量結果差異：某些學生在測驗中會因為不經意的疏忽而漏寫部分答案，例如答案原本為「企業經營模式」，學生卻因為疏忽填答成「企業經營式」，而漏填了「模」字，在紙筆測驗中，教師會考量學生的漏字情形，而斟酌給予部分分數，但線上測驗系統則因答案未完全相同，因而評為「答錯」。為了解決並改善填充題評分產生的評分效力問題，本研究提出「智慧型線上測驗評分機制」，並建立雛形系統以進行實證。

肆、系統架構

本實驗所使用的線上測驗系統，採用三層式主從遠距測驗系統架構，後端資料庫伺服器採用Microsoft公司之SQL Server 2000，用以執行觸發程序及存放本系統之題庫、成績、語意、申訴記錄等資料。Web 伺服器則使用 Windows 2000 作業系統中的 Internet Information Server 5.0伺服器軟體，以執行伺服器端（Server-Side Script）的語言（本研究使用

的伺服器端語言為 ASP，Active Server

Pages），並藉由ASP程式與資料庫進行連結。測驗系統主要使用 ASP 程式語言來發展各項模組功能，另外在ASP的程式中也會依據實際需要，結合Html、JavaScript及VBScript等網頁相關的程式語言，以共同完成各模組的功能需求。本研究規劃之線上測驗系統架構如圖1所示，各元件簡述如下：一、題庫編修介面：此介面提供試卷及題庫發展者（教師）能於線上新增、修改、刪除及查詢試卷及題庫內容。二、測驗題庫及答案資料庫：儲存測驗系統的考題編號、語幹、選項、答案、題目配分、題目類型、學生資料、考試時間資料、班級資料等。三、出題模組：產生線上測驗試題內容及試題順序，每位受測學生所回答之試題內容都是相同的，但試題題號順序及答案選項順序則由電腦亂數產生。四、知識擷取介面：提供增修知識庫內容之介面，以持續擴充系統智慧，進而提升線上評分的能力，以使系統具有老師的評分判斷特徵與能力。五、使用者介面：提供線上測驗、題目解釋、成績查詢及答案申訴之介面。六、評分參數資料庫：存放教師個人化評分參數及系統內建評分參數資料。七、模糊推論及系統內建資料運算器：模糊推論運算器內含詞彙語意模糊歸屬函數轉換公式及模糊規則，用以進行模糊推論過程中的計算，並動態調整系統內建之相似詞彙語意關係值及系統評分環境參數值，以提供聚合教師共識的系統內建資料。關於本系統使用模糊理論產生內建評分環境參數及相似語意詞庫模糊相似值建構方法說明，可參考楊亨利與應鳴雄（2006）在「具備智慧型模糊評分機制之線上測驗系統架構」的研究。

(9)

八、相似語意/同音異字資料庫：存放評分機制所需要參考比較的相關資料，諸如語意詞彙資料、詞彙間關係值、同音詞庫、全半形對應資料等。本研究在系統運作初期依據測驗科目的知識領域，委託該領域之教師專家建立初期系統預設的評分參數、詞彙語意及相似語意詞庫的相似值，以確保系統在尚未有任何教師使用者的初期環境中，依舊能夠提供評分參數及相似語意詞庫相似值的預設建議資料供第一位教師或前幾位教師使用者選用。當有多位教師同時使用此系統時，智慧評分機制會透過模糊推論及系統內建資料運算器，來自動產生符合大多數教師認知的高共識相似語意詞庫相似值及評分參數值（楊亨利、應鳴雄，2006）。九、測驗結果資料庫：存放學生的電子試卷結果，包括參與考試的時間、機器位置、考試歷程、填寫之答案、測驗成績、各題回饋資訊等。每位學生均會產生來自一般型評分機制及智慧型評分機制評分後的二個成績結果。十、申訴處理模組與申訴處理記錄：處理並記錄學生對系統評分及答案質疑的申訴工作。一般而言教師無法將每個答案詞彙的相關語意全部都建立至系統中，因此仍有可能發生受測者認為自己填答的答案語意是正確的，但系統卻無法辨識出的狀況，所以此模組便能協助受測者進行申訴，並以Email 通知教師進行處理。而教師則可利用知識擷取介面，線上處理申訴問題，若確實因系統的語意辨識能力不足，則可即時擴充此語意知識，使本系統之評分判斷能力可不斷提升。圖 1 本研究發展之線上測驗系統架構圖評分機制評分機制評分機制 評分機制 _{使用者介面（} 測驗、評分解答、答案申訴）知識擷取介面線上測驗受測者（學生）試卷及題庫發展者（教師）題庫編修介面測驗題庫及 _{答案資料庫} 出題模組相似語意/同音異字資料庫申訴處理記錄申訴處理模組測驗結果資料庫智慧型評分機制智慧型評分機制智慧型評分機制 智慧型評分機制 字元比對模組 語意分析模組 集合順序模組 英文大小寫模組 全半形模組 同音異字模組 漏字模組 訊息回饋模組一般型評分機制一般型評分機制一般型評分機制 一般型評分機制 字元比對模組評分參數資料庫模糊推論及系統內建資料運算器

(10)

十一、智慧型線上評分機制：歸納前述文獻探討中的各種題性特性及優缺點及線上測驗系統的測驗效力問題分析，本研究認為要解決線上測驗的評量效力問題，必須發展一個具備智慧的線上測驗系統來模擬實際教師之評分決策模式。因此本研究亦將發展一個具備題庫編輯、測驗、評分、成績查詢、出題的線上系統，其題型則包含是非題、單擇題、複選題及支援一個以上空格的填充題測驗題型，而本研究實際的重心則著重於填充題的智慧評分處理機制。智慧評分處理機制為本研究之核心，此機制包含各種分析及計算填充題測驗分數之相關模組。每一個填充格的分數 S(ti)是由填答者答案之正確率歸屬函數 P(ti)與該填充格之配分 SI(ti) 決定，即 S(ti)= P(ti)*SI(ti)。以下針對各模組功能依照運作順序簡單描述（下文中之變數 ti是指測驗題目編號，AS(ti)表示受測者所填答之答案，AT(ti)表示標準答案）：（一）字元比對模組：此模組將AS(ti)與AT(ti) 進行字元比對，當所有字元均完全吻合，則受測者所填答案的正確率歸屬函數P(ti)=1。（二）語意分析模組：此模組最主要在比較 AS(ti)與AT(ti)詞彙間是否存語意關係，若存在關係則語意關係相似係數 RS(ti) 來決定正確率歸屬函數P(ti)。（三）集合順序模組：此模組最主要在比較 AS(ti)與AT(ti)詞彙間是否存在集合順序關係。例如某一題填充題的題幹為「電子商務最主要的三種經營模式是 _____、_____、_____。」，假設使用者輸入次序為「B2C」、「C2C」、「B2B」，而測驗的標準答案次序為「B2B」、「B2C」、「C2C」，則本模組開始呼叫「集合比對副程式 SCM()」，以進行集合順序分析，若填答者的答案存在於標準答案集合中，則該填充格之正確率歸屬函數P(ti)=1。（四）英文大小寫模組：此模組最主要在比較 AS(ti)與AT(ti)詞彙間是否為英文大小寫的關係，若此關係成立，則正確率歸屬函數P(ti)=1。（五）文數字全半形模組：此模組最主要在比較 AS(ti)與 AT(ti)詞彙間是否為文數字全半形關係，若此關係成立，則正確率歸屬函數P(ti)=1。（六）同音異字模組：當AS(ti)≠AT(ti)時，且不存在語意關係、大小寫及全半形關係，兩個詞彙間只有1個字不同時，此模組便會啟動。此模組在檢查這個唯一不同的字，是否為受測者使用注音輸入法輸入時因為選字錯誤而造成的同音異字情形，若AS(ti)與AT(ti)確實存在此種關係，則正確率歸屬函數 P(ti)= P(ti)=1-PW。這裡的 PW 是教師在系統中設定的同音異字錯誤扣分比例參數，若 PW=0.3，則表示同音異字需扣該題 30%的分數，因此正確率歸屬函數 P(ti)=0.7。（七）漏字模組：此模組用於AS(ti)≠AT(ti)時，且不存在語意關係、大小寫及全半形關係，而因為受測者填答的答案中少輸入一個字而造成答案輸入遺漏的不完整現象時。若AS(ti)與AT(ti)存在此種關係， 1 , RS(ti)=1 P(ti)= RS(ti) , 0<RS(ti)<1

(11)

則需檢查由教師依照自己的教學原則及習慣自訂漏字扣分比率參數PL，以確認在此部分的評分規則。當漏字比例低於 25%時，正確率歸屬函數P(ti)=1-PL。若系統之PL參數設為0.6，表示漏字比例低於25%時需扣該題60%的分數，因此正確率歸屬函數 P(ti)=0.4。至於漏字比例的門檻是否為25%，教師可自行修改此參數。（八）訊息回饋模組：訊息回饋模組之主要功能在提供受測者正確答案之回饋，本系統同時採用KCR及KR之回饋方式，有別於目前線上系統大多僅使用KR回饋的方式。因此，本系統受測者完成測驗後，系統會根據受測所填寫之答案內容，給予適當且具有知識傳遞的知識回饋。本模組之回饋包括成績回饋、答案正確性回饋、語意關係回饋、英文大小寫關係回饋、文數字全半形關係回饋、同音異字關係回饋、漏字關係回饋等。十二、一般性線上評分機制：此機制僅包含一般線上測驗系統處理填充題之字元比對模組評分方法，此模組將使用者答案與系統內標準答案進行比對，當所有字元均完全吻合，則此題的正確率歸屬函數 P(ti)=1，只要有一點不符合，則正確率歸屬函數P(ti)=0。

伍、問題陳述與假設

本研究允許教師將個人評分之規則、風格特質，以參數設定方式建立至上述評分機制內，期待該評分機制技術能具備與教師紙筆相同之評分效力。不過，由於每個學生皆來自不同的成長環境，所習慣使用的中文詞彙均可能有差異，再加上中文詞彙間具有相似語意者眾多，管理者或教師可能無法在系統運作初期便在智慧型評分機制中將所有詞彙間的語意關係都考慮周全，不過若系統評分錯誤，應有學習功能對這些新的語意知識予以擴充，以確保在下一次測驗評分中做出正確的判斷。因此，本研究期待下列假設驗證成立：一、H1：不同的評分機制在測驗成績的評分結果上會有顯著差異。（一）H1a：使用一般型評分機制進行包含填充題型的測驗評分，與紙筆測驗的評分結果會有顯著差異。（二）H1b：使用智慧型評分機制進行包含填充題型的測驗評分，與紙筆測驗的評分結果沒有顯著差異。（三）H1c：使用智慧型評分機制進行包含填充題型的測驗評分，與一般型評分機制的評分結果間會有顯著差異。而且智慧型評分與紙筆測驗評分間的成績差距，明顯會比一般型評分機制與紙筆測驗評分間的成績差距還小。二、H2：智慧型評分機制經過詞彙語意的知識擴充後，其評分結果應與未擴充前有差異，而且應更加縮小與紙筆評分間成績差距。

(12)

陸、研究方法

一、研究樣本

本研究以本研究以中部某技術學院資管系學生3班120位修管理資訊系統課程之同學為樣本，採實地實驗法進行，以探討線上測驗系統環境中，評分機制對於測驗成績的影響。

二、不同評分機制之評分效力實驗流程

本實驗在進行之前先根據表1的國內知名線上測驗系統之功能，依據其評分機制概念設計出「一般性評分機制」之評分模組，另一方面再依據本研究提出之技術方法，設計出「智慧型評分機制」之評分模組。為了使兩種不同評分機制能夠進行評分效力的比較，因此這兩種評分機制共用相同之測驗介面，受測學生在單一測驗介面中填答問題答案後，系統會將試卷送至這兩種不同的評分機制中進行評分，並分別計算出評分後之成績結果。實驗流程如圖2所示，共分成二個階段實施。第一階段的目的是為了使受測學生能熟悉測驗系統之操作功能，並降低受測學生因不熟悉系統操作而產生實驗干擾。此階段刻意選擇第三週進行正式授課後的第一次線上平時測驗，受測學生皆於上課時透過電腦進行線上測驗，並於線上填寫電腦網路使用之基本資料，但是本次之成績結果則不做為本研究之分析。第二階段則於課程第六週進行管理資訊系統課程第二次平時測驗，教師首先在智慧型評分機制中，依照教師批改填充題的規則完成相關參數設定，隨後教師發給每位同學一份紙筆測驗的試卷，內容共計17題，非填充題題型包括5 題是非題、5 題單選題及 2 題複選題，每題 5 分共計60分；填充題型有5題，共含8個填充格，共計40分。為控制測驗時間對測驗成績的影響，本實驗進行時並未告知學生實際考試的時間限制，並期望每位同學均能有充分時間作答（考題設計時以30分鐘內可填答完成為標準進行設計）。當所有學生均完成紙筆測驗的填寫後，此時教師則要求受測同學登入線上測驗系統開啟線上測驗的試題，此份線上試卷之試題與同學手上之紙筆測驗試卷內容完全相同，教師要求同學將自己在紙筆試卷上所寫的答案，按照題目順序將相同題目之答案照實的輸入至線上試卷中，並當答案全部輸入完成後，則送出試卷完成測驗。當所有學生都完成線上測驗的程序後，教師向受測同學收回所有紙筆試卷，並由教師親自批改，批改後的成績再輸入至資料庫中儲存。另一方面，當測驗系統收到學生送出之答案後，系統會自動將受測者之答案分別送至「智慧型線上評分機制」與「一般型線上評分機制」進行評分，不同評分機制所產生之評分成績結果則儲存至資料庫中。因此，每位受測者完成此實驗後，同一份試題會出現來自三種不同評分機制所產生的成績，這些成績資料將成為後續研究的分析資料來源。

(13)

圖 2 本研究之實驗流程圖

三、研究架構與變數說明

圖3為本研究之研究架構，透過不同的評分機制來分析對於測驗評分成績的影響，研究架構中的變數說明如下：（一）自變數僅有「評分機制」一項，包括三種評分機制，分別是一般型評分機制、智慧型評分機制及紙筆評分。（二）依變數 Bostorm（1990）及許多探討測驗成效的研比較紙筆測驗教師評分、智慧評分機制測驗系統評分及一般評分機制測驗系統評分等三種分數之比較管理資訊系統紙筆平時測驗（測驗後考卷暫未收回）請求同學將紙筆試卷上所寫之答案填入線上測驗畫面中登入線上測驗系統收回紙筆測驗試卷並立即批改成績輸入紙筆測驗成績至電腦系統中實驗結束並進行研究分析課程第三週課程第三週課程第三週課程第三週第一階段第一階段第一階段第一階段：：：：登入線上測驗系統熟習線上測驗系統功能及完成線上測驗(測驗成績不列入本實驗) 送出受測者填答之答案，並自動送至兩二種不同的線上評分系統進行評分一般型線上評分機制產生評分後之測驗分數智慧型線上評分機制產生評分後之測驗分數課程第六週課程第六週課程第六週課程第六週第二階段第二階段第二階段第二階段：：：：

(14)

究中，經常會使用測驗成績來當作評量學習成效的指標。Bugbee（1996）也認為不同的評量工具若能具有相同的評分結果，則具有評分效力。因此本研究直接採用線上測驗的評分成績結果與教師親自批改評分的成績結果進行比較，以觀察評分工具對於測驗成績的影響是否有差異。（三）控制變數為使測驗時間不會去影響測驗結果及評分效力，本研究在實驗進行時，採取寬裕測驗時間。另外，為隔絕介面變數干擾，本研究之一般型與智慧型評分並無自己的介面，而是由系統統一收件後，自動分派至不同評分機制。圖 3 研究架構

柒、資料分析

本研究採用 SPSS 作為資料分析的工具軟體。

一、樣本基本資料分析：

本研究共有120位受測者參與實驗，其中男生63位，女生57位。但經過第一階段及第二階段實驗後，由於有8位受測者未全程參與實驗或錯誤操作系統導致其實驗資料未能完整取得，因此後續資料分析將扣除此8位受測者資料，因此全程參與之受測者共有112位，其中男生58位，女生54位。

二、研究假設檢定

本研究最終共有112個受測者，每個人會先進行紙筆測驗，再進行線上測驗，最後會得到三種評分工具的評分成績，此成績為包含所有題型之成績，結果如表2所示。受測者在紙筆測驗教師評分的平均成績為 53.31 分，而智慧線上測驗評分機制成績為 52.21 分，一般線上測驗評分機制成績為 48.81 分，從分數上可看出智慧型評分成績與教師親自批改的紙筆測驗成績差異較小。為進行本研究之第一項假設檢定，本研究使用林清山（1990）多變項分析統計法中的相依樣本單一組重複量數統計分析方法，以瞭解受測者對於不同的評分機制所得到的測驗成績評分結果是否有顯著差異。由於使用重複量數的概念來進行，因此不能將測驗成績直接進行分析，而需利用每位受測者在各種評分機制所得到之成績，分別計算出其受測者的紙筆與一般評分成績差距（使用 PG 符號表示）、紙筆與智慧評分成績差距（使用PI符號表示）、智慧與一般評分成績分數差距（使用 IG符號表示）等三項資料，此三項資料之平均結果如表2所示，其中紙筆評分與一般評分成績之分數平均差距高達 4.5 分，顯示這兩種評分機制的評分結果差異較大；另外，紙筆評分評分成績評分機制評分機制評分機制評分機制 - 智慧線上 - 一般線上

(15)

與智慧評分成績之分數平均差距最小，但仍有 1.10分的差距。表 2 受測樣本之測驗結果項目樣本數平均分數標準差原始資料一般 OLT 評分之成績 112 48.81 16.06 智慧 OLT 評分之成績 112 52.21 16.55 紙筆教師評分之成績 112 53.31 16.87 資料轉換紙筆評分與一般評分成績之分數差距（PG） 112 4.50 4.52 紙筆評分與智慧評分成績之分數差距（PI） 112 1.10 2.40 智慧評分與一般評分成績之分數差距（IG） 112 3.40 3.57 經過 SPSS 的相依樣本單因子多變量變異數分析（張紹勳，1997），進行不同評分機制評分成績的多變量顯著性檢驗，結果如表 3 所示，其中Wilks Λ值為0.490，P<0.05，表示受測者在不同評分工具所得到的成績結果並不相同，因此支持了本研究所提出的 H1 假設，不同的評分機制在測驗成績的評分結果上會有顯著差異。表 3 評分工具假設之變異數分析表檢驗項目 Wilks' Λ值 F 值 P 值 Eta2 顯著性α=0.05 評分工具 0.490 F（2,110）=57.293 0.000 0.510 達顯著水準表4為評分工具間之評分成績差異檢定分析結果，無論是「紙筆評分與一般評分（PG）」、「紙筆評分與智慧評分（PI）」及「智慧評分與一般評分（IG）」等工具間的成績差異檢定，P 值均小於0.05，均達到顯著水準，顯示 H1a、 H1c 假設均獲得支持：受測者在紙筆與一般評分機制之成績有顯著差異、智慧與紙筆評分間差距小於一般與紙筆評分間差距。但是，受測者在紙筆與智慧評分機制之成績上也有顯著差異，因此H1b假設並未獲得支持。表 4 評分工具間之評分成績差異檢定分析表相依變數平均數標準差 t 值 P 值 PG 4.50 4.52 10.531 0.000 PI 1.10 2.40 4.848 0.000 IG 3.40 3.57 10.098 0.000 為了確認造成評分工具間之評分成績差異是否源自於填充題型產生的評分差異，因此本研究另外將填充題型及非填充題型的評分成績結果分別重新進行評分工具間之評分成績差異檢定。在僅包含填充題型評分成績結果中，一般 OLT評分之平均成績為17.58分（S.D=10.04），智慧OLT的評分平均為20.81分（S.D=10.29），紙筆教師評分之平均成績為 21.82 （S.D=10.39）。在僅計算填充題型的測驗成績

(16)

時，「紙筆評分與一般評分（PG）」、「紙筆評分與智慧評分（PI）」及「智慧評分與一般評分（IG）」等工具間的成績差距分別是 4.41 分、 1.01分、3.40分。在不同評分機制評分成績的多變量顯著性檢驗上，Wilks Λ值為 0.515，P 值=0.000，顯示出受測者在不同評分工具所得到的填充題型成績結果並不相同。而評分工具間之評分成績差異檢定分析結果，無論是「紙筆評分與一般評分（PG）」、「紙筆評分與智慧評分（PI）」及「智慧評分與一般評分（IG）」等工具間的成績差異檢定，P 值均小於 0.05，均達到顯著水準，其統計值與統計結果與計算所有題型成績的表4結果相當類似。在僅非填充題型評分成績結果中，一般 OLT評分與智慧OLT之平均成績均為31.31分（S.D=8.98），紙筆教師評分之平均成績為 31.40（S.D=9.14）。在僅計算非填充題型的測驗成績時，「紙筆評分與一般評分（PG）」、「紙筆評分與智慧評分（PI）」及「智慧評分與一般評分（IG）」等工具間的成績差距分別是0.089 分、0.089分、0.000分。在不同評分機制評分成績的多變量顯著性檢驗上，Wilks Λ值為 0.991，P 值=0.319，顯示出受測者在不同評分工具所得到的非填充題型成績結果並無顯著差異。由上述分析結果發現，不同的評分機制在非填充題的評分結果上並沒有顯著差異，線上測驗所產生的評分結果差異幾乎都來自於填充題型的評分結果，因此使用整體分數進行評分成績結果的差異檢定時，所得到的分析結果會與僅考慮填充題型評分成績時的結果極為類似，因此本研究仍以考慮各種題型的整體分數進行分析。本研究原先認為電腦中若使用智慧型評分機制，由於該機制已儲存了教師的批改規則及習慣，並藉由語意詞彙資料庫的建立，建立了測驗知識領域的語意詞彙間關係，因此應能與教師親自評分的結果相似。但經過上述實驗及統計分析後，雖然使用智慧評分與紙筆評分的成績平均只有差距1.10分，但仍舊在統計上顯示無法有相同的評分效力。仔細分析形成原因，可能來自於學生填答的填充題答案與教師設定的填充題標準答案不同，雖其語意詞彙與標準答案間存在同義或相似關係，只因為系統語意資料庫所儲存的語意關係知識仍舊不足，才會形成智慧評分無法與紙筆評分有相同的結果。事實上，在第六週測驗完成後，部分學生的確也在測驗系統中針對某些填答的答案提出成績申訴，因此，本研究便提出了第二項假設，認為只要智慧型評分機制經過詞彙語意的知識擴充後，其評分結果會比未擴充前更加提升。為了進行此項假設檢驗，本研究針對學生所申訴的問題進行處理，並對於系統內建語意詞彙關係不足的知識部分進行擴充。學生所申訴的內容主要是針對答案詞彙語意的部分，例如某填充題之題目為「從作業系統的處理方式而言，當資料收集到一定時間或一定量才處理，稱為 ___。而將CPU時間平均分配給每個使用者程式的作業系統處理方式稱為 ___。」，本題在系統內的標準答案分別是「批次處理」與「分時處理」。以「批次處理」詞彙而言，「批次處理」在系統中已存在的相關語意詞彙包括

「batch processing」、「Batch」、「整批處理」、「批

次」等6個詞彙，但是有一些學生所寫的答案是當初教師及系統未想像到的，諸如「批次作業」、「批次作業處理」及「整批處理作業」，這些答案在教師紙筆評分時被認為是與標準答案相同，但在智慧型線上評分機制中卻無法對這些相同語意的詞彙進行辨識，導致評分結果產生差異。另外，像是在另一個填充題題目為「___ 能將企業的智慧資產透過資訊科技累積起來，並能進行有效的運用，並達到企業員工間能快

(17)

速傳遞及分享知識經驗，使企業能不斷創新。」中，系統預設之標準答案為「知識管理」，系統內建之不同程度之相關語意包括「知識管理系統」、「知識庫系統」、「Knowledge Management」等，而學生則輸入了「知識系統」答案，因為教師在系統初期語意建立時並未將「知識系統」的詞彙建立到語意詞彙關係資料庫中，因此系統也無法做出正確的判斷評分，而在其他題目中也均有類似的情形發生。由於本研究設計之測驗系統保留了受測學生當初所填寫的電子試卷資料，本研究在完成學生申訴的問題及擴充所遺漏的相關語意詞彙後，將針對這些受測者當初所填寫的電子試卷答案，重新送至智慧評分機制重新評分，再與未擴充詞彙語意前之智慧評分結果、紙筆評分結果進行比較。本研究針對「未擴充詞彙語意前之智慧評分」、「擴充詞彙語意後之智慧評分」及「紙筆評分」進行不同評分機制評分成績的多變量顯著性檢驗，結果如表5所示，其中Wilks Λ值為0.821，P<0.05，表示「未擴充詞彙語意前之智慧評分」、「擴充詞彙語意後之智慧評分」及「紙筆評分」等不同評分工具所得到的成績結果並不相同，因此仍支持本研究所提出的 H1 假設，不同的評分機制在測驗成績的評分結果上會有顯著差異。表 5 包含擴充詞彙語意後之智慧評分機制的變異數分析表檢驗項目 Wilks' Λ值 F 值 P 值評分工具 0.821 F（2,110）=12.023 0.000 表6為「擴充詞彙語意後之智慧評分」與「未擴充詞彙語意前之智慧評分」及「紙筆評分」評分工具間之評分成績差異檢定分析結果。表中顯示「紙筆評分與已擴充語意詞彙後的智慧評分（PI2）」間的成績差異未達顯著水準，表示經過擴充語意後的智慧與紙筆評分的成績並無顯著差異，具有與紙筆評分相同的評分效力。因此，若是線上測驗系統的評分機制經過學生實際測驗後的語意擴充，應能使得智慧評分機制具有與紙筆測驗相同的評分效力，先前未得到支持的H1b假設，在擴充語意詞彙後而得到支持。另外，表6中也顯示「已擴充語意詞彙後的智慧評分」與「未擴充語意詞彙前的智慧評分」間的評分結果有顯著差異，原本未擴充前與紙筆的平均評分差異是1.03分，而已擴充後與紙筆評分的平均評分差異則縮減為 0.071 分，顯示智慧評分機制經過不斷的擴充語意詞彙後，將能提升其評分效力，因此假設 H2 獲得支持。表 6 評分工具間之評分成績差異檢定分析表相依變數平均數標準差 t 值 P 值 PI2 0.071 0.07 1.02 0.312 II2 1.03 0.21 4.83 0.000 註：PI2 表示「紙筆與已擴充語意詞彙後的智慧評分」間之成績差異 II2 表示「未擴充與已擴充語意詞彙後的智慧評分」間成績差異

(18)

雖然經過語意擴充後的智慧評分機制能具有與紙筆測驗相同的評分效力，但是這兩種評分機制的成績結果平均仍有 0.071 分的差異，本研究再將這些差異的受測資料進行比對發現，這些差異是屬於實驗過程中受測者的非刻意之隨機誤差，其中包括受測者在將紙筆測驗上的答案抄錄至線上測驗系統時，少填答了一題答案，或電腦輸入時拼錯字及漏字，而產生紙筆測驗的答案與線上測驗輸入的答案並不一致，因此導致仍出現成績差異，若排除受測者從紙筆測驗抄寫到線上測驗過程中的人為隨機誤差，則利用智慧型評分機制來取代紙筆測驗時的評分效力將更能提升。

捌、結論與建議

線上測驗系統若只處理是非題、單選題、複選題等具有固定答案的測驗題型時，並不會產生與紙筆測驗結果不同的測驗結果。但若是要進一步推展線上測驗系統的測驗題型應用範圍，並於測驗中加入填充題型等具有眾多可能的相同或相似語意詞彙答案時，則需要注意其評分機制的評分效力問題。本研究在探討各種評分機制的評分效力，主要是以各評量工具相對於教師親自批改評分之成績結果差異，做為評分效力的依據。一個完美的電腦評分機制應該與教師親自批改的評分成績結果相同，因此一個評分機制工具的評分結果與紙筆評分的結果越接近，或是在統計檢定上呈現出沒有顯著差異，則表示該評分機制具有與紙筆測驗相同或相似的評分效力。綜合資料分析結果，在包含填充題型的測驗中，不同的評分機制在測驗成績的評分結果上會有顯著差異，智慧型評分與紙筆測驗評分間的成績差距，會明顯比一般型評分機制與紙筆測驗評分間的成績差距還小。但「未擴充語意前智慧評分機制」的評分效力無法與紙筆測驗等化，若經過學生實際測驗後的語意擴充，將能使得智慧評分機制具有與紙筆測驗相同的評分效力。不過，即使本研究證明智慧型評分機制經過語意詞彙關係的知識擴充後，將可具備與紙筆評分相同的評分效力，並不表示線上測驗系統透過智慧型評分機制所評分後的成績結果會與紙筆評分的結果 100%相同，這二種評分機制的成績結果間可能只能近似 100%而已。歸納其原因，智慧評分機制內可能永遠無法將全世界中所有詞彙與詞彙間具有相同或相似語意的關係知識全部建立完整，教師也無法將標準答案相對應的所有相同或相似詞彙事先完全沒有遺漏的建立至系統內，學生也可能因為來自不同的背景，而有許多未預期的答案寫法。除此之外，學生在透過線上測驗系統進行測驗時，也可能遭受到電腦環境與技術的諸多干擾或其他隨機性的因素，而導致線上測驗的結果與紙筆測驗結果產生差異，其中包括對於電腦經驗、電腦焦慮程度、中文輸入法的使用、非刻意遺漏答案部分字元等。根據本研究結論，對於用線上測驗系統做為評分工具的教師及從事線上測驗系統發展工作者而言，可以持續透過智慧評分機制、語意詞彙關係的發展及教師評分規則參數的建立，使得線上測驗系統提供填充題題型時，仍然可具備與紙筆測驗相同的評分效力。然而本研究未來仍需透過更多不同對象及測驗科目的評分結果分析，將智慧型評分機制的成效推論至其

(19)

他的對象領域及科目範圍。此外，未來對於問答題測驗題型的評分效力研究，則還需要透過中文詞句語法結構的分析來進一步克服。近年來試題反應理論及電腦適性測驗對於電腦基礎測驗領域的理論發展而言相當重要，但由於本研究目前僅著重於電子化學習環境中，學習過程的成就測驗，並透過測驗回饋來輔助學生學習，因此不同於試題反應理論及電腦適性測驗著重單一時間點的能力鑑定。但為了深化教育測驗理論，本研究未來將針對填充題型結合試題反應理論及電腦適性測驗的方法進行研究，並使得網路測驗不僅在測驗時間及內容上可以更彈性，測驗信度與效度也能獲得保證，在結合試題反應理論及電腦適性測驗方法的測驗題型上也可以更多元。

(20)

參考文獻

王子華、王瑋龍、王國華、黃世傑（2002）。進階型多功能網路評量與試後分析系統（WATA）的發展與 設計。視聽教育，43（4），21-45。 何榮桂（1990）。電腦教學系統中的測驗設計。中等教 育，41（2），29-34。 何榮桂（1999）。量身訂製的測驗－適性測驗。測驗與 輔導，157，3288-3293。 何榮桂（2000a，December）。遠距測驗與評量。載於 國立交通大學主辦之「2000 網路學習理論與實務研 討會」論文集（pp.34-43），新竹市。何榮桂（2000b，December）。遠距測驗及相關問題之 探討。載於國立交通大學主辦之「2000 網路學習理 論與實務研討會」論文集（pp.23-33），新竹市。何榮桂、郭再興、蘇建誠、陳麗如（1999）。在 Internet 上建構測驗環境之可行性及相關問題之探討。載於中國測驗學會（主編），新世紀測驗學術發展趨勢（pp.125-135）。台北：心理出版社。何榮桂、蘇建誠、郭再興（1996）。遠距適性測驗系統 架構。資訊與教育雜誌，42，29-35。 李大偉（1995）。技職教育測量與評鑑（再版）。台北：三民書局。考試院（2003 年 9 月 3 日）。國家考試將規劃實施電腦化測驗。考試院新聞稿。2004 年 2 月 10 日，取自 http://w3.moex.gov.tw/examnews/ exnews_2.asp?pgn=1。林明達（1998）。全球資訊網線上測驗系統之設計與製作。國立交通大學資訊科學研究所碩士論文，未出版，新竹市。林清山（1990）。多變項分析統計法（第五版）。台北市：東華書局。林璟豐（2001）。全球資訊網測驗題型之研究。國立臺灣師範大學工業科技教育研究所碩士論文，未出版，台北市。 周文正（1998，March）。www 上電腦輔助測驗系統之 研製。論文發表於國立高雄師範大學舉辦之中華民國第七屆電腦輔助教學研討會，高雄市。周倩、簡榮宏（1997）。網路評量系統之發展與研究。 遠距教育，4，12-15。 黃國禛、曾秋蓉、朱蕙君、蕭經武（2002）。智慧型線 上測驗系統題型之分析與改進。科學教育學刊，10 （4），423-439。 財團法人語言訓練中心（2003 年）。TOEFL 測驗簡介。 2004 年 11 月 10 日，取自 http://www.lttc.ntu.edu.tw/Toefl.htm。陳英豪等（1982）。測驗的編制與應用。台北：偉文出版社。陳李綢（1997）。教育測量與評量。台北：五南。 張紹勳（1997）。SPSS For Windows 多變量統計分析。 台北市：松崗出版社。 游寶達（1998）。ICL 心智模式取向之智慧型電腦輔助 診斷學習系統之研究。行政院國家科學委員會「電腦輔助學習」專題研究計畫成果報告（NSC87-2511-S-194-009-ICL）。嘉義：國立中正大學資訊工程研究所及認知科學研究中心。楊亨利、應鳴雄（2006）。具備智慧型模糊評分機制之 線上測驗系統架構。資訊管理學報，13（1），41-73。 簡茂發（1999）。多元化評量之理念與方法。教師天地， 99，11-17。 鼎茂（2000）。教育與心理測驗。台北市：鼎茂出版社。

Alessi, S.M., & Trollip, S.R. (1991).Computer-Based Instruction: Methods and Development. Englewood Cliffs. N. J.: Prentice-Hall, 2nd .

Bennett, M.G., Hessinger, J. Kahn, H., Ligget, J. Marshall, G., & Zack, J. (1999). Using Multimedia in Large-Scale Computer-Based Testing Programs. Computers in Human Behavior, 15, 283-294.

Bostorm, R.P. (1990, March). The Importance of Learning Style in End-User Training. MIS Quarterly, 14(1), 101-119.

(21)

Bugbee, A.C. (1996). The Equivalence of Paper-and-Pencil and Computer-Based Testing. Journal of Research on Computing in Education, 28(3), 282-299.

Devedzic, V.B. (2003, Aug). Key Issues in Next-Generation Web-Based Education. IEEE Transactions On Systemsm, Man, And Cybernetics-PART C: Applications And Reviews, 33(3), 339-349.

Gronlund, N.E. (1998). Assessment of Student Achievement. Needham Heights, M.A.: Allyn & Bacon.

Han, T., Kolen, M., & Poglmann, J. (1997). A Comparison Among IRT True-and Observed-Score Equatings and Traditional Equipercentile Equating. Applied Measurement in Education, 10(2), 105-121.

Hwang, G-J- (2003). A Conceptual Map Model for Developing Intelligent Tutoring Systems. Computers & Education, 40, 217-235.

Langley, P., Wogulis, J., & Ohlsson, S. (1990). Rules and Principles in Cognitive Diagnosis. In N. Frederiksen, R. Glaser, A. Lesgold, & M. G. Shafto (Eds.), Diagnostic Monitoring of Skill and Knowledge Acquisition (pp. 217-250). Hillsdale, NJ: Erlbaum. Lord, F. M. (1980). Applications of Item Response Theory

to Practical Problems. Hillsdale, N. J.: Erlbaum Publishers.

Mark, D.R. (1997). The Next Generation of Computerized Tests: Implications for Testing of Advances in Multimedia. Intelligent Tutoring Systems, and Language Processing, AEDS Journal, 19(2-3), 81-108.

Marshall, S.P. (1993), The Assessment of Schema Knowledge for Arithmetic Story Problems: A Cognitive Science Perspective. In G. Kulm (Ed.), Assessing Higher Order Thinking in Mathematics (pp. 155-168). Washington: American Association for the Advancement of Science.

McCormack, D., & Jones, D. (1997). Building a Web-Based Education System. N.Y.:Wiley.

Moundridou, M., & Virvou, M. (2003). Analysis and Design of a Web-Based Authoring Tool Generating Intelligent Tutoring Systems. Computer & Education,

40, 157-181.

Peterson, B.K., & Reider, B.P. (2002). Perceptions of Computer-Based Testing: A Focus on the CFM examination. Journal of Accounting, 20, 265-284. Sun, K. T. (1999, August). An Effective Item Selection

Method by Using AI Approaches. Paper presented at the meeting of the Advanced in Intelligent Computing and Multimedia System, Baden-Baden, Germany. Swafford, M., & Brown, D. (1996, June).

MallardTM:Asynchronous Learning on the World-Wide Web, Proceedings of the ASEE 96 Conference (Session 2632).Washington, DC.

Tsai, T. H., Hanson, B.A., Kolen, M.J., & Forsyth, R.A. (2001). A Comparison of Bootstrap Standard Errors of IRT Equating MeTHODS FOR THE Common-Item Nonequivalent Groups Design. Applied Measurement in Education, 14(1), 17-30.

Van der Linden W. J., & Glas, C.A.W. (2000). Computerized Adaptive Testing: Theory and Practice. Dordrecht, Boston: Kluwer Academic.

Van Van Gorp, M.J., & Boysen, P. (1997). ClassNet: Managing the virtual classroom. International Journal of Educational Telecommunications, 3(2), 279-292. Wainer, H. & Dorans, N.J. (2000). Computerized Adaptive

Testing: A Primer (2nd ed.). Mahwah, N. J.: Lawrence Erlbaum Association.

Weiss, D.J. (Ed.) (1980). Proceedings of the 1979 computerized adaptive testing conference. Minneapolis, MN.: University of Minnesota.

Zadeh, L. A. (1965). Fuzzy Sets. Inform. Control, 8, 338-353.

(22)

致謝

本研究受行政院國科會專案計畫（ NSC

93-2416-H-004-013）補助，特此致謝。

作者簡介

楊亨利，國立政治大學資訊管理學系，教授。

Heng-Li Yang is a Professor of Department of Management Information System of National Cheng-Chi University, Taipei city, Taiwan. E-mail: [email protected]

應鳴雄，親民技術學院資訊管理系，講師

Ming-Hsiung Ying is a lecturer of Department of Management Information System, Chinmin Institute of Technology, Miao-Li, Taiwan.

收稿日期：94.02.25 修正日期：94.07.07 接受日期：94.09.29

(23)

2005,50(2), 85-107

Could On-line Testing have the Same Effects on

Scoring as Paper-and-Pencil Testing?

Heng-Li Yang Ming-Hsiung Ying

Dept. of MIS, NCCU Dept. of MIS, Chinmin Institute of Technology

Abstract

With the rapid development of the Internet, computer-based or online testing has become an important issue in information education. Currently, most on-line tests only have selection-type items (single or multiple choice). Though some tests provide short-answer

（completion-type） items, they can only recognize answers as being either “all correct”

or “all wrong” given the computer’s simple binary-pattern matching system. Thus, in order to achieve the same precision of evaluation as in traditional paper-and-pencil testing, the first stage of this research project has adopted the concepts of fuzzy theory, the thesaurus, the set, and artificial intelligence to develop a “fuzzy scoring” mechanism. The proposed on-line testing system has true-false, multiple choice, and completion-type items. The latter will be graded by means of the naturally“fuzzy judgment” of human teachers.

The main purpose of this research is to evaluate the degree of equivalence of paper-and-pencil testing and on-line testing based on the fuzzy-scoring mechanism. The results demonstrate that different scoring mechanisms have a significant effect on test scores. At the beginning, though our fuzzy on-line testing system is significantly better than the usual on-line testing system, it could not achieve the same effects as paper-and-pencil testing. After we expanded our semantic vocabulary based on feedback, however, our fuzzy scoring mechanism is now equivalent, in terms of effects on scoring, to traditional paper-and-pencil testing.

Keywords: Computer On-Line Testing, Completion-Type Items, Fuzzy Scoring Mechanism, E-Learning, Test Score Equation

線上測驗是否有可能具備與紙筆測驗相同評分效力？