中華大學

(1)

中華大學碩士論文

題目：以布魯姆認知分類與基因演算法為基礎之試卷選題策略

An Item Selection Strategy Based on Bloom’s Taxonomy and Genetic

Algorithms

系所別：資訊管理學系碩士班學號姓名：M09610023 黃紹軒指導教授：應鳴雄博士

中華民國九十八年七月

(2)

I

以布魯姆認知分類與基因演算法為基礎之試卷選題策略

中華大學資訊管理學系

摘要摘要摘要摘要

測驗的目的在於增進學習的效果，隨著電腦硬體與網際網路技術的迅速發展，電腦輔助測驗以及線上測驗已經成為一項重要的趨勢。目前許多線上測驗系統的試卷出題方式，主要是經由事先編製好的試題題庫中隨機選題，但利用這種方式產生之試卷試題組合是否能具有足夠的深度及廣度？是否能準確評量學生的學習成效？是否能評量學生在不同認知層次概念上的能力？都是值得被深入探討的問題。一份具有適當難度、良好鑑別度，以及涵蓋各類認知層次試題之測驗試卷，將能夠準確及有效地評量學生的學習狀況，作為教師改善教學方式以及增進教學績效之參考。因此本研究將藉由測驗評量理論、基因演算法以及布魯姆認知分類修正版、電腦策略選題等概念，提出一個電腦自動編製高品質試卷的選題策略，使得電腦產生之試卷試題組合能夠具備適當的深度及廣度、較佳的鑑別度，以及涵蓋用以評量不同認知層次的試題，確保選出的試卷試題組合具有評量的意義與良好的試卷品質。

關鍵詞關鍵詞

關鍵詞關鍵詞：：：：測驗評量理論、選題策略、基因演算法、布魯姆認知分類修正版

研究生：黃紹軒指導教授：應鳴雄教授

(3)

An Item Selection Strategy Based on Bloom’s Taxonomy and Genetic Algorithms

Department of Information Management, Chung-Hua University

Abstract

The main purpose of academic testing is to improve learning. The computer-based test (CBT) and online test (OLT) have been important trends in e-learning.

Many online test systems randomly generate test papers from an item bank. A high-quality test must consider the following questions. Is the depth and breadth of test items appropriate? Can test items examine student ability at different cogitative levels? Can test items avoid relationships among test items? Can a test identify student ability and provide learning suggestions appropriate? Therefore, it is the important issue to solve above problems by using information technology.

This study applies a novel item selection strategy implemented by computer and is based on assessment theory, genetic algorithms and a revised Bloom’s taxonomy. The proposed strategy ensures that tests are of high quality.

Keyword: Assessment theory, Item selection strategy, Genetic algorithms, Revision of Bloom’s taxonomy

Student：Shao-Hsuan Huang Advisor：Ming-Hsiung Ying

(4)

III

致謝致謝致謝致謝

本篇論文得以完成，首先要感謝指導教授應鳴雄老師，這兩年來的細心指導與鼓勵，讓我在研究方面獲益良多，在此獻上最誠摯的感激。感謝口試委員劉雯瑜主任和張榮庭老師對於論文給予許多的指點與建議，使我受益良多。

回首求學路，遇到許許多多給我支持和鼓勵的貴人，不論是在學業上，或是待人處事上，這些貴人對我的教導，讓我成長茁壯，我要感謝我的師長與家人，

有你們的教導、包容與鼓勵，使我能夠面對未來的挑戰，期望自己能夠謹記所學，

繼續精進，報答師長教育之情與父母養育之恩。

感謝雅真學姐與永健學長除了在研究上的協助外，更鼓勵著我不斷前進。以及研究室所有的好伙伴，倫睿、羿君、克圻、乃維等，在研究室的這段時間感謝你們的鼓勵和協助。感謝子邦、俊言，你們是我人生中難得的好兄弟，總是給我最貼心的支持與幫助，還有我所有的朋友們，謝謝你們的加油！

要感謝的人實在太多了，無法一一表達我誠摯的謝意。最後只好感謝老天爺，在我的身邊安排了這麼多貴人，謹將此論文獻給所有關心我的師長、朋友與家人！

(5)

摘要... I Abstract ...II 致謝...III 目錄... IV 圖目錄... VI 表目錄... VII

第一章緒論... 1

1.1 研究背景與動機... 1

1.2 研究目的... 2

1.3 研究流程與對象... 2

1.4 研究限制... 3

1.5 論文架構... 3

第二章文獻探討... 5

2.1 電子化學習... 5

2.1.1 電子化學習的定義... 5

2.1.2 電子化學習的發展... 6

2.2 測驗評量理論... 6

2.2.1 古典測驗理論... 7

2.2.2 當代測驗理論... 8

2.2.3 試題分析... 8

2.3 基因演算法... 9

2.3.1 基因演算法的基礎理論... 9

2.3.2 基因演算法的優點... 13

2.4 布魯姆認知分類... 14

2.4.1 知識向度... 16

2.4.2 認知歷程向度... 18

2.5 電腦策略選題... 21

2.5.1 策略選題的演進... 21

2.5.2 電腦策略選題的發展... 22

第三章研究方法與設計... 24

3.1 題庫建立... 24

3.2 電腦策略選題演算法... 25

3.3 系統評估實驗設計... 30

3.3.1 實驗設計... 30

3.3.2 相關係數檢驗... 32

第四章系統實作與展示... 34

(6)

V

4.1 系統開發環境... 34

4.2 系統設計原理... 35

4.3 系統架構... 35

4.3.1 試卷編製子系統... 36

4.3.2 線上測驗模組... 37

4.4 系統功能展示與介紹... 38

第五章系統成效評估... 41

5.1 先導實驗策略選題成效分析... 41

5.1.1 布魯姆分佈分析(1 至 3 章) ... 41

5.1.2 難度與鑑別度分析(1 至 3 章) ... 43

5.1.3 布魯姆分佈分析(4 至 8 章) ... 44

5.1.4 難度與鑑別度分析(4 至 8 章) ... 45

5.2 正式實驗策略選題成效分析... 48

5.2.1 布魯姆分佈分析(正式實驗) ... 49

5.2.2 難度與鑑別度分析(正式實驗) ... 50

5.3 策略出題與隨機出題學生成績分析... 51

第六章結論與未來研究... 53

6.1 結論... 53

6.2 未來研究與建議... 54

參考文獻... 56

附錄一 ERP 配銷模組期中考試卷... 61

附錄二本研究題庫相關參數表... 65

附錄三期中考學生作答紀錄(策略選題) ... 66

附錄四期中考學生高低分群分組(策略選題) ... 67

附錄五期中考學生作答紀錄(隨機選題) ... 68

附錄六期中考學生高低分群分組(隨機選題) ... 69

(7)

圖 1.1 論文架構... 4

圖 2.1 基因演算法流程圖... 10

圖 2.2 複製階段示意圖...11

圖 2.3 單點交配示意圖... 12

圖 2.4 雙點交配示意圖... 12

圖 2.5 均勻交配示意圖... 12

圖 2.6 突變階段... 13

圖 2.7 基因演算法多點搜尋... 13

圖 2.8 布魯姆認知分類修正版之架構... 16

圖 3.1 染色體設計... 25

圖 3.2 實驗流程設計... 31

圖 4.1 主從式系統架構... 34

圖 4.2 系統架構... 35

圖 4.3 試卷編製子系統架構... 36

圖 4.4 隨機選題測驗事件設定介面... 38

圖 4.5 策略選題測驗事件設定介面... 39

圖 4.6 第 1000 代最佳試卷試題組合染色體... 39

圖 4.7 測驗事件修改介面... 40

(8)

VII

表 2.1 布魯姆認知分類修正版... 15

表 2.2 知識向度區分內容... 17

表 2.3 認知歷程向度區分內容... 18

表 3.1 本研究採用之布魯姆分類表範例... 27

表 3.2 本研究策略選題演算法演算過程... 28

表 3.3 期中考試卷編製試題數分佈... 31

表 5.1 題庫布魯姆題數分佈(1 至 3 章) ... 42

表 5.2 最佳出題數布魯姆分佈(1 至 3 章) ... 42

表 5.3 電腦隨機出題數布魯姆分佈達成率(1 至 3 章) ... 42

表 5.4 電腦策略出題數布魯姆分佈達成率(1 至 3 章) ... 43

表 5.5 個別試題分析表(1 至 3 章) ... 43

表 5.6 題庫布魯姆題數分佈(4 至 8 章) ... 44

表 5.7 最佳出題數布魯姆分佈(4 至 8 章) ... 44

表 5.8 電腦隨機出題數布魯姆分佈達成率(4 至 8 章) ... 44

表 5.9 電腦策略出題數布魯姆分佈達成率(4 至 8 章) ... 45

表 5.10 個別試題分析表(4 至 8 章) ... 45

表 5.11 隨機出題與策略出題之試卷難度 ... 46

表 5.12 隨機出題與策略出題之試卷鑑別度... 46

表 5.13 隨機出題與策略出題之試題品質數量分佈(以知識向度為基礎) ... 47

表 5.14 隨機出題與策略出題之試題品質數量分佈(以認知歷程向度為基礎) .... 48

表 5.15 題庫布魯姆分佈(正式實驗) ... 49

表 5.16 隨機試卷布魯姆分佈(正式實驗) ... 49

表 5.17 策略試卷布魯姆分佈(正式實驗) ... 49

表 5.18 個別試題分析表(正式實驗) ... 50

表 5.19 組別統計量... 51

表 5.20 策略成績與隨機成績之變異數檢定... 52

表 5.21 策略成績與隨機成績之成對樣本 t 檢定... 52

表 5.22 策略選題與隨機選題試卷品質成效評估... 52

(9)

第一章第一章第一章

第一章緒論緒論緒論緒論

1.1 研究背景與動機研究背景與動機研究背景與動機研究背景與動機

隨著網際網路的普及與資訊科技的進步，近年來有關電子化學習之議題蓬勃發展，

無論是應用在教育或是企業領域上，均有相當顯著的成效。透過網際網路的資訊傳遞，

學習者能夠更方便且容易地接受與分享知識，使學習變得更為主動，且由於電腦科學相關技術的長足進步，電子化學習已不僅僅是使用錄影帶或光碟等教材來輔助學習，而是伴隨著多媒體等具有聲光效果的互動式素材來達成提升學習效果之目的。

探究現今的教育狀況，教師需要利用一些客觀的方法來衡量學生的學習成效，而要去獲得這些資料有很多方法，例如，會談法、互評法、觀察法等等。但是這些方法有許多都必須經由觀察者本人的主觀意識來進行評量，有時會花費過多的時間與精神，而且並不是非常的客觀，所以現今教師對於衡量學生的學習是否達到標準，多半還是採取「測驗法」。而利用測驗法的好處在於能夠在花費較少時間的情況下，獲得大量的資料，而且在公平性上的表現也較佳，並不會因為個人主觀因素影響而對於評量結果產生影響，

因此對於教師來說，利用測驗法來評量往往是教師必須在短時間內蒐集到學生能力與學習成效的最佳途徑。

測驗能增進學習成果，也能獲得學生學習成效的資訊(Brueckner ＆ Band, 1955)，

此外透過測驗的結果也能作為教師提供學生諮詢與後續教學輔導的重要參考(Gronlund, 1993)。傳統測驗往往採用紙筆方式進行測試，無論是在閱卷及出題之人工成本或是場地安排均會受到限制，因此在測驗效率及準確性上的表現較差(何榮桂，1990；周文正，

1998)。近年來線上測驗(online test, OLT)及電腦基礎測驗(computer-based test, CBT)具有提高測驗效率、增加評量客觀性、即時豐富回饋、生動與互動性等優點(何榮桂，1990)，

伴隨著遠距教學理念的興起，線上測驗學習逐漸取代傳統的紙筆測驗，已成為教育領域最受重視的主題之一。

大多數的線上測驗學習系統之運作方式均是透過教師編製測驗試題題庫以供編製試卷之用，目前許多線上測驗系統的試卷出題機制，仍是由教師事先編製並設置好的題庫中隨機選題產生，而電腦自動亂數產生的試卷試題組合是否能涵蓋足夠的深度及廣度？是否能評量學生不同認知層次的能力？是能夠達到教學目標？如何產生一份具有高品質的試卷？都是有必要深入研究的議題，若這些問題無法在編製試卷階段解決，學生所獲得的測驗評量成績將可能產生偏誤，測驗評量的客觀性及目的性也將受到影響，

評量結果也無法給予學生適當的學習改進建議。

(10)

因此本研究希望藉由電子化學習、測驗評量理論、基因演算法、布魯姆認知分類修正版、電腦策略選題等概念，提出一個電腦自動編製高品質試卷的選題策略，使得電腦編製試卷的試題組合能夠具備適當的深度及廣度、較佳的鑑別度，及足以評量不同認知層次的試題，確保選出的試題組合具有評量的意義與良好的試卷品質。

1.2 研究目的研究目的研究目的研究目的

針對測驗編製一份試題，對於教師來說雖然並不是一件太困難的任務，但是應該關注的問題在於到底試卷上所問的問題是否能夠測驗出學生真正的學習成效，而現今多數的測驗方式往往依照教師的教學經驗建立題庫，再由題庫來隨機命題編製測驗試卷，但這種方式編製出的測驗試卷並不一定能夠真正涵蓋到所有學生們所應了解的知識，此外對於某些相似度高的試題來說，造成試卷題數配額無謂的浪費，無法讓試卷呈現最大的廣度，最適當的試題鑑別度與難度。因此本研究將透過資訊技術及測驗理論，提出一個解決上述問題的試卷編製選題策略。本研究的目的可歸納如下：

(1) 應用資訊技術和網際網路，以測驗評量理論(assessment theory) 、基因演算法(genetic algorithms)以及布魯姆認知分類修正版(revision of Bloom’s taxonomy)為基礎，提出一個具有適當難度、良好鑑別度，以及涵蓋各種認知層次的高品質試卷選題策略演算法。

(2) 考量可能影響試卷品質的因素，確保試卷能具備適當的深度、廣度、鑑別度，並能適當的涵蓋評量各種認知層次的試題。

(3) 能提供有效率的試卷管理，並使電腦編製的試卷試題能夠具備適當的深度及廣度，

能適當涵蓋不同認知評量層次，最終期望產生的試卷能夠測驗出學生學習狀況的客觀結果。

(4) 探討本研究提出電腦選題策略方法之實際成效，比較受測學生在電腦隨機選題與電腦策略選題兩種機制下的成績表現，檢驗電腦自動編製試卷的品質。

1.3 研究流程研究流程研究流程與對象研究流程與對象與對象與對象

本研究首先闡述研究背景與動機、研究目的，透過文獻資料的分析與整理，以電子化學習、測驗評量理論、基因演算法、布魯姆認知分類修正版以及電腦選題策略等概念，

針對試卷品質做一深入的研究，評量電腦試卷選題的試題組合是否能具備適當的深度及廣度，以及能在評量不同認知層次的試卷試題組合上，獲得較佳的分佈。綜合上述，本

(11)

研究藉由電腦選題策略演算法來自動編製具有高品質之測驗試卷，將考量多種可能影響試題組合適當性的因素，例如適中的整體平均難度、較佳的試卷整體平均鑑別度、布魯姆認知分類試題比例…等，以期讓測驗試卷能夠準確衡量學生的觀念是否清楚。

本研究之測驗對象為新竹市某大學資訊管理學系大學部學生 39 位，選修課程為「企業資源規劃：配銷模組」，透過學期初安排之兩次線上隨堂測驗獲得試題難度與鑑別度，

作為期中考試卷編製之參考，並透過分析比較受測學生在電腦隨機選題與電腦策略選題兩種試卷選題策略下，其成績與作答表現是否會有差異，作為本研究之策略出題系統成效之評估與檢驗。

1.4 研究限制研究限制研究限制研究限制

本研究在系統成效評估是透過新竹市某大學資訊管理學系大學部「企業資源規劃：

配銷模組」課程共計 39 位修課學生為樣本，透過期中考前兩次之線上隨堂測驗獲得試題難度與鑑別度，因此本研究之策略選題演算法也將根據兩次測驗範圍找出最適合該次測驗範圍之最佳試卷試題組合，期中考試卷的出題範圍編製上由於橫跨了兩次線上隨堂測驗，因此期望能夠分別依照兩次線上隨堂測驗範圍，在題庫中所佔的比例選出之試題組合來編製期中考試卷。若試題之難度與鑑別度為已知的情況下則可以直接透過本研究之電腦選題策略演算法來進行試卷的編製。

1.5 論文架構論文架構論文架構論文架構

本論文的架構如圖 1.1 所示，主要共分為五個章節，藉由提出之試卷選題策略，編製出具有良好品質之測驗試卷，各章節所探討的主題分別如下：

第一章為「緒論」，簡單描述研究背景與動機、研究目的、研究流程與對象、研究限制以及論文架構。

第二章為「文獻探討」，會深入介紹與本研究主題相關之研究與理論，包括了電子化學習、測驗評量理論、基因演算法、布魯姆認知分類修正版以及電腦策略選題等，作為本研究之理論基礎。

第三章為「研究方法與設計」，主要詳細描述本研究之研究方法以及研究步驟，包含題庫建立、電腦策略選題演算法(包含染色體設計與適應函數相關參數設定)、電腦策略選題演算法與系統評估實驗設計。

第四章為「系統實作與展示」，包含系統開發環境、系統設計原理、系統架構以及系統功能展示與介紹。

(12)

第五章為「系統成效評估」，分析探討本研究試卷選題策略之成效，包含先導實驗策略選題成效分析與正式實驗策略選題成效分析。

第六章為「結論與未來研究方向」，總結本研究的研究成果，並針對未來可能的研究方向提出一個指引與展望。

圖 1.1 論文架構

(13)

第二章第二章第二章

第二章文獻探討文獻探討文獻探討文獻探討

本研究之目標在提出一個電腦自動編製高品質試卷的選題策略演算法，希望藉由本系統編製之試卷能夠準確且有效地衡量學生的學習情況，並且輔助教師改進教學方式，

相關文獻包含了電子化學習(e-learning)、測驗評量理論(test theory)、基因演算法(genetic algorithms)、布魯姆認知分類修正版(revision of Bloom’s taxonomy)及電腦策略選題 (item selection strategy)等。

2.1 電子化學習電子化學習電子化學習電子化學習

近年來由於科技的進步與數位學習工具的蓬勃發展，伴隨著Web 2.0時代的來臨，

網路的運用已隨著使用型態的高度互動性產生了很大的改變，這些改變也同時影響了電子化教學的方法與工具的使用，也讓電子化學習帶來了更多的創新性與多元性，而電子化學習包含了教學與學習理論、數位科技等概念，當前不論在企業或是教育領域，均成為一項很重要的議題。

2.1.1 電子化學習的定義電子化學習的定義電子化學習的定義電子化學習的定義

許多學者認為，電子化學習乃是藉由電子學習工具來獲取學習內容的一種方式 (Kholekile & Wang, 2007)，隨著電子化學習的發展，越來越多的學生透過線上學習課程獲得學位(Huynh et al., 2003；Lee & Lin, 2005)，因此使線上學習發展逐漸成熟，開始獲得大家的注意，也成為了二十一世紀新興的一種學習方式。

電子化學習強調以電子化的方式，利用多媒體、視訊介面與網路等技術，讓學習者能夠隨心所欲、隨時隨地進行知識學習。在理想的電子化學習情境中，教師不完全是學習活動的重心，而是學習者能夠依據個人的喜好與個人特質，選擇適合自己的學習方式與安排符合自己需求的課程進度，並且也能透過網路上的多媒體教材資源進行互動式的知識學習，進而滿足自己的學習目標與期望。根據Rosenberg(2001)對線上學習的定義提出了三項標準：

(1) 電子化學習的特色在於可即時更新、存取、傳遞與共享學習的內容。

(2) 透過網際網路讓遠端學習者可以獲取學習內容。

(3) 強調隨時隨地自由地學習，除了不限領域與時間之外，學習者也不用循序漸進的學習，可以依照自己的程度來選擇想要學習的課程。

(14)

2.1.2 電子化學習的電子化學習的電子化學習的電子化學習的發展發展發展發展

電子化學習可說是目前蓬勃發展的學習媒介，諸如政府、高等教育機構或是私人企業等都積極投入資源至電子化學習中，希望藉由這些學習行為的改變提升作業的績效 (Govindasamy, 2002)。

近年來由於數位學堂、數位學習中心和電子化學習網站的快速發展，使得學習者能夠不受時間以及地域的限制，選擇符合自己需求之學習內容，使得電子化學習機構成為了連接學習者與數位內容的橋樑。

而電子化學習在未來的發展，可以預見學習者將擁有更多的學習主導權，而學習技術也更能根據學習者的需求來提供服務，相關的開發工具也將愈來愈成熟、複雜與朝向多功能邁進，並且針對不同學習者開發更多客製化的學習內容，讓電子化學習具備低成本的工具與傳輸媒介、高品質的學習內容，以及容易利用的網頁相關模組。而電子化學習平台的設計除了能追蹤的網路學習與管理之外，更可以透過記錄學習者的個人學習歷程來提供更多互動性功能的服務，應用於企業中更能使企業具備更大的競爭優勢，除了可以透過數位內容與學習品質的不斷創新與優化，並建立電子化學習商品與服務平台的流程與管理制度，協助電子化學習產業改善服務品質；中長期之目標也能培養解決方案之能力，發展具全球知名之數位內容，並整合出商品內容與服務水準並重之多元經營模式，期望未來可邁向學習者與經營者雙贏的局面(經濟部工業局, 2008)，根據上述對於電子化學習的發展，可以預見其重要性是日益加深，必將成為另一條前往知識殿堂的途徑！

2.2 測驗評量理論測驗評量理論測驗評量理論測驗評量理論

測驗評量理論(test theory)是一種驗證測驗資料之間實證關係(empirical relationships) 的系統性理論學說。其理論的發展，如今已經進入不同的新紀元，大多數測驗理論的學者通常把它區分成二大學派：一為古典測驗理論(classical test theory)，主要是以真實分數模式(true score model)為主體(Lord, 1968；Gulliksen, 1987)；另一為當代測驗理論 (modern test theory)，主要是根據試題反應理論(item response theory)架構為發展基礎而來 (Lord, 1980)。

(15)

2.2.1 古典測驗理論古典測驗理論古典測驗理論古典測驗理論

古典測驗理論(classical test theory)是最早發展的測驗理論，因為其採用的方法簡單易行，且廣受教師及一般大眾所接受，因此在當今測驗學界裡，古典測驗理論在使用上仍然廣受歡迎，是相當實用的一種測驗理論(余民寧，1997)。古典測驗理論亦可稱為「古典信度理論」(classical reliability theory)，因為其理論都是建立在真實分數模式之數學模式基礎上(Suen, 1990)，根據古典測驗理論的假設，受試者會因為某些潛在特質而影響每一次測驗的實得分數，因此必須經由多次的測驗來找出其平均數，稱為「真實分數」，

真實分數並不會因為測量次數的多寡而有所影響，而真實分數與每次測驗的實得分數之差距稱為「誤差」(郭生玉，2001)。若以數學公式來表示，可以表示如下，公式中的 X 表示實得分數；t 表示真實分數；e 表示誤差。

X = t + e (1) 古典測驗理論即是建立在這種真實分數模式與其假設的基礎上，驗證測驗資料間的關係，進行系統性解釋的一門學問，古典測驗理論主要是依據弱勢假設(weak assumption) 而來，因為其規模已久，所採用的公式又較為簡單易學，適用於大多數的教育與測驗環境，和社會學科研究資料的分析。

雖然古典測驗理論具有以上種種的優點，但是卻有下列幾項缺失(Guion & Ironson, 1983；Hambleton & Swaminathan, 1985)：

(1) 古典測驗理論中所採用的一些指標例如：鑑別度(discrimination)、難度(difficulty)以及信度(reliability)等等，均是屬於樣本依賴(sample dependent)的指標，也就是指標將會因為測驗者樣本的不同而產生出不同的結果，因此對於不同的測驗者樣本來說，

只憑單一份測驗很難去獲得一致的鑑別度、難度等指標。

(2) 古典測驗理論使用一種相同的測量標準誤(standard error of measurement)，當作每位測驗者的測量誤差指標，這種作法並沒有考慮到測驗者能力之間的差異部分，例如對於高、低能力兩組極端的測驗者來說，這種指標在合理性以及準確性上之表現並不佳，因此使得理論假設的適當性受到懷疑。

(3) 古典測驗理論完全忽視測驗者的試題反應組型(item response pattern)，認為原始得分一樣的測驗者，其個人能力或是試題難度估計值也是相同的，其實這樣的看法並不正確，因為即使原始得分相同的測驗者，其試題反應組型也不見得會完全一致，因此其能力估計值應該也會有所不同。

(16)

2.2.2 當代測驗理論當代測驗理論當代測驗理論當代測驗理論

余民寧(1991)認為當代測驗理論是為了改良古典測驗理論之缺失而發展的，它具有以下幾項特點，這些特點正是古典測驗理論所缺乏的(Hambleton & Cook, 1977)：

(1) 當代測驗理論所採用的試題參數(item parameters)（例如：難度、鑑別度等），是一種不會受到測試者樣本所影響(sample-free)的指標，也就是說這些參數的獲得，將不會因為所選出接受測驗的測驗者樣本的不同而產生出不同的結果。

(2) 當代測驗理論也能夠針對每位測驗者，提供個別差異的測量誤差指標，而非使用單一相同的測量標準誤，因此更能夠精確推估測驗者的能力估計值。

綜合以上所述，當代測驗理論可以避免掉許多古典測驗理論中的缺失，但事實上當代測驗理論被採用的次數卻是少之又少，其原因主要有下列幾點(余民寧，1991)：

(1) 當代測驗理論的學者多數出自數學界或是在數理統計上頗有研究之研究者，因此他們的研究也多偏向數理模式的推導，較少考慮到實務面的部份。

(2) 當代測驗理論是建立在理論假設嚴謹的數理統計學機率模式上，因此對於教育界或是心理學界人士來說，是一種頗為難懂的理論，若要從事此領域研究，則需先了解與此理論有關的數學公式，因此在推行與採用上有一定的難度。

(3) 過去科學技術發展的限制造成無法使用電腦套裝軟體的配合計算，在參數的估計上難以使用計算機或是紙筆計算來順利進行，使得當代測驗理論的發展更受限制。

2.2.3 試題分析試題分析試題分析試題分析

余民寧 (1997) 認為試題分析是針對試題的統計特徵進行量化分析 (quantitative analysis)，其特徵包括鑑別度(discrimination)與難度(difficulty)。經由試題特徵分析，教師可以得到各個試題的資訊，並且透過學生實際施測來對試題做難度及鑑別度計算，判斷試題品質的好壞，有助於提高日後編製試卷的經驗，也可以間接提升測驗的信度和效度，並且以此挑選優良試題，建立試題的題庫，因此教師若能在實施測驗的前後，就進行試題分析的動作，並且保留優良的題目以供建立題庫之用，假以時日便可以累積許多優良的試題，建立完整具有品質的測驗題庫，作為未來出題的參考，其優點不僅是省時省力，更可以利用測驗和評量的相輔相成，進而達到改進教學評量的成效

(17)

綜合以上有關試題分析之敘述，總結試題分析的功能有以下三點(余民寧，1997)：

(1) 作為教師協助改進學生學習的參考：在結束測驗之後，教師可以藉由試題分析和學生進行試題的討論與解釋，希望透過這樣的機制來導正學生原本錯誤的觀念，輔導與矯正學生錯誤的學習方式與考試技巧，並激勵學生面對下次測驗的挑戰。

(2) 增加教師編製試題的經驗與品質：經過試題分析可以讓教師知道哪些試題的難度可能太過簡單或是太過困難，哪些試題的鑑別度可能不佳，無法準確有效的區分高分群與低分群的差別，針對這些問題試題做相應的修改與刪除，除了能夠讓學生的學習狀況準確反應之外，也能夠增進教師編製測驗試題的技巧。

(3) 作為課後輔導與課程編排上的參考：透過試題分析可以發現學生學習的盲點，方便教師擬定課後輔導的方式與實施的強度，也能夠協助教師調整教學目標與教學方式，並且在學習進度上的安排更能夠適配學生的學習。

因此在具備「自我學習」的線上學習環境中，學習者可以藉由線上測驗來評量學習的成效，但透過測驗及評量並非只希望單純獲得一個分數而已，重要的是應重視試題與教育目標的配合，使得測驗與評量成為輔助學習者學習的一部份，若要達到這個目標，

線上測驗系統中的試題就必需包含每個試題所能評量的層次及試題資訊。

2.3 基因演算法基因演算法基因演算法基因演算法

由於本研究為了找出最適當之試卷試題組合，必須透過檢驗每一種試題組合來達成，但試題組合的數量會受到出題與否的影響而造成無法在有效的時間內獲得最佳解，

因此可以透過基因演算法來輔助其運算。

2.3.1 基因演算法的基礎理論基因演算法的基礎理論基因演算法的基礎理論基因演算法的基礎理論

Holland的基因演算法是一種利用達爾文進化論概念，找尋最佳解的演算法(Holland, 1975)。其主要的運算機制係源於達爾文進化論中「物競天擇」的概念，即自然界的生物是以「適者生存，不適者淘汰」的方式來演化，競爭力弱的物種會在演化的過程中消失，而競爭力強的物種則會生存下來，經過天擇過後的物種將更多優良的基因遺傳給子代，使得子代繼承了親代的優勢更加適應環境的變遷，此類演算法是透過操作染色體的方式進行演化，並在期間藉由運算繁衍出子代，透過適應函數(fitness function)的設計可選出適合環境的子代繼續繁衍，並獲得較適合環境的物種(Chen, 1999)，基因演算法包含以下幾個主要運算步驟：產生初始族群、染色體基因解碼、計算適應函數值、複製階段、

(18)

交配階段、突變階段，圖2.1敘述基因演算法各個流程(蘇木春、張孝德，2004；Seng &

Ying, 2004；邱登裕、鍾典村等，2007)：

圖 2.1 基因演算法流程圖(改自蘇木春、張孝德，2004)

步驟一、產生初始族群

在進行基因演算法之前必需根據使用者之參數設定產生初始族群個數，再根據電腦利用隨機變數方式將所欲研究之問題進行編碼，包含了決定染色體基因長度、編碼的方式等，作為後續複製、交配與突變等運算子使用，最常使用的編碼方式為二進位編碼，

即用 0 與 1 將問題解編成 n 個位元的字串，一條字串代表一條染色體，而其中每一個位元即代表一個基因。

步驟二、染色體基因解碼

將原先編碼的字串予以解碼，還原成之前所設計之變數，目的在於將問題表達成能夠計算的形式，計算出之值即為適應函數值。

步驟三、計算適應函數值

適應函數是一種衡量染色體的機制，觀察各個染色體適應函數值高低能夠了解其對目標的適應程度，進而決定演化的方式，使演化朝向適應函數值最大(或最小)的方向發展，因此適應函數的設計必須視所面對之問題而定。

(19)

步驟四、複製階段

在此階段選擇與複製之用意為將適應函數值較差的染色體淘汰，把適應函數值較高的染色體保留下來，並且透過複製優秀的染色體逐步替換適應函數低的染色體，經過這樣的機制優良的染色體會被保留下來且數量越來越多，進而使族群整體素質也獲得增加，複製階段如圖 2.2 所示，而常用的兩種選擇方式如下所述：

(1) 輪盤選擇法：透過計算同代染色體的適應函數值總和 TOTFIT(t)，然後再求出染色體適應函數值與總和之比值，經過標準化後當作被選取到的機率，此機率之總和成為一個輪盤，假設用射飛鏢遊戲為例，適應函數值越大則在輪盤上佔有之扇形面積也越大，因此被射中的機率也越高，即代表此條染色體被挑選至交配池(mating pool) 的機率。

(2) 競爭選擇法：此法由 Goldberg(1989)所提出，其特色為在選擇時避免染色體均偏向某些好的個體集中，造成挑選出來的染色體之間差異縮小而無法繼續趨近最佳解，

方法是隨機挑選族群中任兩條染色體，將適應函數較高之染色體挑選進交配池中，

挑選完後仍然將兩條染色體放回族群使其下次仍有機率被挑選。

圖 2.2 複製階段示意圖(改自蘇木春、張孝德，2004)

步驟五、交配階段

交配階段是選取二條染色體字串互相交換染色體，進而產生新的二條染色體，希望藉由染色體較佳的基因產生出優於前代的新世代，並取代母帶染色體，常見的交配方法有單點交配法、雙點交配法、及均勻交配法等三種，茲分述如下：

(20)

(1) 單點交配法：隨機選取染色體之一個位置，作為染色體之截斷處，並進行後段基因的交換動作。如圖 2.3 所示：

圖 2.3 單點交配示意圖(改自蘇木春、張孝德，2004)

(2) 雙點交配法：隨機選取染色體之兩個位置，作為染色體之截斷處，並進行中間基因的交換動作。如圖 2.4 所示：

圖 2.4 雙點交配示意圖(改自蘇木春、張孝德，2004)

(3) 均勻交配法：隨機產生一條染色體當作遮罩，根據對應到字罩的基因判斷是否進行基因的交換動作。如圖 2.5 所示：

圖 2.5 均勻交配示意圖(改自蘇木春、張孝德，2004)

步驟六、突變階段

如圖 2.6 所示，突變階段採取隨機選擇任一染色體與突變點，改變染色體某一個基因，目的在於創造出前代從未出現過的特徵，可以減少發生搜尋空間落入區域最佳解的狀況，就常見的二進位編碼的染色體字串而言，即將 0 變 1，1 變 0，此階段過程由突變機率所控制。

(21)

圖 2.6 突變階段(改自蘇木春、張孝德，2004) 步驟七、重覆步驟三∼步驟六，直到符合終止條件為止。

2.3.2 基因演算法的基因演算法的基因演算法的基因演算法的優點優點優點優點

由於本研究的試題組合種類數字相當龐大，而運用基因演算法能在合理的時間範圍內求得近似最佳解，採用基因演算法的優點如以下所述(Goldberg, 1989)：

(1) 多點搜尋：基因演算法是採取「多點搜尋法則」，能夠在同一時間考慮搜尋空間上的多個點而不針對單一個點來進行計算，傳統的搜尋方法通常都是根據固定的位移規則來決定下次的搜尋如何進行，此種搜尋方式較容易落入區域最佳解(local optimum)的狀況，如下圖2.7多峰谷的函數很容易找到錯誤的最小值，因此若是利用基因演算法多點搜尋來跳脫空間上的限制(如連續或可微分之限制)，透過適應函數值的高低以及生物演化的過程搜尋，留下優良的基因來逐漸逼近實際的最佳解 (global optimum)。

圖 2.7 基因演算法多點搜尋(本研究繪製 )

(2) 避免落入區域最佳解：基因演算法利用「機率準則」及「多點搜尋法則」的方式來引導搜尋的方向，因此在處理不同類型的問題最佳化上，都有不錯的效果，這種隨機性和適應性，可以針對整個搜尋空間做更仔細的且徹底的檢查，有效避免落入區域最佳解的機會，這個特性也是使用基因演算法的最大優點。

(3) 運算簡單：基因演算法只需要針對適應函數做設計，也就是指適應函數值，而傳統區域最小值

區域最小值

全域最小值

(22)

的搜尋方法可能還必須考量一些額外資訊，例如使用梯度法時，決定搜尋方向的參數必須考量目標函數之倒數，相較而言，基因演算法只需要透過適應函數值就可以經由演化而保留較適應環境之物種，來逐漸逼近最佳解，因此可以跳脫許多公式及相關參數上複雜的限制，無形中也降低了困難度。

當前基因演算法已經廣泛的運用在科學以及工程上最佳化求解問題，諸如最佳化排程(optimal scheduling)、最佳化設計(optimal design)、最佳化配置(optimal configuration)、

投資組合控管(portfolio management)等最佳化領域(Negnevitsky, 2002；Mitchell, 1996)，

以及商業與財務的預測上(Chiu & Chen, 2009)。

2.4 布魯姆認知分類布魯姆認知分類布魯姆認知分類布魯姆認知分類

舊版的布魯姆教育目標分類最早是在1948 年於波士頓舉行的美國心理學會

(American Psychological Association, APA)所舉辦之年會中產生，當時是由多位任教於大學校院測驗學者在會議中討論，希望能利用他們測驗時所用的共通模式架構來增加測驗的交流和施測之理念，也能夠激發測驗與其教育目標之間的關係。

然而經過多年在學術界與教育界的廣泛研究使用之後，伴隨著認知心理學的發展，

開始有部分學者對於舊版布魯姆認知分類提出質疑與批評，有以下三點(Furst, 1994；

Kreitzer & Madaus, 1994；Postlethwaite et al., 1994)：

(1) 使用上太拘泥細微的部份可能會對教師的教學產生限制。

(2) 應該只要列入可以測驗的行為。

(3) 類別的分類區分性不足還是容易造成混淆。

近年來Bloom等人(1956)的教育目標分類在國內外教育界廣為採用，且有關於教育學習的研究重心，主要均聚焦在有意義的學習(meaningful learning)，也就是透過學習者具備主動學習(active learning)、認知(cognitive)、和建構學習歷程(constructive learning processes)，強調學習者「知」(指知識)以及「如何去思考」(指認知的過程)二部份的探討(葉連祺、林淑萍，2003)。

因此Anderson等人(2001)重新修訂了Bloom教育目標認知分類系統，並將原先單向度的認知分類區分為「知識向度」與「認知歷程向度」兩個向度，知識向度又區分為事實知識、概念知識、程序知識、後設認知知識等四類(Krathwhol, 2002)，而認知歷程向度則區分為記憶、了解、應用、分析、評鑑、創造等六種層次能力(黃光雄，1983)，且為一種「漸增複雜性階層」（increasing complity hierarchy），也就是各類別層次呈現出漸增的複雜性(Krathwhol, 2002)，因此可以作為應用在衡量教材及試題內容上一項均衡性的

(23)

指標，透過應用布魯姆認知分類修正版來達到教育目標、教學評量及教學活動的客觀性與一致性。

根據上述，布魯姆認知分類修正版用以下二維陣列來表示，區分為知識向度與認知歷程向度，教師可以在表格中設定教學目標、教學活動與教學評量，呈現教學和評量的設計構想，因此布魯姆認知分類修正版比舊版更能把教育目標分類使用於學習課程上，

並且與教學活動與教學評量做連結，更適合當作測驗評量系統的概念依據(葉連祺、林淑萍，2003)，如下表2.1所示：

表 2.1 布魯姆認知分類修正版認知歷程向度(思考層次) 知識向度

(學習概念) A.記憶 B.了解 C.應用 D.分析 E.評鑑 F.創造 1.事實知識

2.概念知識教學活動 1

測驗 1 教學目標教學活動 2 3.程序知識

4.後設認知知識

註：修改自葉連祺、林淑萍(2003)

比較舊版布魯姆認知分類與布魯姆認知分類修正版之間的差異，修正版已由原本的單一向度區分為「知識向度」與「認知歷程向度」兩個向度，而且布魯姆認知分類修正版重點在強調使用於課程、教學、評量與連結三者之關係，也將類別區分為名詞與動詞兩個向度(參照表 2.1 知識向度與認知歷程向度)。綜合而言，布魯姆認知分類修正版在使用性上更適合不同年級的教師，兩個向度的呈現方式也讓教師更容易將布魯姆認知分類概念運用至教學情境之中，舊版與修正版之差異如下圖 2.8 所示：

(24)

圖 2.8 布魯姆認知分類修正版之架構註：修改自葉連祺、林淑萍(2003)

2.4.1 知識向度知識向度知識向度知識向度

在布魯姆認知分類修正版中，知識向度可區分為事實知識(factual knowledge)、概念知識 (conceptual knowledge) 、程序知識 (procedural knowledge) 和後設認知知識 (meta-cognitive knowledge)四類。事實知識和概念知識指的是有關什麼(what)的知識，事實知識代表學生學習完課程後應該具備用於解決問題的知識，概念知識則是強調結構中相互之間的關係，事實知識與概念知識的差異在於事實知識強調知識的基本定義，而概念知識則在了解定義與定義之間的關係。程序知識為有關如何做(how)的知識，大多指一連續或系列性的程序，就是指完成一件流程的步驟。後設認知知識通常包括一般認知的通用策略以及對自我知識的認知和察覺，以及對認知知識的監控、修正與調整，這四類知識間彼此也有關係，如概念知識可同時包含事實知識，或同時包含程序知識，甚至同時包括了概念知識和事實知識，知識向度之詳細區分內容如表 2.2 所示：

(25)

表 2.2 知識向度區分內容

主類別/次類別定義/說明示例

A.事實知識(factual knowledge)

學習課程後及解決問題時應該知道的基本要素 AA. 術語的知識

(knowledge of terminology)

特定語文或非語文形式的標題和符號

樂符、植物、注音符號、

分數、幾何圖形 AB.特定整體和元素的知

識(knowledge of specific details and elements)

有關事件、位置、人、資料、資訊來源等知識，可包括具精確和特定性或約略性的資訊

新聞事件、自然資源、社區文化

B.概念知識(conceptual knowledge)

指存於較大型結構中能共聚產生功能的各基本要素之相互關係

BA.分類和類別的知識 (knowledge of classifications

and categories)

用於確定不同事物的類別、等級、劃分和排列情形

地質年代、台灣原住民族群、季節、方位

BB.原則和通則化的知識 (knowledge of principles and generalizations)

有關觀察現象總結的摘要，可用描述、預測、解釋、決定最適行動

供需法則、重力加速度公式、生活規範、法律 BC.理論、模式和結構的

知識 (knowledge of theories, models, and structures)

對複雜的現象、問題和事物，提出清楚、完全和系統性的觀點

進化論、認知架構、家庭結構、消費型態、經濟模式

C.程序知識(procedural knowledge)

有關如何完成某事的流程、探究方法，以及使用技巧、演算、技術和方法的規準

CA.特定學科技能和演算的知識(knowledge of subject-specific skills and algorithms)

多指有固定最終結果、或具固定順序或步驟的知識

運用水彩畫圖的技巧、整數的除法運算

CB.特定學科技術和方法的知識(knowledge of subject-specific techniques and methods)

大部分為一些對結果具共識或是學科規範的知識，多反映出專家思考和解決問題的方式

面談技巧、科學方法

C.C 決定何時使用適當程序的規準知識 (knowledge of criteria for determining when to use appropriate procedures)

指知道何時使用程序和過去使用該程序的知識，通常為歷史記錄或百科全書形式

評斷使用特殊方法估算學校經營成本的規範、羽球打法、自網路查資料的方法

D 後設認知知識 (meta-cognitive knowledge)

指認知和知覺的知識及對自己認知的知識

DA.策略的知識(strategic 指用於學習、思考和解決考查學生數學學習成就

(26)

knowledge) 問題的一般性策略知識，會因工作和學科性質而異

及其生活情境和認知發展狀態的知識

DB.認知任務的知識，包括特有脈絡和狀態的知識

(knowledge about cognitive tasks, including appropriate contextual and conditional knowledge)

即情境知識 (conditional knowledge)，包括何時正確使用和為何使用某知識的策略，其與當時情境、社會、傳統和文化規範有關

考查學生數學學習成就及其生活情境和認知發展狀態的知識

DC.自我的知識 (self-knowledge)

包括對自己在認知和學習方面優劣的知識、動機信念(含自我效能信念、

對目標和理由的信念、對價值和興趣的信念)

評斷自己解決數學問題的優點、缺點和能力等級、了解自己的價值觀

註：引用自葉連祺、林淑萍(2003)

2.4.2 認知歷程向度認知歷程向度認知歷程向度認知歷程向度

在布魯姆認知分類修正版中，認知歷程向度可區分為記憶 (remember) 、了解 (understand)、應用(apply)、分析(analyze)、評鑑(evaluate)和創造(create)六類。記憶即是由從過往記憶中提取重要的知識，能夠辨認與取回，了解是指學生能從教師的教學訊息中建構意義，例如結合先前與目前的知識，得到一個全盤性的理解，應用是指面對一個情境，透過使用程序來解決問題，分析指將整體打散成不同的組織部分，並且提出部分間與整體結構之相關性，評鑑指學生根據標準或規則來下判斷，這些標準通常是有效、

具有效率和一致性，創造指將要素聚集起來成為一個協調或具功能性的整體，並且重新組合成為新的結構或模式，認知歷程向度之詳細區分內容如表 2.3 所示：

表2.3 認知歷程向度區分內容

主類別/次類別相關詞定義示例

1 記憶 (remember)

從長期記憶取回有關知識

1.1 確認 (recognizing)

確認(identifying) 確認長期記憶中和現有事實一致的知識

指出那天是中秋節

1.2 回憶 (recalling)

取回(retrieving) 自長期記憶中，取回有關知識

說明那天是中秋節

2.了解 (understand)

從口述、書寫和圖像溝通形式的教學資訊中建構意義

2.1 說明 (interpreting)

釐清(clarifying)、

釋義

由一種呈現資訊方式，轉換成另一

畫出日蝕的成因

(27)

(paraphrasing)、陳述 (representing)、

轉釋(translating)

種方式(如數值轉換成語文

2.2 舉例 (exemplifying)

舉例

(illustrating)、舉實例(instantiating)

找出特定的例子或對概念或原則的說明

舉出端午節的重要活動

2.3 分類 (classifying)

分類

(Categorizing)、歸類(sub-suming)

決定將某些事物歸屬為同一類

將中秋節視為中團傳統的節慶 2.4 總結

(summarizing)

摘要

(abstracting)、建立通則(generalizing)

將一般性主題或要點，加以摘要

摘要提出「賞月記」的文章大意 2.5 推論

(inferring)

推斷

(extrapolating)、插補(interpolating)、

預測(predicting)

根據現有資訊，提出一個具邏輯性的結論

依資料推斷端午節也是中團傳統節慶

2.6 比較 (comparing)

對照

(contrasting)、模比 (mapping) 、配對 (matching)

檢視二觀點、事物或其它類似物中的一致性

比較中秋節和端午節的異同

2.7 解釋 (explaining)

建構

(constructing) 、建立模式(models)

建立一個系統的因果模式

解釋颳風發生原因

3.應用(apply) 面對某情境執行或使用一個程序 3.1 執行

(executing)

進行(carrying out) 應用一個程序於已熟悉的工作

應用習得的二位數加法，計算二位數加法問題 3.2 實行

(implementing)

運用(using) 應用一個程序於陌生的工作

應用至雜貨店購物經驗於超市購物

4 分析(analyze) 分解整體為許多部份，並決定各部份彼此和整體結構或目的關係 4.1 辨別

(differentiating)

區別

(discriminating) 、

分別

(distinguishing) 、聚焦(focusing)、挑選

(selecting)

自現有材料中區分出相關和不相關或重要和不重要的部份

分辨直角三角形和正三角形的不同

4.2 組織 (organizing)

尋找(finding)、連結(coherence)、概述(outlining)、剖析 (parsing)、結構化

確定要素在結構中的適合性和功能

整理有關屈原的傳說，說明屈原的為人

(28)

(structuring) 4.3 歸因

(attributing)

解構

(deconstructing)

確定現有材料中隱含的觀點、偏見、價值觀或意圖

說明司驗遷寫作史記的用意 5.評鑑

(evaluate)

根據規範和標準下判斷

5.1 檢查 (checking)

協調

(coordinating)、檢視 (detecting) 、監視(monitoring)、施測(testing)

檢視某程序或產品中的不一致性或錯誤，確定某程序或產品的內部一致性，察覺正實行程序的效能

檢查重力加速度實驗結果和該定律的一致性

5.2 評論 (critiquing)

判斷(judging) 檢視產品和外部規範的不一致性，確定產品是否有外部一致性，察覺解決問題的方式適切性

評論大禹和鯀的治水方法

6.創造(create) 集合要素以組成一個具協調性或功能性的整體，重組要素為一個新的模型或結構 6.1 通則化

(generating)

提出假設 (hypothesizing)

根據許多規準，建立假設

綜合養殖小雞的紀錄，提出小雞的生長歷程看法 6.2 規劃

(planning)

設計(designing) 建立一個操作程序以完成某些工作

撰寫一個觀察蝴蝶生態的計畫 6.3 製作

(producing)

建立(constructing) 發明新產品創作歌曲和樂曲註：引用自葉連祺、林淑萍(2003) 因此本研究透過產生出涵蓋各種知識層次及認知層次之試題來確保產生的試卷擁有適當的深度及廣度，後續再經過學生的測驗結果來對產生之試卷試題層次比例加以分析。

過去的研究指出，要建立與維護測驗試題題庫是一項曠日費時的工作，同樣地，教師為了編製一份高品質的試卷所花費的時間與心力也非常多，因此本研究結合上述優良試卷的四項衡量指標，諸如適當的難度、良好的鑑別度以及最廣泛的試題層次，希望透過自動化的試卷選題策略來達成產生高品質試卷這項目標。

(29)

2.5 電腦電腦電腦策略電腦策略策略選題策略選題選題選題

因應測驗型態的改變與教師對試題題庫與測驗試卷編製需求的與日俱增，利用電腦輔助出題已成為一個很重要的趨勢，傳統上電腦對於編製測驗試卷的方式多數還只是透過題庫隨機選題來達成，如此是否能夠全盤考量到試卷是不是具有合適的難度？能夠有良好的鑑別度來鑑別高分群與低分群學生學習的差異？以及是否涵蓋各種認知層次方面的試題？這些問題都值得審慎的研究與評估。

2.5.1 策略策略策略策略選題選題選題選題的演進的演進的演進的演進

隨著電腦科技的革新與網際網路技術的進步，測驗的方式已經由傳統的紙筆測驗逐漸發展成為電腦線上測驗。傳統的紙筆測驗，其出題方式是透過教師根據自己的教學經驗來設計測驗試題，除了必須花費許多時間與精神之外，考量到維持良好的測驗試卷品質與測驗完的閱卷作業都將成為教師的額外負擔，為了輔助教師兼顧良好的教學品質，

又能夠以客觀的角度來評量學生的學習狀況，以電腦設備與網際網路為主體之線上測驗平台應運而生。當教師面對許多教學章節時，往往需要大量且不太類似的試題來測驗學生的學習成效，尤其當教師在好幾個班級教授同一門課時，試題數量與試卷品質便成為一項很重要的考量指標，透過資料庫與網路技術的發展，試題題庫也成為教師編製測驗試卷的一項利器。

而題庫具有以下改進測驗品質的三項優點，其對測驗試卷編製的影響也將愈來愈重要，且能夠節省編製測驗試卷的時間和金錢(何榮桂，2005；Hambleton & Swaminathan, 1985)：

(1) 可使測驗試卷編製者(學校教師或測驗機構的專家)隨心所欲地編製可符合各類教學目標的測驗試卷。

(2) 可使測驗編製者針對題庫的範圍，並搭配所要測驗的教學目標，來選取適當的試題與適切的比例分配來編製測驗試卷。

(3) 若題庫中的試題能夠經過縝密的設計與反覆的篩選更新，則測驗品質通常會比命題者個別編製測驗品質來得高。

教師透過題庫的輔助來編製測驗試卷大大節省時間與精神的花費，具有相當的便利性，但目前大多數試卷採用的命題方法還是透過題庫中隨機選題來編製，因此可能造成試卷整體難度不一、無法真正衡量所有認知層次的問題，最嚴重的是試卷鑑別度過低，

無法有效的區分與評量學習者程度。一個真正好的測驗編製，在題庫分享上應該讓教學

(30)

者容易使用，而在選題方式上，不論試卷難度、鑑別度或衡量層次上均應符合教學者的需求。

為了解決上述的問題，提出有效的試卷選題策略成為後續重要的研究趨勢，

相關的研究成果陸續被發表。

2.5.2 電腦策略電腦策略電腦策略電腦策略選題選題選題選題的發展的發展的發展的發展

根據文獻指出，一份具有良好品質的試卷需要滿足一些條件，例如整體試卷之平均難度要適中，整體試卷之平均鑑別度要有一定的鑑別力，試卷試題需要綜觀涵蓋所要評量的認知層次與目標，Hwang (2003)指出除了試題難度、試題鑑別度之外，一份具有品質的試卷還包含了諸如試卷平均難度、平均鑑別度、測驗的時間長短、試卷試題的數量、

試卷中試題概念的比重分配等。Hwang(2005)也曾運用基因演算法結合動態規劃來建立一個多目標的選題機制，並分析此演算法運用在電腦策略選題上的效果評估，透過此演算法之試題配置將可滿足許多需求參數，如試題的難度、鑑別度、各教學單元概念間的均衡和測驗的時間等，來求出試題配置的近似最佳解，期望能在較短的時間內，精確且有效率的達到近似最佳化的試題配置結果，使得挑選出來之試題能夠有效的鑑別學生程度，以評量學生的學習及教師的教學目標是否達到預期。

謝財明、張淑慧等(2002)提出策略選題演算法之研究，主要目的在於比較所提出的模擬退火法與隨機法選題策略的成效，模擬退火法(Simulated Annealing)是一個解決最佳化組合問題所發展並且被廣泛運用的演算法，而其研究運用模擬退火法所提出之策略選題方式能適用在不同的測驗目標，能讓施測者根據測驗時間的長短來選定適當的題數，

且可以針對所選定的試題調整答案分布狀況，由其實驗結果發現，當題庫數量龐大時，

模擬退火法所算出的標準誤比隨機選題策略佳。

賀嘉生、張育瑋(2003)提出以知識地圖為基礎發展的遠距測驗選題策略，是利用概念階層為主的概念式選題策略，同時並使用隱含概念矩陣與雙向式累進標的概念向量來計算所選試題組合之內容效度，最後利用基因演算法來完成選題策略中試題組合最佳化的問題。

郭煌政、黃仁鵬(1999)提出電腦輔助測驗動態命題之試題間相關性分析研究，主要研究是在探討試題之間的相依現象，例如題庫中的一試題可能成為另一試題作答之參考，則在編製的試卷中必須避面這類試題同時出現，透過分析試題間的相依關係，計算一試題之答對百分比是否會因為另一試題出現在同一份試卷中而提高，例如某一學生如

(31)

果答對試題A，則試題B也有很高的機率被答對；而試題A若答錯，很可能試題B也會答錯，這類試題也必須避免出現在同一份試卷上。

根據以上策略選題的演進與電腦策略選題演算法的發展，可以發現傳統上由題庫中隨機出題所產生的測驗試卷並不一定能夠具有適當的難度、良好的鑑別度與廣泛的認知評量層次，因此利用電腦策略選題來編製高品質試卷，已經成為決定測驗結果準確與否一項重要的影響因子。

(32)

第三章第三章第三章

第三章研究研究研究方法研究方法方法與設計方法與設計與設計與設計

在測驗命題領域中，教師期望能選出具備適當的難度與鑑別度，以及能涵蓋評量多種不同認知層次的試題組合。本研究基於此觀點，結合資訊技術及試題理論，在線上測驗系統中依據這個試卷選題策略進行實作，最後再針對試卷選題結果，進行試卷品質的適應函數分析。本章共分為三個部份，分別為題庫建立、電腦策略選題演算法與系統評估實驗設計：

3.1 題庫建立題庫建立題庫建立題庫建立

研究初期，本研究先於線上測驗系統中建立了「企業資源規劃：配銷模組」課程 1 至 8 章試題共計 155 題，每一試題均依據內容，設定其所屬之布魯姆認知分類向度資料，

之後實際測試階段將讓學習者登入至本系統進行測驗評量。為了計算試題鑑別度，本研究實際測試階段針對每位學生的測驗成績進行標準分數轉換，以進行高低分群的排序。

由於在建立題庫難度、鑑別度等資料時需要依照課程進度安排之隨堂測驗來做實際的數據建檔作業，因此採用每位學生都測驗不相同的隨機考卷，所以每位同學的試卷整體難度並不相同，因此本研究將利用以下公式 NS=OS*(1.65-ED)來進行標準分數轉換，以利產生成績排序及確認高低分群組。公式中的 OS 為學生測驗後的原始成績，ED 為該學生所填寫試卷的試卷平均難度，NS 為經過轉換調整後的標準成績。若計算後的 NS>100，則 NS=100。當成績轉換後，進一步對各試題進行試題難度與鑑別度分析，再將這些數據結果儲存於資料庫中，以作為期中與期末正式測驗時所要產生統一試卷的分析資料，本研究試圖利用試題難度與鑑別度、試題所屬之布魯姆分類之分析，由系統自動選取出最佳試題組合的期中考，難度以及鑑別度計算方式如下所述：

(1) 試題難度：依受試者答對的百分比來表示，答對的百分比越高則表示題目越容易，

通常試卷平均難度接近0.5為佳，其公式為(余民寧，1997)：

N

DP = R (2)

其中，DP代表試題難度； N為全部受試者人數；R為該題答對之人數。

(2) 試題鑑別度：Kelly(1939)指出當測驗分數為常態分配時，以 27%作為高低分群的分組可讓試題具有可靠的鑑別力，當低於 27%之結果的可靠性較低，所以對教師而言，合理的分組百分比為 27%~33%之間。因此本研究在依據學生測驗總分排序後，

設定高分組及低分組之分組門檻為 33%，各試題之鑑別度公式(余民寧，1997)為：

(33)

L

H

P

DI = −

(3) 其中，

P

_H為高分組答對人數百分比；

P

_L為低分組答對人數百分比；DI 為鑑別度。

3.2 電腦策略選題演算法電腦策略選題演算法電腦策略選題演算法電腦策略選題演算法

透過大量試題題庫中，選取符合出題方向與條件之試題來編製高品質的試卷，其試題選題計算是屬於NP-hard的問題(Linderoth & Savelsbergh, 1999)，其時間複雜度是隨著題庫試題的數量多寡與候選測驗試題的數量而呈指數成長，如果候選測驗試題的數量與題庫試題數量多時，必須花費很長的運算時間來執行，為了解決這個問題，本研究提出了一個以基因演算法為基礎之選題策略演算法，希望能求出近似最佳解。

步驟一步驟一步驟一

步驟一、、、產生初始族群、產生初始族群產生初始族群產生初始族群(編碼編碼編碼編碼)

染色體設計採二進位編碼，1 代表該題將選取於試卷上，0 代表該題將不被選取於試卷上。假設題庫中包含本次測驗範圍的試題共 10 題，並以 C1~C10表示，若要產生僅包含 4 個試題的試卷，則其中一種試卷組合的染色體如圖 3.1 所示：

圖 3.1 染色體設計

步驟步驟步驟

步驟二二二、二、、染色體基因解碼與計算適應函數值、染色體基因解碼與計算適應函數值染色體基因解碼與計算適應函數值染色體基因解碼與計算適應函數值

將原先編碼的字串予以解碼，還原成之前所設計之變數，目的在於將問題表達成能夠計算的形式，計算出之值即為適應函數值。適應函數設計是基於測驗品質理論的難度、鑑別度等指標，再搭配布魯姆認知分類之題型比例，以尋找較佳之試題組合。研究中 t 表示為基因演算法目前執行的世代數，本研究在演算代數上的設定為執行 1000 代，

S(t)表示為第 t 世代的母體，S_i(t)是 S(t)中第 i 個試題組合成員，fSs_i(t))是 S_i(t)的適應函數值。試卷品質適應函數 f(S_i(t))之公式如(4)所示：

f(Si(t)) =Wdif*ADif(Si(t))+Wdis*ADis(Si(t))+Wrb*RB(Si(t)) (4) 其中，ADif 代表第 Si(t)個試卷組合的試題難度適切值；ADis 代表第 Si(t)個試卷組合的試題鑑別度適切值；RB 代表第 Si(t)個試卷組合的布魯姆認知分類題型比例適切值；Wdif、 Wdis、Wrb分別是上述三項變數的加權值。

而實務應用時可依據教師對此三項變數的重視程度與偏好來設定加權比例。本研究設計適應函數值參數之公式如下所述，將介紹三項試卷品質衡量指標，包括難度適切值

(34)

ADif、鑑別度適切值 ADis 與布魯姆認知分類題型比例適切值 RB：

(1) 難度適切值ADif：在計算試卷品質適應函數值f(Sⁱ(t))時，需先針對第Si(t)個試卷組合進行試題難度的數值轉換。ADif(Si(t))為第Si(t)個試卷組合的難度適切值，此數值越高表示試卷之整體平均難度越接近所設定之參數，其計算公式如(5)所示：

( )

( ) [ ]

( )

∑

=

−

∗

−

= x

i i x

j

i j j

i

x PD PD

y t S PD C t

S ADif

1

2 1

/ 5 . 0 / )) ( (

1 (5)

其中，x 為此次測驗範圍在題庫中之試題總數，即 S_i(t)的染色體個數；y 為試卷需求之總試題數；PDj(si(t))為 Si(t)中第j個基因對應到題庫中試題的試題難度；PD 為題庫平均難度；C_j =0,1。

(2) 鑑別度適切值 ADis：ADis(si(t))則為第 s_i(t)個試卷組合的鑑別度適切值，此數值越高表示試卷之整體平均鑑別度越好，其計算公式如(6)所示：

( )

[ ] ( )

( )

∑

∑ ∑

=

= =

−

∗

 −







 



 ∗ + −

=

x

i i

x

i i x

j

x

i i i

j j

i

x DI DI

x DI x

DI DI y

t S DI C t

S ADis

1

2

1

1 1

2

/ 2

/ /

/

(6)

其中，x 為此次測驗範圍在題庫中之試題總數，即 S_i(t)的染色體個數；y 為試卷需求之總試題數；DIj(Si(t))為 Si(t)中第j個基因對應到題庫中試題的試題鑑別度； DI 為題庫平均鑑別度；C_j =0,1。

(3) 布魯姆認知分類題型比例適切值RB：由於後設認知知識通常不列入正式課程評量中，而創造層次的試題也不易透過是非、選擇等題型來評量，因此本研究僅針對線上測驗系統能自動評分的基本題型進行試卷選題策略研究。所以本研究僅採用「知識向度」上的事實知識、概念知識、程序知識等三類知識，「認知歷程向度」則採用記憶、了解、應用、分析、評鑑等五個層次。而布魯姆認知分類各題型比例適切值，是以表3.1中15種試題向度分類的試題數量n 佔出題範圍總題數n之比例所計算_qk 出的期望值E 與實際選出該分類試題數之相似比例，期望值_qk E 中的q與k分別表示_qk 為表3.1中知識向度A~C的知識及認知歷程向度1~5的五個層次。

中 華 大 學

中 華 大 學 碩 士 論 文

題目：以布魯姆認知分類與基因演算法為基 礎之試卷選題策略

An Item Selection Strategy Based on Bloom’s Taxonomy and Genetic

Algorithms

系 所 別：資訊管理學系碩士班 學號姓名：M09610023 黃紹軒 指導教授：應鳴雄 博士

中 華 民 國 九十八 年 七 月

以布魯姆認知分類與基因演算法為基礎之試卷 選題策略

中華大學資訊管理學系

摘要 摘要 摘要 摘要

研究生：黃紹軒 指導教授：應鳴雄 教授

An Item Selection Strategy Based on Bloom’s Taxonomy and Genetic Algorithms

Department of Information Management, Chung-Hua University

Abstract

Student：Shao-Hsuan Huang Advisor：Ming-Hsiung Ying

致謝 致謝 致謝 致謝

目錄 目錄 目錄 目錄

圖目錄 圖目錄 圖目錄 圖目錄

表目錄 表目錄 表目錄 表目錄

第一章 第一章 第一章

第一章 緒論 緒論 緒論 緒論

1.1 研究背景與動機 研究背景與動機 研究背景與動機 研究背景與動機

1.2 研究目的 研究目的 研究目的 研究目的

1.3 研究流程 研究流程 研究流程與對象 研究流程 與對象 與對象 與對象

1.4 研究限制 研究限制 研究限制 研究限制

1.5 論文架構 論文架構 論文架構 論文架構

第二章 第二章 第二章

第二章 文獻探討 文獻探討 文獻探討 文獻探討

2.1 電子化學習 電子化學習 電子化學習 電子化學習

2.1.1 電子化學習的定義 電子化學習的定義 電子化學習的定義 電子化學習的定義

2.1.2 電子化學習的 電子化學習的 電子化學習的 電子化學習的發展 發展 發展 發展

2.2 測驗評量理論 測驗評量理論 測驗評量理論 測驗評量理論

2.2.1 古典測驗理論 古典測驗理論 古典測驗理論 古典測驗理論

2.2.2 當代測驗理論 當代測驗理論 當代測驗理論 當代測驗理論

2.2.3 試題分析 試題分析 試題分析 試題分析

2.3 基因演算法 基因演算法 基因演算法 基因演算法

2.3.1 基因演算法的基礎理論 基因演算法的基礎理論 基因演算法的基礎理論 基因演算法的基礎理論

2.3.2 基因演算法的 基因演算法的 基因演算法的 基因演算法的優點 優點 優點 優點

2.4 布魯姆認知分類 布魯姆認知分類 布魯姆認知分類 布魯姆認知分類

2.4.1 知識向度 知識向度 知識向度 知識向度

2.4.2 認知歷程向度 認知歷程向度 認知歷程向度 認知歷程向度

2.5 電腦 電腦 電腦策略 電腦 策略 策略選題 策略 選題 選題 選題

2.5.1 策略 策略 策略 策略選題 選題 選題 選題的演進 的演進 的演進 的演進

2.5.2 電腦策略 電腦策略 電腦策略 電腦策略選題 選題 選題 選題的發展 的發展 的發展 的發展

第三章 第三章 第三章

第三章 研究 研究 研究方法 研究 方法 方法與設計 方法 與設計 與設計 與設計

3.1 題庫建立 題庫建立 題庫建立 題庫建立

P

P