以多向度試題反應理論為基礎組卷方法之探究

全文

(1)國立臺中教育大學教育測驗統計研究所碩士論文. 指導教授：郭伯臣. 博士. 以多向度試題反應理論為基礎組卷方法之探究. 研究生：陳弘旻. 中. 華. 民. 國. 一. 百. 零. 撰. 三. 年. 一. 月.

(2)

(3) 謝辭在研究所的時光漸漸接近尾聲，經過研究所這段時間的洗禮，讓我在面對事情的處理上更加細心及謹慎，從開始的學習，而進入學術研究與撰寫程式，直到最後的論文，這段時間的磨練很難相信我真的把它完成了，如今的我即將畢業且帶著收穫滿滿的喜悅，這一切都要感謝週遭老師與同學的幫助與照顧。本篇論文能夠完成，首先特別感謝我的指導老師郭伯臣教授，承蒙老師的指導與教誨，不論是論文或專業上的觀念的啟迪、專業知識上的傳授，都給我莫大的幫助，而且在論文經驗與寫作上的細節，嚴謹而務實。同時也感謝口試委員吳慧珉老師，指導我的論文，給予我很多的建議與疏漏處之指正，使論文更加完備，在此深致謝忱。在研究修業期間，感謝做學術研究的筱倩學姐、政軒老師，在研究上無怨無悔給予我技術上的傳授和幫助。感謝暄博、育隆、智為、鎧誌、俊彥、宗恩學長在論文與生活上給我協助，還有同窗的好夥伴冊銓、婕婷、德弘、浩瑋、志昇、愷謦、楷蓁、婉寧，一路走來有你們的陪伴，讓我覺得不孤單，大家一起打氣加油彼此關心，最後感謝我的家人包容與支持，讓我完成這篇論文。感謝這段期間，曾經幫助我的所有人，在此祝福大家平安喜樂。.

(4)

(5) 中文摘要本研究探討不同演化式演算法在多向度試題反應理論組卷之結果，其能有效率且準確的符合測驗設計之目標。在組卷中，如何透過建立目標之測驗訊息函數，在題庫中挑選一組符合測驗之試題以達到測驗目標，為測驗評量重要議題，目前的相關研究多主要以單向度試題反應理論為基礎，主要探討不同演化式演算法去降低目標訊息量與測驗訊息量之間的誤差量，讓組出的測驗能更符合測驗目標。由於隨著測驗之目的趨向複雜化與多元化，近年來發展出多向度試題反應理論以更能符合現今測驗架構之需求。因此，本研究提出 Kalyanmoy Deb 基因演算法與粒子群演算法在多向度試題反應理論組卷研究。模擬研究結果顯示，運用 Kalyanmoy Deb 基因演算法與粒子群演算法於組卷問題上，是可行的方法，提出之方法也具備組卷的穩定性；此外，在不同題庫分布下，目標訊息量與測驗訊息量間誤差小，提高其實用性，對於教育評量研究者提供一有效工具。. 關鍵詞：多向度試題反應理論、基因演算法、粒子群演算法、組卷. I.

(6) Abstract This study investigated the different evolutionary algorithms in multi-dimensional item response theory test assembly of the results, which can efficiently and accurately meet the objectives of the test design. In the test assembly, how to test information function by creating objectives, in line with the selection of a set of test item in the item bank in order to achieve the objectives for the test evaluation important issues, current research mainly in the way of the unidimensional item response theory and focuses on the different evolutionary algorithms to reduce the amount of target error messages between the amount of test information, so set out to better meet the test objective test. Since the purpose of the test with the complexity and diversity of the trend in recent years to develop a multidimensional item response theory in order to better meet the needs of today's test framework. This study proposes the theory test assembly studies Kalyanmoy Deb genetic algorithm and particle swarm algorithm in multi-dimensional item response theory. Simulation results show that the use of Kalyanmoy Deb genetic algorithm and particle swarm algorithm for the problem on the test assembly is a feasible approach, proposed method also has the stability of test assembly; addition, the distribution of the different exam, the target volume of messages and small error between the test information to improve its usefulness for educational assessment provides an effective tool for researchers.. Keywords: multidimensional item response theory, genetic algorithm, particle swarm algorithm, test assembly. II.

(7) 目錄中文摘要 .............................................................................................................................. I Abstract ................................................................................................................................ II 目錄 .................................................................................................................................... III 表目錄 ................................................................................................................................. V 圖目錄 ................................................................................................................................VI 第一章緒論 ........................................................................................................................ 1 第一節研究動機 ............................................................................................................. 1 第二節研究目的 ............................................................................................................. 4 第三節待答問題 ............................................................................................................. 4 第四節名詞解釋 ............................................................................................................. 4 第二章文獻探討 ................................................................................................................ 7 第一節試題反應理論 ..................................................................................................... 7 第二節組卷問題之研究 ............................................................................................... 14 第三節基因演算法 ....................................................................................................... 18 第四節粒子群演算法 ................................................................................................... 27 第三章研究方法 .............................................................................................................. 33 第一節研究流程 ........................................................................................................... 33 第二節模擬實驗設計 ................................................................................................... 34 第三節 Kalyanmoy Deb 基因演算法於組卷 ............................................................... 41 第四節粒子群演算法於組卷 ....................................................................................... 45 第五節貪婪演算法於組卷 ........................................................................................... 50 第六節評估指標 ........................................................................................................... 53 第四章研究結果 .............................................................................................................. 55 第一節複本測驗組卷 ................................................................................................... 55 第二節 BIB 設計組卷 ................................................................................................... 61 第三節 Kalyanmoy Deb GA 與 Greedy 方法比較 ....................................................... 66 第五章結論與建議 .......................................................................................................... 69 第一節結論 ................................................................................................................... 69. III.

(8) 第二節建議................................................................................................................... 70 參考文獻 ............................................................................................................................ 71 中文參考文獻................................................................................................................. 71 英文參考文獻................................................................................................................. 72 附錄一、題庫訊息矩陣 .................................................................................................... 79. IV.

(9) 表目錄表 1 單向度目標訊息量 .................................................................................................... 25 表 2 演化式演算法表示方式 ............................................................................................ 33 表 3 目標訊息矩陣在測驗長度 30 題 .............................................................................. 36 表 4 目標訊息矩陣在測驗長度 60 題 .............................................................................. 37 表 5 模擬資料變項 ............................................................................................................ 39 表 6 BIB 設計表................................................................................................................. 40 表 7 實驗設計組合 ............................................................................................................ 41 表 8 基因演算法參數設定(孫光天 1999) ........................................................................ 43 表 9 粒子群演算法參數設定(孫光天，1999；郭信川，2004)) .................................... 47 表 10 組卷方法 GA 與 Greedy 在不同測驗長度下之測驗訊息量 ................................ 66 表 11 組卷方法 Greedy 在不同試卷之試題訊息量 ........................................................ 68 表 12 題庫 A 依試題訊息量大小排列 ............................................................................. 68. V.

(10) 圖目錄圖 1 題間多向度測驗模式 ............................................................................................... 11 圖 2 題內多向度測驗模式 ............................................................................................... 11 圖 3 基因運算流程 ........................................................................................................... 23 圖 4 粒子群演算法流程圖 ............................................................................................... 30 圖 5 研究流程 ................................................................................................................... 34 圖 6 目標訊息量二维圖形 ............................................................................................... 37 圖 7 題庫 A 試題難度直方圖 .......................................................................................... 38 圖 8 題庫 B 試題難度直方圖 .......................................................................................... 38 圖 9 題庫 C 試題難度直方圖 .......................................................................................... 39 圖 10 基因演算法交配率與函數值關係 ......................................................................... 42 圖 11 以 MRCMLM 為基礎之 Kalyanmoy Deb 基因演算法實驗流程圖 .................... 44 圖 12 以 MRCMLM 為基礎之粒子群演算法實驗流程圖 ............................................ 48 圖 13 以 MRCMLM 為基礎之貪婪演算法流程圖 ........................................................ 51 圖 14 複本測驗在相關 0.9 與 30 題下之不同題庫結果 ................................................ 57 圖 15 複本測驗在相關 0.9 與 60 題下之不同題庫結果 ................................................ 58 圖 16 複本測驗在相關 0.5 與 30 題下之不同題庫結果 ................................................ 59 圖 17 複本測驗在相關 0.5 與 60 題下之不同題庫結果 ................................................ 60 圖 18 定錨測驗在相關 0.9 與 30 題下之不同題庫結果 ................................................ 62 圖 19 定錨測驗在相關 0.9 與 60 題下之不同題庫結果 ................................................ 63 圖 20 定錨測驗在相關 0.5 與 30 題下之不同題庫結果 ................................................ 64 圖 21 定錨測驗在相關 0.5 與 60 題下之不同題庫結果 ................................................ 65 圖 22 組卷方法 GA 與 Greedy 在複本測驗組卷之結果 ............................................... 66 圖 23 組卷方法與目標訊息量在不同測驗長度下比較訊息量折線圖 ......................... 67. VI.

(11) 第一章緒論本研究目的是以多向度試題反應理論之多向度隨機係數多項 logit 模式（multidimensional random coefficients multinomial logit model, MRCMLM）為理論架構，透過模擬研究探討在不同實驗情境下使用演化式演算法於組卷之成效。. 第一節研究動機以往組卷研究中，研究者皆以單向度試題反應理論(unidimensional item response theory, UIRT)為主(錢炳全，2002；姜美玲，2003；孫光天，2003；黃國禎，2007)，單向度試題反應理論必須符合重要的基本假設，才能被用來分析測驗資料。其中一重要假設為單向度假設(unidimensionality assumption)，單向度假設是指測驗中的各個試題都測量到同一共同的能力，這種單一能力必須包含在測驗試題裡的假設(余民寧，1999)。然而，測驗上受試者(或考生)很少只受到一種能力或因素的影響，只要測出的結果不只受一種能力所影響，已經違反了理論的基本假設。由於單向度IRT的基本假定無法適用於常見的測驗情境，例如：綜合能力測驗。多向度 IRT 的提出比單向度 IRT 更適配目前測驗的目的及功用 (Mullis, Martin, Ruddock, O`Sullivan, Arora & Erberber, 2005)。為了克服單向度的限制，開始發展多向度IRT模式，如最早Lord和Novick(1968)、Samejima(1974)提倡之，後來又有多位學者針對此理論陸續做研究(Ackerman, 1994；Adams, Wilson & Wang, 1997；Bock, Gibbons, & Muraki, 1988；Embretson, 1997；McDonald, 1989；Reckase, 1997)等。使用多向度IRT做為測驗理論之基礎，勢必為未來發展之趨勢，目前國外許多先進國家之測驗架構，如 PISA(The Programme for International Student Assessment) 和 NAEP(The National Assessment of Educational Progress)，在試題上清楚呈現測量之能力不只一種，須具備有多向度能力的考生才能順利解題。而現今測驗的組卷上，大多以單向度IRT為主，因此本研究使用多向度IRT做為組卷之理論架構。目前組卷設計中，最常用使用訊息量(information funtion)，訂定欲編製的目標訊 1.

(12) 息函數 (target information funtion) ，由題庫挑選試題累加其試題訊息量 (item information funtion)，重複挑選試題直到最接近目標訊息量，由於題庫題數很大，幾乎不太可能使用人工的方式來組卷，通常此組卷方式過程必須依靠電腦運算，才能迅速符合目標訊息量。而在組卷過程，如何應用訊息函數組卷，編製一份符合測驗設計者施測目的之測驗，在於組卷策略的運用(孫光天，1999)。至於如何從題庫中組合出符合設定的試卷為組卷策略為組合最佳化問題 (combinatorial optimization problem)，已經被證明為NP-Hard的問題(van der Linden, 1998)。有效使用組卷策略與選題限制，在組卷上具有極重要之地位，而此問題必須透過大量運算求得最佳解，因此組合最佳化問題必須採用更有效之方法。為了解決這類組合最佳化問題，有許多演算法已被發展出來。著名且常使用的演化式演算法有基因演算法 (Genetic Alogrithms, GA) 、模擬退火法 (Simulated Annealing)、螞蟻演算法(Ant Colony Optimization)、禁忌搜尋法(Tabu Search)與粒子群演算法(Particle Swarm Optimization, PSO)等。Goldberg(1989)提出基因演算法架構，主要是藉由達爾文進化論中的概念，在迭代演化的過程中不間斷的改良染色體，來適應不同的環境，到目前為止基因演算法已經運用到各領域中。在解決最佳化問題上，應用基因演算法中損失函數方式為最普遍方式，因為它的優點簡單、容易操作，缺點在於是否能找到最佳的損失參數(Deb, 2000)。因此學者Kalyanmoy Deb(2000) 提出新的演化技術解決這問題，關鍵在於不需要損失任何參數情況下，運用競爭選擇方式(tournament selection operator)比較，接著在利用歐幾里德距離和突變為持合理解多樣性，使得求得最佳解，Kalyanmoy Deb技術改善簡單基因演算法的缺點，孫光天(2003)運用此法解決最佳化組卷問題且達到不錯的效果。粒子群演算法由Kennedy and Eberhart(1995)提出，其精神在於模仿自然界中，鳥群與魚群總是能有相同移動的方向，此種模仿全域智慧的運用，讓粒子群在迭代的過程中逐漸聚焦找到最佳解。過去學者將粒子群演算法運用在組卷最佳問題上，其結果優於簡單基因演算法達到. 2.

(13) 最佳化目的(Hwang, 2003；葉書桓，2004)。在現階段組卷相關研究，已有多位學者將演算法技術應用於組卷上，且皆得到不錯的效果(孫光天，2003；姜美玲，2003)。其研究設計為，設定目標訊息量，試題可重複下組十次結果的誤差值做平均，但此種組卷模式設定，將試題重複組出多份測驗，在實際應用中無實質上的意義，不完全符合真實情境需求，因此，本研究組卷模式分為兩種，其ㄧ設定複本測驗模式做組卷研究；其二使用定錨測驗BIB設計方式，探討不同測驗長度與不同難度分布之題庫組卷，此兩種研究結果在未來測驗研究上可提供做為參考。綜合以上敘述，使用演算法於組卷上已經有相當不錯的效果，但在相關研究中，目前尚未有研究者將Kalyanmoy Deb基因演算法與粒子群演算法，運用於多向度試題反應理論組卷中，皆使用單向度試題反應理論，因此本研究以多向度試題反應理論為基礎，提出在Kalyanmoy基因演算法與粒子群演算法，比較貪婪演算法與傳統隨機法。Kalyanmoy基因演算法改善簡單基因演算法損失參數的缺點(孫光天，2003)；粒子群演算法迭代的過程中逐漸聚焦找到最佳解優於簡單基因演算法(葉書桓，2004)；貪婪演算法在於每次求解過程中都取其最優的解(孫光天，1999)，本研究以作為比較基因演算法與粒子群演算法之基準，本研究著重此三種方法，探討在不同難度分布題庫及組卷模式之成效。. 3.

(14) 第二節研究目的目前國際上著名的大型測驗之理論架構以多向度為基礎，例：PISA使用多向度試題反應理論之多向度隨機係數多項logit模式。因此本研究使用MRCMLM理論架構，透過不同實驗設計進行組卷之探討。基於研究動機，本研究目的如下：一、探討在MRCMLM架構下，使用演化式演算法進行組卷之結果。二、探討不同題庫難度、不同測驗長度、不同向度相關、不同組卷方法對組卷之影響。. 第三節待答問題依據本研究目的，欲探討之研究問題為以下幾點：一、不同題庫難度對於組卷之影響為何？二、不同測驗長度對於組卷之影響為何？三、不同向度相關對於組卷之影響為何？四、不同組卷方法對於組卷之影響為何？. 第四節名詞解釋壹、多向度試題反應理論試題反應理論透過測驗分數，分別代表其測量涵義與特殊意義。基本概念分為受試者在某ㄧ試題上的表現情形與該能力值間的關係，透過ㄧ連續連續遞增的數學函數來表示，此依曲線通常包含ㄧ個或多個試題參數來描述試題反應模式。多向度試題反應理論，指各個試題所量到的能力不只限於ㄧ種，且多種能力值包含在測驗試題的假設中(余民寧，1997)。在本研究指 MRCMLM 理論。. 貳、演化式演算法. 4.

(15) 演化式演算法為近年發展出的近似演算法(Fred Glover, 1986)，演化式演算法可視為通用的演算法架構，可以針對不同的最佳化問題求得解；因此它是種引導搜尋程序的策略，有效的在搜尋空間中找到最佳解，透過全域搜尋的技巧避開陷入區域最佳解，將演化式演算法於組卷上也可以獲得不錯的效果，執行組卷的時間是在可接受的合理範圍之內，且能找到高品質的近似最佳解。. 參、複本測驗複本測驗通常是指難度、題型、測驗長度、內容方面都必須相似或ㄧ致(相等)，但是試題不同的兩份或多份測驗，以便相同的受試者在不同時間重複測驗，所得的結果一致，且可避免記憶試題或重複練習等影響。本研究複本測驗設計，是指組合出測驗間之測驗訊息量差不多，且試題不重複，設計的題庫為測驗題數的倍數，選入測驗後試題將從題庫中刪除。. 5.

(16) 6.

(17) 第二章文獻探討本章針對「試題反應理論」、「組卷問題之研究」、「基因演算法」及「粒子群演算法」等相關文獻進行探討。. 第一節試題反應理論壹、單向度試題反應理論學者為了克服古典測驗理論的缺失，發展出試題反應理論。試題反應理論的架構，主要以依據強勢假定(strong assumption)而來，其理論假設合理與嚴謹，深受學者青睞取代古典測驗理論。UIRT 介紹如下：. 一、基本假定重要的基本假定(Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; 余民寧，1992; 施淑娟，1997; 許擇基、劉長萱，1992)敘述如下所示：（一）單向度(unidimentionality) 單向度指在測驗中每個試題只測驗到同一種相同能力。例如：數學測驗其試題以英文描述，其受試者必須先了解題意才能解題，因此，測驗不只測數學能力，同時也測驗到英文能力兩個向度能力。（二）局部性獨立(local independence) 局部性獨立指當受試者能力固定不變時，受試者對於任何一題做答好壞，不受其它試題的影響，即試題間彼此獨立。. 二、單向度試題反應理論模式 IRT 是利用試題特徵曲線來描述受試者能力值與試題特性答對某一題的機率。. 7.

(18) 以基本假定成立為前提，二元計分主要分成三種模式：單參數對數模式、二參數對數模式、三參數對數模式，以下分別介紹。（一）單參數對數模式單參對數模式（one-parameter logistic model, 1PLM）由 Rasch（1960）提出，又稱 Rasch model，其模式包含受試者的能力參數與試題的難度參數，如公式（1）所示： Pi ( ) . 1 1  exp( (  bi )). （1）. 其中， Pi ( ) 是表示任一位受試者的能力值在第 i 題的答對機率；  是表示受試者的能力值； bi 為第 i 題試題的難度。（二）二參數對數模式由學者 Birnbaum（1968）提出二參數對數模式（two-parameter logistic model, 2PLM），比 1PLM 多加入試題鑑別度參數，如公式（2）所示： Pi ( ) . 1 1  exp( ai (  bi )). （2）. 其中， Pi ( ) 是表示任一位受試者的能力值在第 i 題的答對機率；  是表示受試者的能力值； bi 為第 i 題試題的難度； a i 為第 i 題試題的鑑別度。（三）三參數對數模式三參數對數模式在 2PLM 多加入試題的猜測度參數(guessing parameter)，此模式由 Lord（1974）提出三參數對數模式（three -parameter logistic model, 3PLM），Lord 指出在試題中放入誘答錯誤選項，使猜對的機率低於隨機亂答而對的機率，因此加入猜測度參數是必要因素，如公式（3）所示： Pi ( )  ci  (1  ci ). 1 1  exp( ai (  bi )). （3）. 其中， Pi ( ) 是表示任一位受試者的能力值在第 i 題的答對機率；  是表示受試者的. 8.

(19) 能力值； bi 為第 i 題試題的難度； a i 為第 i 題試題的鑑別度； ci 為第 i 題試題的猜測度。. 三、單向度 IRT 訊息函數訊息函數在試題反應理論中扮演重要角色，如組卷(test construction)、試題挑選 (item selection)、測量精確度的評估(assessment of precision of measurement)、測驗相對效能比較(comparison of relative efficiency of tests)、計分權重的決定(determination of scoring weights)等問題(余民寧，1997)。以三參數對數模式為例，該模式試題訊息函數（item information function）如公式（4）所示(Birnbaum, 1968; Lord, 1980），在試題反應理論中，用來描述試題或測驗，且常被作為選題或組卷的參考依據，當訊息量越大時，估計值的估計誤差越小，則該受試者所獲得能力估計值越精準。 I i ( ) . ai2 (1  ci ) [ci  exp(ai (  bi ))] [1  exp(ai (  bi ))]2. （4）. 其中， I i ( ) 代表受試者的能力值在第 i 題的試題訊息函數。測驗訊息函數（test information function）定義為個別試題訊息量的加總，如公式（5）所示。若欲增加測驗訊息量可有二種方法，一為在測驗長度不變下，增加每一試題訊息量；二為在試題訊息量不變的情況下，增加測驗長度。 n. IT ( )   I i ( ) i 1. 其中， n 為測驗的長度； IT ( ) 為 n 題 I i ( ) 加總的測驗訊息函數。測驗訊息函數具有幾種特性如下： (一)測驗訊息函數大小受試題品質與數量影響。 (二)每個試題貢獻不受其它試題影響是彼此獨立的。 (三)測驗訊息函數為能力軸上所對應的測驗訊息函數存在。. 9. （5）.

(20) 目前在組卷相關研究中，都是使用單向度試題反應理論。Ackerman, Gierl, & Walker(2003)指出許多教育和心理測驗本身就是多向度的，意味著這些測驗測量二個或更多的向度或構念。在UIRT中，單向度是試題反應理論其中之一的基本假設，單向度假定是指在測中各試題只測量到同一相同種能力，此單一能力須在測驗試題假設中。但實際上許多測驗情境，不單純只有測量單一能力，例如心理測驗、綜合能力測驗。因此有學者提出多向度試題反應理論（Reckase, 1985; van der Linden & Hambleton, 1996），以嘗試解決測驗實際應用上的問題。. 貳、多向度試題反應理論單向度測驗理論已漸漸不符合多向度的試題，學者朝多向度試題反應理論發展。隨者電腦與網路的發達，撰寫可適用該模式電腦程式軟體，使各種多向度 IRT 模式研發更快速，應用實務方面將普及化。其模式敘述如下：. 一、多向度測驗多向度測驗模式主要可以分為兩種（Wang, Wilson & Adams, 1997）。第一種是在測驗裡的試題只測量單一種能力，即單向度試題，但一份測驗中包含許多個單向度的試題集合，每一個集合的試題測量不同的能力，此種為題間多向度測驗（between-item multidimensional test），這類型的測驗如圖 1 所示。題間多向度的測驗每題試題測量單一種能力，而整份測驗通常包含了其它相似能力的單向度試題，分別測量不同的能力，如常見的綜合能力測驗。. 10.

(21) 能力 A. 試題 1. 試題 2. 能力 B. 試題 3. 試題 5. 試題 4. 圖 1 題間多向度測驗模式第二種則是題內多向度測驗（within-item multidimensional test），此測驗模式中的每題試題可能測量到一種以上的能力，即單一試題內就包含多向度，因此試題反應同時由多種向度決定。這類型的測驗如圖 2 所示。例如數學測驗應用題，受試者需使用表徵能力(representation)將問題狀況用數學計算式表示，接著使用計算能力將答案算出，所以單向度 IRT 模式就不適用此測驗裡。. 能力 D. 試題 1. 試題 2. 能力 E. 試題 3. 試題 4. 圖 2 題內多向度測驗模式. 11. 能力 F. 試題 6. 試題 7.

(22) 二、多向度試題反應模式目前常見的多向度 IRT 模式大多是單向度 IRT 模式的衍生模式。例如：多向度二參數模式、多向度三參數模式，還有其他學者提出的多向度隨機係數多項洛基模式，而本研究使用多向度隨機係數多項洛基模式，以下分別介紹。. (一)多向度隨機係數多項洛基模式由 Adams、Wilson and Wang（1997）所提出來的多向度隨機係數多項洛基模式為 Rasch 模式的衍生模式，如公式（6）所示： f ( X ik  1; aik , bik , ξ|θ) . e x pb(ik θ  aik ξ ) Ki.  e x pb(iu θ  aiu ξ). （6）. u 1. 其中， f ( X ik =1; |θ) 是表示受試者在第 i 題為第 k 種的反應類型的發生的機率； X ik 為受試者在第 i 題第 k 種的反應類型，i = 1,…,n，k = 1,…,K；  i 為第 i 題為二元計分下，估計的難度，若第 i 題為 0～2 的部份給分，則估計的難度會有  i1 跟  i 2 兩個難度；若試卷為二元計分，則第 i 題的估計難度為  i ，ξ  1 , 2 ,, n '；θ  1 ,  2 ,, D '， d 為在測驗中，測到的第 d 種能力，d = 1,…,D； a ik 為在第 i 題獲得第 k 種得分的設計矩陣； b ik 為在第 i 題獲得第 k 種得分的得分矩陣。. (二)多向度二參數模式由 Mckinley and Reckase（1983）提出多向度二參數模式（multidimensional two parameters model, M2PL），即為 2PLM 的衍生模式，同時考慮受試者多種能力並將試題的鑑別度定義為向量，如公式（7）所示： Pi (U i  1 | a i , bi , θ) . 1 1  exp[ (ai θ  bi )]. （7）. 其中， U i 為受試者施測第 i 題的反應型態，答對為 1，答錯為 0； a i 為第 i 題試題的. 12.

(23) 鑑別度向量參數； bi 為第 i 題試題的難度參數； θ 為受試者的能力向量。. (三)多向度三參數模式由 Sympson（1978）與 Hattie（1981）所提出的模式相當類似, 都是由 3PLM 的衍生模式，為多向度三參數模式（multidimensional three parameters model, M3PL; Hattie, 1981; Sympson, 1978），同時考慮受試者多種能力並將試題的鑑別度定義為向量，也類似於 M2PL，差別在於是否考慮猜測參數，如公式（8）所示： P (U i  1 | a i , bi , ci , θ)  ci . 1  ci 1  exp[ a i (θ  bi 1)]. （8）. 其中， U i 為受試者施測第 i 題反應型態； θ 為受試者能力向量； a i 為第 i 題試題的鑑別度向量參數； bi 為第 i 題試題的難度參數； c i 為試題的猜測參數。而為了使試題的難度成為向量用以與能力向量相減，故將難度參數 bi 與向量 1 相乘。. 目前國際大型測驗 PISA 針對各學科之次級量尺使用多向度試題反應理論（multidimensional item response theory, MIRT）中之多向度隨機係數多項模式進行估計（OECD, 2005）。因此本研究以MRCMLM 為理論架構，使用演算式演算法進行組卷，探討不同演算法之結果。. 三、多向度訊息函數本研究使用費雪矩陣訊息函數進行組卷。由 Segall（1996）將概似函數取對數的二階偏微透過公式(9)，以費雪訊息函數取代。 I(θ)=-E[H( j )]. （9）. 其中 I(θ) 是費雪訊息矩陣，用來計算所有題庫的試題，矩陣中第 k 列第 l 行元素可表示為如公式(10)：. 13.

(24)   2 ln f ( | u )  K  Ikl ( )=-E      bik bik fik ( )  Ei ( ) Ei ( )    k l  in  k 0. （10）. 上式為受試者能力值  在組卷後，測驗 n 個試題的費雪矩陣。而試題所獲得第 i 題訊息量，表示為 I(θ, ui ) 如公式(11)所示： K. I(θ, ui )   bik bik fik ( )  Ei ( ) Ei ( ). （11）. k 0. 在本研究使用費雪矩陣訊息函數組卷，依能力向度求得題庫中所有試題之訊息量，求得訊息量之後，再經由演化式演算法進行組卷。. 第二節組卷問題之研究在單向度 IRT 為理論基礎的測驗中，如何從既有的題故中挑選試題，組合一份符合組卷者目標之新試卷，是試題反應理論應用重點之一。. 壹、IRT 組卷流程探究 Lord(1977)提出利用訊息函數特性作為組卷之依據，其程序如下敘述： (一)設定欲編製測驗函數曲線，其曲線為目標訊息函數。 (二)先由題庫選出一組試題，將試題訊息量總起來的和，能滿足該目標訊息函數最難填滿的部分 (通常指的是目標訊息量突起的部分) 。 (三)接著再加入每一道新試題，之後計算該測驗中試題訊息函數總量。 (四)重複以上組卷步驟，直到測驗訊息接近目標訊息函數為止，或兩者間誤差小至可接受的範圍內。由上述敘述之步驟，在龐大的題庫中挑選滿足目標之訊息量，透過人工挑題非常費時又費人力，而且組卷後目標訊息量與測驗訊息量間誤差大且不如理想。而現今可以依賴電腦組卷，能省時省力達成，在組卷研究上已成為一重要議題。. 14.

(25) 貳、傳統組卷方法由以上選擇程序可知，如何組出滿足目標訊息量之試題，運用組卷方法為重要的問題。以下介紹五種傳統方法於組卷(Hambleton & Swaminathan, 1985)： (一)隨機選取法(random) 運用亂數表任意從題庫中選取測驗所需的試題數。 (二)標準法(standard) 應用傳統試題統計法來組卷。首先，選出難度為 0.30 到 0.70 的試題，接著再從中選出鑑別度最大，直到滿足所需試題。 (三)中間難度法(middle difficulty) 在題庫中選出在能力值(   0 )時，具有最大訊訊息量之測驗所需試題數。 (四)上下法(up and down) 重覆以下敘述之三步驟，試題不重複，直到滿足測驗所需試題數為止。步驟一、在題庫中挑選能力值   1 時，最大訊息量的一題。步驟二、在題庫中挑選能力值   0 時，最大訊息量的一題。步驟三、在題庫中挑選能力值   1 時，最大訊息量的一題。 (五)最大訊息法(maximum information) 由題庫中選出在能力值  =-1 、0 和 1 訊息量總和最大之試題，選出測驗所需之試題數。. 参、應用演算法於組卷研究結果顯示傳統方法，組卷方式過於簡單缺乏彈性，導致組出的測驗訊息量與目標訊息量間誤差偏高(Cool & Hambleton, 1978)。自 1999 年開始許多專家學者紛紛提出有效且正確的方式，改善這種情形，以下介紹幾種方式：. 15.

(26) (一) 線性規劃(Linear Programming) 首先試題化為決策變數，選題方法化為二元線性規劃 (binary linear programming)，再運用線性規劃的解題演算法來解題(van der Linden, 1998)。巫眇鴦(2002)將線性規劃組卷技術應用於有限制條件之組卷問題上。然而在找整數解方面尚還需藉助其它啟發式方法，才能省下大量的時間運算，所以找出來的不一定是最佳解。其組卷的建構方式如下述：步驟一、依問題的特性定義決策變數將各試題視為決策變數，以 x j 來表示題庫中試題第 j 題選入情形， x j  1 表示選為試題； x j  0 即不選入。步驟二、組卷問題限制條件線性規劃以目標訊息量為限制，期望測驗訊息量能接近目標訊息量。以 I j ( ) 表示第 j 題受試者能力值為  時的訊息量，以 I t ( ) 表示欲達到的目標訊息量，以 y( ) 表示能力值為  時測驗訊息量與目標訊息量間之誤差。假設題庫題數 n 題，則訊息量限制條件為以下公式(12)： n.  ( I ( )x  I ( ))  y( ) i 1. i. i. t. （12）. 組卷問題為 0-1 整數規劃問題，因此將問題轉換成線性規劃鬆弛問題，即 x j 限制在 0 到 1 之間。若希望構成測驗長度為 m 題，則可再加入限制式。步驟三、建立目標訊息函數將其最小化欲將目標訊息量與測驗訊息量間的誤差愈小愈好，所以設目標訊函數如公式(13)： minimize. y( ). （13）. (二) 貪婪演算法(Greedy Approach) 計算加入每一試題後測驗訊息和目標訊息間的誤差，加入後其誤差值較小. 16.

(27) 的試題放入測驗中，重覆此動作直到試題滿足測驗限制題數或無法減少誤差為止(孫光天、陳岳宏、賴膺守、謝凱隆、陳新豐，1999)。貪婪演算法在每次選題時，從題庫中選取加入測驗後誤差最小之試題，換言之，其特性在於取其最優之試題，因此本研究使用此方法做比較之基準。. (三) 類神經網路選題策略(Neural Network) 藉由人工智慧中的類神經網路作為輸入樣本，改變鍵值逐步解決組卷最佳化問題。其組卷結果的測驗訊息量與目標訊息量間的誤差，遠低於傳統方法五種方法(Sun & Chen, 1999; 孫光天、陳新豐、謝凱隆、蔡志煌，1999)。. (四) 多區間動態規劃法(Multidivision Dynamic Programming) 基本包含兩個程序，首先利用區間切個觀念，將動態規劃切割成許多區間的子動態規劃進行組卷，接著進行測驗題目與題庫題目的替換程序，結果顯示多區間動態規劃能有效改善動態規劃在組卷上誤差值遞增問題(蔡淑燕，2002)。誤差適合度函數如公式(14)所示： s.  (d i 1. i.  Oi ) 2  y ( ). （14）. 其中 i ：能力值； d i ：在能力值 i 愈達到的目標訊息量； Oi ：在能力值 i 測驗訊息量。目的是將目標訊息量與測驗訊息量之誤差愈小愈好，因此將函是如公式(15)所示： minimize. y( ). （15）. 步驟一、以順推法求得區間的組卷組合，依據此組合計算區間測驗訊息量與區間目標訊息量的誤差值。步驟二、將此誤差值累假到下個區間的區間目標訊息量。 17.

(28) 步驟三、更新下個區間之目標訊息量。步驟四、重複步驟一～三，直到最後一區間為止。步驟五、計算最後區間之測驗訊息量與目標訊息量的誤差值。. (五) 進階基因演算法運用簡單基因演算法結合 Kalyanmoy Deb 技術，改良演化過程中所使用的參數及目標函數，針對大量限制下解決組卷問題的可行性，找出最佳解，使其試卷符合設計者需求(孫光天、程千芬，2003)。過去使用的基因演算法屬於損失函數方法， Kalyanmoy 提出ㄧ個不需要損失參數的損失函數方法(penalty function)，改善缺點達到效能更好的演算法。. 組卷從最早孫光天在 1999 年提出使用基因演算法於組卷，後續許多專家使用相同研究架構應用不同組卷方式，其研究設計皆以基因演算法(Sun, 2000；孫光天，1999) 做為比較基準提出不同演算法。目前已有相當多學者進行選題組卷相關研究，也因隨著學者的投入，演化式演算法技術不斷提升，有助於組卷相關研究。因此本研究在 MRCMLM 理論架構下，主要運用 Kalyanmoy Deb 基因演算法、粒子群演算法做組卷探討。. 第三節基因演算法本節首先介紹基因演算法流程、設定與運作方式，後半段接著說明本研究所使用 Kalyanmoy Deb 基因演算法的損失參數方法與優點。. 壹、基因演算法流程基因演算法主要內涵，選擇物種中對於適應力較強的母代，利用隨機相互交換. 18.

(29) 的方式，期許產生比上一代更強的子代，經過篩選後而留下最強的物種，去適應環境或持續進行交配、繁衍和篩選。其基本運算過程如下所示(Ribeiro Filho & Treleaven, 1994)：. 一、設定一連串的基因(genes)或染色體(chromosome)用來表示問題可能解，假設每一基因可以用字串、數字或符號等代表，並且在初始化設定染色體的選擇方式，還有基因的交配與突變方式、交配率、突變率等。二、首先建構隨機一組初始族群(population)做為問題的解。三、計算每一染色體的適合度(fitness)是否符合條件。四、經由基因運算複製(reproduction)、交配(crossover)、突變(mutation)等，以適合度優劣篩選產生更佳適合度的下一代族群，重複此種「演化」過程，直至符合終止條件為止。. 貳、基因演算法設定基因演算法最重要的兩個元素就是基因(genes)及染色體(chromosome)，因此在解決問題時，首先會將問題編製成一串基因或染色體，初始設定如下：一、評估染色體適合度函數(fitness function) 適合度函數評估可能解的優劣程度，適合度大小需在一定範圍內，基因會較高機率選擇適合度大的最為下一代。二、設定染色體選擇方式(selection options) 從產生的染色體中挑選基因，並進行基因運算以產生新的下一代，選擇方式將影響最佳解的優劣，以下介紹幾種方式：. (一)剩餘選擇(remainder). 19.

(30) 將染色體經適合度函數運算後，單獨取整數部分，然後剩餘的小數部分採用輪盤選擇。如：適合度為2.3，取下整數部分登記為2，接著依據小數部分自動選擇染色體。 (二)均勻選擇(uniform) 根據期望值與染色體數量選擇染色體，此種方式通常使用在除錯或測試上，並不是有效的方式。 (三)輪盤式選擇法(roulette wheel selection) 每一個染色體經過適合度計算後，先將所有染色體的適合度全部加總，做為輪盤的總面積大小，各染色體在輪盤中所占面積大小為全部總面積之分量，因此適合度愈高被選取機率愈高。 (四)競賽選擇法(tournament selection) 根據優劣的觀念通常會選擇較優秀的染色體，以致於彼此之間的變異性變低，而後很快收斂無法求得最佳解。先隨機選取兩個染色體，再選取兩個之中最佳的個體做為染色體，選取個體數目通常設為4。. 参、基因演算法基本運作將問題可能的解編碼成一串染色體，再設定適合度及選擇方式，前者將影響可能解的優劣程度，後者決定挑選基因個體的方式。在基因運作方式中，染色體族群利用複製、交配、突變三種方式產生新的子代。說明如下：. 一、初始化所有參數在基因演算法中，染色體皆由基因組成，因此每個試題代表基因，每一份測驗代表染色體(組卷結果)，所有試題編碼為二元字串(bitstring)，用來代表是否選入測驗(0代表為選入，1代表選入測驗)，將題庫每一題目設為0。. 20.

(31) 二、基因複製(reproduction) 無條件從染色體族群中選擇較好的個體直接保留置下一代。三、基因交配(crossover) 依據研究方式不同交配方式也會不同效果，利用交配功能演化出更佳的子代，以下介紹兩種常見方式：. (一)單點交配(one point crossover) 隨機選擇一個位置做交換，假設位置是5其交換後得到新兩個子代即為親代。 A0 ：10100000. 交配後. A1 ：10101100. B0 ：11101100. 交配後. B1 ：11100000. (二)同源交配(homologue crossover) 由Burke所提出的方式(Burke, Grefenstette, De Jong, Wu, & Ramsey, 1998)，先設定一個相似度s，為一個限制條件，將所選取的兩個個體計算其相似的程度，若超過此相似度才可以再進行單點或雙點的交配動作，假設s 定為0.4，單點交配，交配位置為1。 A0 ：10110000. 交配後. A1 ：11010000. B0 ：01010000. 交配後. B1 ：00110000. 三、突變 (mutation) 基因的突變方式是隨機、不可預測的，因此，可能會造成子代變得更強勢，或是也有可能變得更劣，常見的突變如下： (1)單點做突變。 A0 ：0101001. 突變後. (2)增加或減少基因。. 21. A1 ：0101011.

(32) A0 ：01010100. 突變後. A1：01010100111. B0 ：01010100. 突變後. B1 ：0101010. 四、精英集合 (elite Set) 根據基因運算後，前一代最好的適合度保存至下一代，放入elite set的同時也要判別是否有支配到中，假設已在在elite Set則從中剔除，elite count在預設值為2。elite count至少為1，若elite count太大，以致只有淘汰部分基因導致難以有效搜尋。例：假設染色體大小為20、精英集合大小為2及交配率為0.8，其保留到下一大基因如下所示。 (1)保留2個基因至精英集合。 (2)餘18個基因，進行輪盤運算0.8*18=14.4，取14個基因進行交配。 (3)剩餘4個基因進行突變。. 五、染色體選擇方式選擇函數功能是依據適合度函數選擇染色體，主要分為兩步驟： (1)隨機均勻規劃量尺，依據每個染色體適合度整數部分，作正確的分類。 (2)選擇額外的染色體小數部分，作隨機化分的徵選動作。. 肆、基因演算執行流程在基因演算法演化前，首先進行上述說明的初始化動作，接著設定染色體選擇方式與適合度函數，其它包括族群數目大小、複製率、交配率、突變率的代數與終止條件。之後，就可以執行基因演算法搜尋最佳解。流程如下圖3所示：. 22.

(33) 開始隨機產生初代族群. 計算親代適合度. 終止條件. 完成. 運用基因運算產生子代. 圖 3 基因運算流程. 註：引自Ribeiro Filho & Treleaven (1994). 伍、基因演算應用與發展基因演算法不同於過去尋找最短路徑問題，能在空間中找到最接近整體(全域的) 最佳解，適合度的函數計算上也不需要輔助，因此其他許多領域尋找最佳解的問題應用上也有極佳的表現。例如基因演算法與類神經網路之整合型應用、組合最佳化求解問題(combinatorial optimization problem)、基因演算法與財務金融(陳建福， 1995)、最佳化工作路徑。. 陸、基因演算法種類使用基因演算法於最佳化問題，通常運用方法會分成五種類，如下所示. 23.

(34) (Michalewicz & Schoenauer, 1996)：一、維持合理解法(methods based on preserving feasibility of solutions) 二、損失函數法(methods based on penalty functions) 三、傾向合理解法(methods biasing feasible over infeasible solutions) 四、解譯員法(methods based on decoders) 五、混合雜交法(Hybrid methods) 以上實際上最常使用的是損失函數法(methods based on penalty functions)，在執行最佳化問題時，適合度函數定義如公式(16)所示(Deb, 2000)： J. F ( x)  f ( x)   R j ( g j ( x)) 2. （16）. j 1. J. F ( x) 為適合度函數； f ( x) 為目標函數；  R j ( g j ( x )) 是損失函數(違反限制式)； R j 為 2. j 1. 損失參數(常數)，通常為減少損失參數數量。. 柒、單向度組卷轉為最佳化問題與設定ㄧ、單向度組卷最佳化問題孫光天(2003)將組卷問題轉為最佳化問題，其適合度函數與參數定義如下： s. Minimize EI   (di  oi ) 2. （17）. i 1. subject to kq   x j  kq ， q  1,...., p. （18）. iCq. n. oi   wij x j ， x j 0,1. （19）. j 1. i ：代表能力等級， i  1, 2,..., s ； x j ：為表示題庫第 j 題是否被選入測驗中，若選入為1，否則為0， j  1, 2,..., n ；. d i ：為第 i 個能力值的目標訊息矩陣； 24.

(35) oi ：為第 i 個能力值的測驗訊息量；. j ：代表題庫第 j 題， n 為題庫題數， j  1, 2,..., n ； wij ：代表試題在能力等級 i 之測驗訊息量； E I ：為目標訊息函數，目標與測驗訊息量之誤差平方和；. q ：代表限制式編號， p 為限制式總數； k q ：第 q 個限制式的設定值；. 當適合度函數愈小，愈能符合我們所設定的目標訊息量；另外黃國禎教授(1998) 提出以平均分配的概念，將鑑別度參數與難度參數做為選題的依據，平均每一份試卷的參數值，有別於應用訊息量函數。而多數研究者在研究上應用訊息量函數進行組卷，因此本研究將單向度適合度函數進行開發，應用於多向度訊息量之適合度函數組卷，在3-2節做詳細介紹。. 二、單向度目標訊息量設定目標訊息量會依測驗不同其分布將有所差異，分為單峰、雙峰和一致性，可探討組卷方法是否逼近目標訊訊息量。以下表為例，測驗長度40題，以程式亂數產生單峰之目標訊息量5組，能力值範圍為-3至3的實數，研究時每組合執行10次組卷，試題可重複，目標訊息量平均如下表1所示(孫光天，2003)：表 1 單向度目標訊息量能力等級 1. 2. 3. 4. 5. 6. 7. 能力值. -3.0. -2.0. -1.0. 0.. 1.0. 2.0. 3.0. 訊息量範圍. 0.5~2.4. 2~4. 7~9. 9~11. 7~9. 2~4. 0.5~2.4. 5組平均值. 1.912. 3.412. 8.423. 10.252. 8.321. 3.121. 1.859. 25.

(36) 二、題庫設定使用試題也以程式亂數產生1000題做為題庫，題庫試題之屬性為均勻分布，以單向度試題反應理論之三參對數模式為理論架構，能力值介於-3到3之間的實數。三、組卷模式以往研究中，依不同測驗題數與不同目標峰態分布下組卷，使用相同題庫為均勻分布，產生不同測試組合，組卷時試題可重複，各組合執行10次組卷，接著計算平均誤差值。然而此種組卷模式適用於演化技術研究，在實際情境並不實用，因此本研究使用複本測驗與定錨測驗，詳細會在3-2節做敘述。. 捌、使用Kalyanmoy Deb基因演算於最化問題 Kalyanmoy Deb 基因演算法具有以下敘述之特點(Deb, 2000)：ㄧ、不需損失參數的方法二、此方法分類方式使用損失函數法(methods based on penalty functions)與傾向合理解法(methods biasing feasible over infeasible solutions)。三、在競爭式選擇中，比較後保留較佳的解。 (1)當合理解與不合理解比較時，選擇合理解。 (2)當兩個合理解做比較時，選擇目標函數較高的合理解。 (3)當兩個不合理解做比較時，選擇限制式違反較少的不合理解。四、在競爭式選擇(tournament selection)中，當兩個皆為合理解時，利用歐幾里德距離去維持合理解的多樣性。五、Kalyanmoy Deb 基因演算法試圖最小化損失函數，而非適合度函數，計算損失函數定義如下公式(20)所示：  f ( x)  m F ( x)  f ( x )  g j ( x), if g j ( x)  0, j  1, 2,..., m  max  j  1  26. （20）.

(37) f ( x) max 中最差合理解的目標函數值；如果沒有合理解存在則 f ( x)max  0 。當合. 理解時，損失函數為適合度函數值；當非合理解時，損失函數為適合度函數值加上違反限制式值 Deb(2000)。. 第四節粒子群演算法由Eberhart & Kennedy(1995)所提出，粒子群演算法(particle swarm optimization, PSO)又翻譯為粒子群演算法，一個社會心理學與演化式的最佳化演算法，社會心理學為探討人類行為跟社會間的互動關聯，例：溝通能力、互動取向。演算法模擬真實世界中鳥類群體和魚群覓食行為，而後發展出來的一套基於群體的隨機搜尋演算法，通常稱為群集智能(swarm intelligence, SI)。研究結果發現當鳥類或魚群移動時，剛開始每個個體都朝不同方向前進，但透過個體經驗法和群體經驗法產生的演化學習，使得最後個體能保持距離、群體間都能朝同方向前進。許多研究者會試著模擬鳥類的飛行及魚群群體的社會行為，也就產生了PSO的理論基礎，最早的想法為模擬鳥類或魚群，在搜尋空間中，會藉由對於彼此間互動的資訊分享概念，可以讓粒子能互相溝通及交換資訊，更快速有效的搜尋到近似解 (Reynolds, 1987)。PSO為族群概念的全域最佳搜尋演算法，對於研究一個最佳化問題的解，就像是一隻飛行的鳥或魚類的群聚，稱作粒子(particle)，並且具有演化式演算法的適合度評估特性，每個粒子皆由目標函數所對應的適合度函數值，且粒子移動時，往個體本身經驗或當前群體中最佳粒子改變方向與距離 (Kennedy & Eberhart, 2001)。同時粒子獨立搜尋且具有記憶的功能，若個體遇到函數最佳值時，此次最佳值將被記錄在個體記憶中，即是每個粒子本身具有最佳的搜尋變數記憶，並且根據本次最佳搜尋變數記憶去修正下次迭代的搜尋方向，為粒子的認知模式 (cognition-only model)。每次搜尋過程中，這些粒子個體最佳搜尋值與群體中最佳搜尋值會做比較，如果個體最佳搜尋值優於群體最佳搜尋值，則更新群體最佳函數值. 27.

(38) 的變數記憶，同時個體也根據群體最佳變數記憶值來修正下次迭代粒子的搜尋速度，為粒子群的社會模式(social-only model)，經迭代後，PSO根據粒子群中最佳適合度函數計算出問題的最佳解(Eberhart & shi, 1998；Srinivasan, Loo , & Cheu, 2003)。粒子在決定方向時也同時加入了隨機的方式，必面落入區域最佳解。研究學者Shi and Eberhart(2001)針對PSO的發展概況與應用方面做整理，其改良 PSO相關研究中，大致上分為三類探討，慣性權重(inertia weight) 、壓縮因子 (constriction factors)、軌跡動態系統(tracking dynamic system)，相關研究偏重於探討慣性權重(Suganthan, 1999；Shi & Eberhart, 1999)。粒子群演算法類似於基因演算法，是ㄧ種進化型的最佳化演算法，皆利用大量的搜尋解方照自然界的生物作搜尋。首先初始化後亂數產生初始解，經由個體最佳搜尋值與群體最佳搜尋值找出最佳解，有別於基因演算法，粒子群演算法沒有交配和突變，整個演化過程隨著目前最佳解的機制(胡曉輝，2002)。. 壹、粒子群演算法模式及步驟首先族群大小設定初始粒子群是以隨機方式產生粒子，經過演化迭代後就可以找到最佳函數解。每此迭代中計算適合度函數值，記錄下每個粒子與全體目前遇過最好的位置解。當滿足條件後，此時粒子群記錄之最好位置就是最後的最佳解。粒子群演算法基本運作流程敘述如下(Shi & Eberhart, 2001)：一、設定族群大小並對每個粒子的位置和速度用亂數作為初值。二、評估目前解的適合度函數值，若此解的適合度函數值比個體記憶中的適合度函數值好，則進行更新。三、搜尋到個體族群中的新解最好位置，若此解的適合度函數值比群體記憶中的解好，則進行更新。四、若滿足終止條件，則結束演算法流程。. 28.

(39) 五、利用公式(21)、公式(22)來更新每個粒子的速度和位置。繼續回到第二步驟執行。公式如下所示： vik 1  wvik  c1  rand  ( pbest  sik )  c2  rand  ( gbest j  sik ). sik 1  sik  vik 1. （21）（22）. 其中 w 為慣性權重變數， c1 和 c 2 為分別代表認知模式係數和社會模式係數，控制不同參數影響程度， rand 為0~1之間的實數變數， vik 為粒子 i 上的速度值， vik 1 更新除了依據本身速度外還參考 pbest (個體最佳位置記憶)和 gbest (群體最佳位置記憶)。在公式(20)中第二部份為粒子的認知模式(cognition-only model)，而第三部份為粒子群的社會模式(social-only model)，每一個粒子在移動過程中都會現在在一定範圍內。六、若滿足終止條件則停止，否則回到第二步驟，終止條件通常是達到全域最佳解或是最大迭代數。. 貳、單向度組卷轉為最佳化問題單向度組卷最佳化問題，大多數研究與最早孫光天(1999)提出的適合度函數雷同，上章節已經闡述過，因此本節不再多做贅述。. 29.

(40) 參、粒子群演算法流程圖開始隨機產生粒子及速度和位置評估各粒子適合度函數選擇適合度函數之最佳個體粒子及最佳群體粒子重新計算粒子速度. 更新各粒子位置. 滿足條件. 結束. 圖4 粒子群演算法流程圖. 註：引自Shi & Eberhart(1999). 30.

(41) Eberhart & Kennedy(1995)所提出的PSO為基本流程架構，一開始產生特定數量的粒子，接下來進行適合度函數值針對每一個粒子做評估，粒子藉由個體最佳經驗值 (pbest)和全部粒子的群體最佳經驗值(gbest)交互演化，在每次演化中能尋找到最好品質的解，每個粒子向最佳經驗值逼近，逐漸找到最佳解。目前組卷相關研究上，已經有研究者將粒子群演算法應用至多目標的平行組卷研究(黃國禎，2007)，但還未應用在多向度的組卷中，因此本研究運用此方法做組卷探討。. 肆、粒子群演算法相關應用粒子群演算法是近十年常被提出應用方法之ㄧ，雖然還未像基因演算法普遍，但只需要用簡單的數學運算、用少量的程式碼就能運用操作，目前有許多實際的應用都已使用這個技術，例如：人類震顫的分析、電壓控制、電池組件充電狀態估測計、工作路徑的最佳化，及成分混合比例最佳化等；旅行銷售員問題，也得到不錯的效果。粒子群演算法也可與其它方式結合答到更好的效能，如模糊控制函數調整 (Esmin, 2002)、解決類神經網路問題(Salerno, 1997)。. 31.

(42) 32.

(43) 第三章研究方法本研究提出Kalyanmoy Deb基因演算法，此演算法能夠快速尋找合理解具有更佳效能之演算技術，為本研究方法重點。接著比較粒子群演算法，PSO為著名的演算法，因此本研究也使用它做組卷，再加入其它組卷方法隨機法與貪婪演算法共四種，在多向度試題反應理論下組卷之成效，方法表示如表2所示。本章共分成四節來介紹整個研究架構。第一節是研究流程、第二節研究設計、第三節Kalyanmoy Deb基因演算法於組卷、第四節粒子群演算法於組卷與第五節貪婪演算法於組卷。表 2 演化式演算法表示方式演化式演算法. 表示方式. Kalyanmoy Deb基因演算法. GA. 粒子群演算法. PSO. 隨機法. Random. 貪婪演算法. Greedy. 第一節研究流程本章節將介紹本研究流程，以下簡單敘述研究流程，研究流程圖如圖5：步驟ㄧ、依據目前在教育測驗上大多使用單向度試題反應理論做組卷，仍未使用多向度做為理論架構，因此，本研究目的以多向度試題反應理論為基礎做組卷探討之研究。步驟二、在研究目的明確後，蒐集以往組卷相關文獻，與多向度試題反應理論應用之文獻，以了解研究發展現況。步驟三、實驗分為兩部份，第一部分實驗情境設定，將測驗長度設為30題與60題，並以多向度MRCMLM架構，模擬不同難度分布之題庫，分別為均勻、常態及偏 33.

(44) 態，設計組卷模式為複本測驗與定錨測驗；第二部分撰寫組卷方法，Kalyanmoy Deb基因演算法、粒子群演算法、貪婪演算法與隨機法，先使用UIRT模式做組卷測試。步驟四、完成以上實驗設計後，將撰寫完成之組卷方法，在MRCMLM架構下進行組卷，接著探討組卷方法，評估組卷結果之成效。步驟五、最後撰寫研究報告與建議。訂定研究目標. 探討及蒐集相關資料文獻. 實驗情境設定 -不同測驗長度 -不同題庫難度 -不同組卷模式 -模擬題庫. 撰寫組卷演算法 -Kalyanmoy Deb 基因演算法 -粒子群演算法 -貪婪演算法 -隨機法 -傳統組卷方法. 評估組卷方法之成效. 撰寫結果與建議圖 5 研究流程. 34.

(45) 第二節模擬實驗設計壹、多向度組卷問題轉為最佳化問題本研究將單向度組卷問題(孫光天，1999)，開發多向度組卷限制最佳化問題，適合度函數如下所示： minimize. EI  Em l2. （23）. l1. subject to EI   (dk k  ok k )2 k2 1 k1 1. 2 1. 2 1. （24）. n. Em  T (  x j  m ) 2. （25）. j 1. n. ok2 k1   wk2 k1 j x j ， x j 0,1. （26）. j 1. l2. l1. T   dk22k1. （27）. k2 1 k1 1. d k2 k1 ：為第 k 2 k1 個能力區塊的目標訊息矩陣； ok2 k1 ：為第 k 2 k1 個能力區塊的測驗訊息量；. k1 ：為第1個能力向度的能力等級， k1  1, 2,...., l1 ，本研究設 l1  5 ；. k 2 ：為第2個能力向度的能力等級， k2  1, 2,...., l2 ，本研究設 l2  5 ； Em ：為加入測驗長度限制之誤差； Ei ：為目標與測驗訊息量之誤差； wk2 k1 ：試題 j 在第 k 2 k1 個能力區塊之試題訊息量； x j ：為表示題庫第 j 題是否被選入測驗中，若選入為1，否則為0， j  1, 2,..., n ；. T ：為加權值； m ：為測驗長度；. 35.

(46) n ：題庫之總測驗長度；. 本研究目標在最小化目標式(23)，當測驗長度達到 m 題時適合度函數達到最小愈接近目標，適合度函數值越高；公式(24)是指在每一能力區塊都會設定一目標訊息矩陣即是期望的訊息函數(以 d k k 表示)，接著從題庫中選出一組試題，也就是經過組卷 2 1. 後產生的訊息量，與目標的訊息量兩者間會有一誤差存在，我們將這誤差定義為 E I ；公式(25)是指測驗長度須符合設定之題數，再乘上加權值，此誤差定義為 Em ，如果未符合題數則 Em 會很大；公式(26)是指所有試題 j 在測驗上分別個能力區塊 k 2 k1 時的總訊息量(以 ok k 表示) ；公式(27)是加權值。 2 1. 貳、模擬變項設計一、目標訊息量設定本研究設計單峰分布為目標訊息矩陣，主要目的是觀察Kalyanmoy Deb基因演算法、粒子群演算法、隨機法及貪婪演算法是否能將測驗訊息量趨近於目標訊息矩陣。目標訊息其產生方式，是以多元常態分布(multivariate normal distribution)隨機產生受試者能力與試題難度，經由MRCMLM之多向度訊息量公式計算出，訊息矩陣數據如表3、表4所示，將表數據以圖形呈現如圖6所示，圖左為30題目標訊息量，圖右為60 題目標訊息量，縱軸為訊息量。表 3 目標訊息矩陣在測驗長度 30 題能力區塊 (l ). 1. 2. 3. 4. 5. 1. 3.781. 4.471. 4.835. 4.675. 4.034. 2. 4.551. 5.240. 5.605. 5.445. 4.804. 3. 5.082. 5.771. 6.136. 5.976. 5.335. 4. 5.113. 5.802. 6.166. 6.007. 5.366. 5. 4.573. 5.262. 5.627. 5.467. 4.826. 36.

(47) 表 4 目標訊息矩陣在測驗長度 60 題能力區塊 (l ). 1. 2. 3. 4. 5. 1. 5.764. 7.492. 9.006. 9.448. 8.616. 2. 7.455. 9.183. 10.697. 11.138. 10.307. 3. 8.909. 10.637. 12.150. 12.592. 11.761. 4. 9.332. 11.060. 12.574. 13.015. 12.184. 5. 8.432. 10.160. 11.674. 12.115. 11.284. 圖 6 目標訊息量二维圖形二、模擬受試者一般測驗中受試者所呈現出來的分數，多是符合常態分布，尤其是大型測驗更能看出此現象(謝友詩、劉湘川、郭伯臣，2006)，因此以多元常態分布產生受試者的能力，能力也是使用兩向度，向度相關同樣是 0.9 與 0.5，將能力等級值範圍設定於 -2 到 2 之間。. 三、模擬題庫依據Segall（1996）提出之多向度訊息函數矩陣，算出每試題訊息矩陣。實驗設計三種不同題庫，以隨機產生標準常態分配之1200題與1400題試題難度參數，分別. 37.

(48) 是 b ~ N (0,1) (題庫A)，試題難度為常態分布，使得在各能力區塊總和盡可能平均； b ~ U (2, 2) (題庫B)為試題為均勻分布，參考孫光天(2003)設計而來； b ~ N (2,1) (題庫. C)為極端試題為主，此題庫試題難度偏高，題庫C設計參考何榮桂(1994)。所有題數試題難度範圍為-3到3之間，不同試題難度為了配合實際情境所模擬。試題難度分布如圖7、圖8與圖9所示，橫軸為難度範圍介於-2到2之間，縱軸為題數。若將各試題 25個能力區塊之訊息量加總後，其試題訊息量大小介於2至4之間。. 圖7 題庫A試題難度直方圖. 圖8 題庫B試題難度直方圖. 38.

(49) 圖 9 題庫 C 試題難度直方圖. 四、模擬資料變項設定本研究使用MRCML模式，透過模擬研究方式探討不同組卷方式在不同情境的成效；考慮實際會遇到的情境，因此將比較測驗長度大小與向度相關大小之組卷成效。其模擬資料變項如表5所述：表 5 模擬資料變項目標訊息量分布. 組卷模式. 目標訊息量. 複本測驗. 單峰分布. 相關向度. 向度數. 計分型態. 題數題庫 1200. 0.9、0.5. 兩向度. 二元計分. 定錨測驗. 1400. (ㄧ)複本測驗本研究設計是組合出測驗間之訊息量差不多之多份測驗且試題不重複，設計的題庫為題數的倍數，所以組卷後會將所有題庫試題組完。 (二) BIB設計本研究設計中，有7個題本(S1~S7)、7個試題區塊(M1~M7)、每個題本有3個試題. 39.

(50) 區塊，BIB設計試題區塊的組合不重複，假設S1題本是由M1、M2、M4組合而成，則其餘題本(S2~S7)不會再出現相同的組合；而題本與試題區塊，使用螺旋式排列可以使試題區塊的測驗次數相同(van der Linden, Veldkamp & Carlson, 2004)。如下表6 所示(曾玉琳、王暄博、郭伯臣、許天維，2006)。表 6 BIB 設計表題本序號. 區塊(k1). 區塊(k2). 區塊(k3). S1. M1. M2. M4. S2. M2. M3. M5. S3. M3. M4. M6. S4. M4. M5. M7. S5. M5. M6. M1. S6. M6. M7. M2. S7. M7. M1. M3. BIB設計將題庫試題分成若干個試題區塊，區塊與區塊間內的試題皆不重複，而受試者只需要測驗若干試題區塊的試題，不同受試者有可能測到部分相同、完全相同或完全不相同的區塊。BIB設計將題庫切割成若干區塊，因此若干區塊中的試題優劣也可能隨機產生的結果。. 四、實驗設計組合本研究使用單峰分布之目標訊息量，在複本測驗與定錨測驗情境下組卷，題庫分別為1200題與1400題，題庫試題難度設為常態、均勻、偏態等分布，試題相關使用高相關0.9與中相關0.5，測驗長度為30題與60題，組卷情境各具有12種組合如表7 所示，每種組卷結果將以折線圖作為呈現。. 40.

(51) 表7實驗設計組合目標訊息量分布. 組卷模式. 相關向度. 題庫分布題庫 A 常態分布. 複本測驗. 0.9、0.5. 題庫 B 均勻分布. 題庫 C 偏態分布目標訊息量單峰分布題庫 A 常態分布. 定錨測驗. 0.9、0.5. 題庫 B 均勻分布. 題庫 C 偏態分布. 測驗長度測驗長度 30 測驗長度 60 測驗長度 30 測驗長度 60 測驗長度 30 測驗長度 60 測驗長度 30 測驗長度 60 測驗長度 30 測驗長度 60 測驗長度 30 測驗長度 60. 第三節 Kalyanmoy Deb 基因演算法於組卷壹、定義染色體一、染色體型態本研究應用基因演算法的概念，將所有試題編碼為二元字串(bitstring)，染色體中每個位元轉換成01形式，用來代表是否選入測驗(0代表為選入，1代表選入測驗)，定義方式如下公式(28)所示：. 41.

(52) xt  ( x1 , x2 , x3 ,...., xn ) t  1.... p xi  0,1 , i  1,..., n. （28）. x t 表染色體第 t 個； p 為染色體的總數； xi 表示第 i 題被選入測驗時為1，否則為0。. 二、染色體型大小隨著染色體的大小愈大，基因愈能在空間內徹底搜尋到最佳解，反之，如果染色體愈小，則基因所找的會是區域最佳解而非全域最佳解，然而愈大的染色體會導致搜尋的速度越慢。依據文獻孫光天(1999)、姜美玲(2003)染色體設為30，因此本研究將染色體設為30。. 貳、Kalyanmoy Deb基因運算設定一、交配率(crossover fraction) 本研究測試交配率，設置不同交配率觀察在何種情況下所產生的函數值是最好的，交配率變化從0到1之間增加量為0.05，如圖10所示測試結果，當交配率為0.4到 0.8之間的函數為最佳，因此本研究交配率設定為0.8。而在本研究指定在精英集合以外的基因進行交配。. 圖 10 基因演算法交配率與函數值關係. 42.

(53) 二、複製(reproduction) 複製為無條件保留基因至下一代，若設定太小或太大將影響收斂效果。因此使用精英集合(elite Set)，直接無條件將最佳染色體生存致下一代中，依據孫光天(1999) 將elite Set設定為2。本研究精英集合大小設定為2。三、突變(mutation) 本研究設計，突變率隨迭代次數增加而減少，在第一次迭代時突變機率為0.5，之後隨迭代次數增加而減少突變機率，直到最後突變機率為0。為了使其快速收斂，在突變中加入測驗長度限制，若選取的試題超過設定題數，則從中隨機剔除至設定題數，若少於設定題數，則隨機挑選至設定題數。. 貳、基因演算法參數設定本研究初始階段設定參考孫光天(1999)如敘述所示，染色體型態設定為二元字串模式代表有、無；染色體大小設為30個，每一個個體代表每一份組卷結果；精英集合大小設為2，保留2個最佳染色體；交配率設為0.8；初始化染色體為30，每份測驗長度為30題；演化次數設為1500次，演化1500後最佳解為組卷結果，如表8所示：表 8 基因演算法參數設定(孫光天 1999) 屬性. 值. 染色體型態. 二元字串. 染色體大小. 30. 突變率. 0.5. 交配率. 0.8. 演化次數. 1500. 43.

(54) 参、以MRCMLM為基礎之Kalyanmoy Deb基因演算法組卷流程. 開始. 設定實驗情境 -模擬題庫及其它設定 -基因演算法初始化. 執行基因演算法於組卷. 評估階段是否滿足終止條件. 結束. 基因運算產生之新子代記錄為此次最佳解結果. 圖 11 以 MRCMLM 為基礎之 Kalyanmoy Deb 基因演算法實驗流程圖. 44.

(55) 本研究參考孫光天(1999)組卷流程，再做適合度函數及終止條件修改，步驟如下所述：步驟一、設定實驗情境 (1)將目標訊息矩陣設為 d k k ，接著以 MRCMLM 模擬題庫，依組卷模式模擬題 2 1. 庫總題數 n =1200 題或 n =1400 題，試卷測驗長度分別為 30、60 題。 (2)基因演算法初始化，設定染色體型態為二元字串 x j ，當 x j  0 表示試題 j 未選入. 測驗中， x j  1 表示試題 j 選入測驗中，染色體長度為 30、染色體數目為 30、演化次數設為 1500。步驟二、執行基因演算法依基因演算法的演化，交配(crossover)、複製(reproduction)、突變(mutation)逐步趨近目標訊息量。步驟三、評估階段計算每個染色體適合度函數，到最佳適合度的解，評估是否滿足終止條件(連續兩次最佳解小於 106 )，若滿足條件，染色體內 x j  1 之試題被選入測驗中為此次組卷結果，否則進入下一步驟。步驟四、記錄本次運算結果未滿足終止條件，則基因運算所產生新的子代，為本次最佳解結果，記錄做為下次終止條件依據，回到步驟三繼續下ㄧ次迭代。結束後，即完成一份測驗組卷，再判斷是否達到組卷模式設定所需之卷數，如未完成則從步驟二繼續執行基因演算法組卷。. 第四節粒子群演算法於組卷壹、定義粒子型態. 45.

(56) 本研究粒子群演算法與基因演算法的概念，將所有試題編碼為二元字串 (bitstring)，粒子中每個位元轉換成01形式，用來代表是否選入測驗(0代表為選入，1 代表選入測驗)。接著初始化粒子的值，粒子的速度也需要初始化，先設定速度最大值，即速度必須在合理的範圍內，不論往上或往下尋找不會超出最大值，如果給定一個常數值所有粒子容易最後即中在同一解上，無法得到很好的效果，因此本研究設計不設速度限制。. 貳、粒子基本設定本研究使用Shi and Eberhart在1988年提出的慣性移位速度更新方式，加入可動態調整權重值的運用。公式(29)與相同如下所示： vik 1  wvik  c1  rand  ( pbest  sik )  c2  rand  ( gbest j  sik ). （29）. w 為慣性權重變數； c1 和 c 2 為模式係數控制不同參數影響程度； rand 為0~1之間的實. 數變數； vik 為粒子 i 上的速度值； pbest 為個體最佳位置記憶； gbest 為群體最佳位置記憶。一、慣性權重變數不同慣性權重對於搜尋成功率有不同效果，用來每次調整粒子移動距離大小，依據文獻(郭信川、張建仁、劉清祥，2004)研究結果顯示，慣性權重為線性分布0.9~0.4 效果表現較好，相較於慣性權重為單一值，權重值達到0.85與0.9時，搜尋成功率為單一值最佳，然而與線性分布0.9~0.4測試結果相比較，即可判定在多極值時慣性權重值為線性分布0.9~0.4效果較好。因此，依參考文獻本研究將 w 介於0.9~0.2之間，比文獻設定更新距離更小，設定如公式(30)所示，其中 Generations 為目前迭代次數。 w  0.9  0.2*(Generations  1) / (Generations  1). 二、 c1 、 c 2 因子設定. 46. （30）.

(57) c1 、 c 2 的範圍為1至3之間，大部分的情況都可以達到完整的搜尋效果。 c1 為各粒子推向區域最佳解之加速常數，系數若是太大時容易困在區域解中，最後只能找到最佳區域解。 c 2 為各粒子推向目前全欲解之加速常數，若是太大時所有粒子容易往全域解移動，得到新解的機會變更小。本研究依據文獻(郭信川、張建仁、劉清祥， 2004)將 c1 設為0.5， c 2 設為1.5。三、測驗長度限制加入測驗長度限制，若選取的試題超過設定題數，則從中隨機剔除至設定題數，再繼續迭代回PSO。. 参、粒子群演算法參數設定本研究初始階段設定參考郭信川(2004)與孫光天(1999)，粒子型態設定為二元字串模式代表有、無；粒子大小設為30個，粒子為1表示此次組卷結果；加速常數為0.5；慣性權重變數為1.5、 c1 設為0.5、 c 2 設為1.5，不同慣性權重與模式係數影響收尋成功率與；演化次數設為1500次，演化後最佳解為組卷結果，如表9所示：表 9 粒子群演算法參數設定(孫光天，1999；郭信川，2004)) 屬性. 值. 粒子型態. 二元字串. 粒子大小. 30. 加速常數. 0.5. 慣性權重變數. 1.5. 模式係數. c1 設為0.5、 c 2 設為1.5. 演化次數. 1500. 47.

(58) 肆、以MRCMLM為基礎之粒子群演算法組卷流程. 開始. 設定實驗情境 -模擬題庫及其它設定 -粒子群演算法初始化. 執行粒子群演算法組卷. 評估階段是否滿足終止條件. 結束. 記錄此次最佳解結果. 圖 12 以 MRCMLM 為基礎之粒子群演算法實驗流程圖. 48.