不同認知診斷適性測驗演算法結合知識結構之成效比較

全文

(1)國立臺中教育大學教育測驗統計研究所理學碩士論文. 指導教授：郭伯臣. 博士. 吳慧珉. 博士. 不同認知診斷適性測驗演算法結合知識結構之成效比較. 研究生：卓淑瑜. 中. 華. 民. 國. 一. 百. 撰. 年. 六. 月.

(2) 謝詞時間飛逝，兩年的碩士生活轉眼間即將邁入尾聲，終於在這時完成了我的碩士論文。首先，我要感謝我的家人，謝謝你們精神上的支持，我才可以順利完成碩士學位；其次我要由衷感謝指導教授郭伯臣老師與吳慧珉老師這兩年的辛勤教導，從決定論文方向到研究方法上的探究，以及最後的撰寫論文，兩位恩師總是能不厭其煩地給予指導，讓我能夠順利完成此篇論文。也要感謝口試委員曾建銘老師與謝名娟老師撥冗閱讀論文，提供寶貴意見，讓此篇論文更加嚴謹、完整。感謝實驗室的學長姐智為、俊華、典佑、暄博、育隆、彥鈞、筱倩、佳樺、辰育、怡伶和慧珊，在學術研究上不厭其煩的解決我的問題，更給予我生活上諸多的建議與照顧；感謝同學們敏嫻、鎧誌、俊彥、子晏、啟全和瓊瑩，這兩年有你們的陪伴的生活，讓我多了一份多采多姿的回憶；感謝學弟妹宗恩、偉民、韋任和芷寧，平時對我的幫助，讓我減輕許多負擔；感謝助教政軒學長給予碩士生活上的鼓勵與幫助，讓我順利度過這兩年；另外，要感謝志勝，謝謝你總是能忍受我的陰晴不定的脾氣，聽我發牢騷，有你的陪伴，分擔我不少壓力。最後，要感謝曾經幫助過我的人，不管你們現在在何方，都祝福你們平安健康。. 卓淑瑜謹誌於國立臺中教育大學教育測驗統計研究所中華民國一百年七月. I.

(3) 中文摘要目前認知診斷適性測驗選題法的研究，由於在測驗初始階段獲得的訊息較少，以致於施測題數少時其診斷辨識率成效不彰。本研究提出結合知識結構之認知診斷適性測驗選題法，在測驗初始階段利用知識結構獲得額外的訊息提升診斷辨識率，藉由模擬研究探討在不同 Q 矩陣的設計下，不同選題法和本研究提出結合知識結構之認知診斷適性測驗選題法診斷辨識率的成效。研究結果顯示：一、受試者的診斷辨識率會隨著 Q 矩陣平均測量屬性數越多表現越低。二、不同 Q 矩陣設計下，Random 法、KL 法、PWKL 法與 HKL 法會隨著 Q 矩陣平均測量屬性數越多，診斷辨識率越低；但 SHE 法的診斷辨識率表現並無太大差異。三、在不同選題法中，診斷辨識率以 PWKL 法與 HKL 法表現最佳，SHE 法次之， KL 法再次之，Random 法表現最差。四、結合知識結構在 PWKL 法與 HKL 法的表現皆比原本選題法來得好。. 關鍵詞：認知診斷模式、適性測驗、知識結構、Q 矩陣. II.

(4) Abstract This study propose a novel cognitive diagnosis computerized adaptive testing algorithm, knowledge structure based item selection strategy, which provides ancillary information by knowledge structure to improve the diagnosis accuracy at the beginning of administrating cognitive diagnosis computerized adaptive test. To investigate the performance of different cognitive diagnosis computerized adaptive testing algorithms with different types of Q matrix, a simulation study is implemented. There are some results as follow: 1. The diagnosis accuracy decreases as the number of attributes measured per item in average increase. 2. With different types of Q matrix, the diagnosis accuracies of random rule, KL, PWKL and HKL decrease as the number of attributes measured per item in average increase. Nevertheless, the diagnosis accuracies of SHE do not affected by using different types of Q matrix. 3. Under different item selection algorithms, PWKL and HKL have the best performance. 4. The performance of knowledge structure based PWKL and HKL are better than PWKL and HKL.. Key words: cognitive diagnosis, adaptive testing, knowledge structure, Q matrix.. III.

(5) 目錄謝詞 ................................................................................................................................. I 中文摘要 ....................................................................................................................... II Abstract ....................................................................................................................... III 目錄 .............................................................................................................................. IV 表目錄 ............................................................................................................................V 圖目錄 .......................................................................................................................... VI 第一章緒論 ...................................................................................................................1 第一節研究動機....................................................................................................1 第二節研究目的....................................................................................................3 第三節名詞釋義....................................................................................................3 第二章文獻探討 ...........................................................................................................4 第一節認知診斷模式............................................................................................4 第二節電腦化認知診斷測驗選題法....................................................................9 第三節以知識結構為基礎之適性測驗..............................................................14 第三章研究方法 .........................................................................................................17 第一節結合知識結構之認知診斷適性測驗演算法..........................................17 第二節研究流程..................................................................................................22 第三節實驗設計..................................................................................................23 第四節評估指標..................................................................................................30 第五節研究工具..................................................................................................31 第四章研究結果 .........................................................................................................33 第一節不同 Q 矩陣的診斷辨識率.....................................................................33 第二節不同選題法的診斷辨識率......................................................................35 第三節結合知識結構選題法的診斷辨識率......................................................41 第四節實徵資料驗證..........................................................................................55 第五章結論與建議 .....................................................................................................61 第一節結論..........................................................................................................61 第二節建議..........................................................................................................62 參考文獻 .......................................................................................................................63 中文部份................................................................................................................63 英文部份................................................................................................................64. IV.

(6) 表目錄表 2-1 整數四則的認知屬性.........................................................................................7 表 2-2 整數四則的選擇題.............................................................................................7 表 2-3 整數四則選擇題例題之 Q 矩陣........................................................................7 表 2-4 受試者的認知屬性狀態.....................................................................................7 表 2-5 試題 j 與試題 k 之聯合邊際機率....................................................................15 表 3-1 固定 p 值下結合知識結構選題法之診斷辨識率...........................................20 表 3-2 不同 Q 矩陣之 p 值設定表..............................................................................20 表 3-3 模擬資料變項與估計方式彙整表...................................................................23 表 3-4 Q 矩陣設計表 ....................................................................................................24 表 3-5 平均屬性精熟人數比率表...............................................................................25 表 3-6 實徵資料概念與試題對照表...........................................................................26 表 3-7 實徵資料 Q 矩陣設計......................................................................................27 表 3-8 實徵資料試題參數表.......................................................................................28 表 3-9 實徵資料選項分析表.......................................................................................29 表 4-1 不同 Q 矩陣設計的平均屬性辨識率..............................................................33 表 4-2 不同 Q 矩陣設計的整體屬性辨識率..............................................................33 表 4-3 結合知識結構選題法的平均屬性辨識率.......................................................55 表 4-4 結合知識結構選題法的整體屬性辨識率.......................................................55. V.

(7) 圖目錄圖 2-1 CAT 流程圖.......................................................................................................10 圖 2-2 試題結構圖.......................................................................................................16 圖 3-1 研究流程圖.......................................................................................................22 圖 4-2 不同選題法在 Q_1.2 的整體屬性辨識率變動圖...........................................36 圖 4-3 不同選題法在 Q_1.8 的平均屬性辨識率變動圖...........................................37 圖 4-4 不同選題法在 Q_1.8 的整體屬性辨識率變動圖...........................................37 圖 4-5 不同選題法在 Q_2.4 的平均屬性辨識率變動圖...........................................38 圖 4-6 不同選題法在 Q_2.4 的整體屬性辨識率變動圖...........................................38 圖 4-7 不同選題法在 Q_3.6 的平均屬性辨識率變動圖（T=12） ..........................39 圖 4-8 不同選題法在 Q_3.6 的整體屬性辨識率變動圖（T=12） ..........................39 圖 4-9 不同選題法在 Q_3.6 的平均屬性辨識率變動圖（T=30） ..........................40 圖 4-10 不同選題法在 Q_3.6 的整體屬性辨識率變動圖（T=30） ........................40 圖 4-11 SHE 法與 SHE_KSAT 法在 Q_1.2 的平均屬性辨識率變動圖....................41 圖 4-12 SHE 法與 SHE_KSAT 法在 Q_1.2 的整體屬性辨識率變動圖....................42 圖 4-13 SHE 法與 SHE_KSAT 法在 Q_1.8 的平均屬性辨識率變動圖....................42 圖 4-14 SHE 法與 SHE_KSAT 法在 Q_1.8 的整體屬性辨識率變動圖....................43 圖 4-15 SHE 法與 SHE_KSAT 法在 Q_2.4 的平均屬性辨識率變動圖....................43 圖 4-16 SHE 法與 SHE_KSAT 法在 Q_2.4 的整體屬性辨識率變動圖....................44 圖 4-17 SHE 法與 SHE_KSAT 法在 Q_3.6 的平均屬性辨識率變動圖....................44 圖 4-18 SHE 法與 SHE_KSAT 法在 Q_3.6 的整體屬性辨識率變動圖....................45 圖 4-19 PWKL 法與 PWKL_KSAT 法在 Q_1.2 的平均屬性辨識率變動圖 ............46 圖 4-20 PWKL 法與 PWKL_KSAT 法在 Q_1.2 的整體屬性辨識率變動圖 ............46 圖 4-21 PWKL 法與 PWKL_KSAT 法在 Q_1.8 的平均屬性辨識率變動圖 ............47. VI.

(8) 圖 4-22 PWKL 法與 PWKL_KSAT 法在 Q_1.8 的整體屬性辨識率變動圖 ............47 圖 4-23 PWKL 法與 PWKL_KSAT 法在 Q_2.4 的平均屬性辨識率變動圖 ............48 圖 4-24 PWKL 法與 PWKL_KSAT 法在 Q_2.4 的整體屬性辨識率變動圖 ............48 圖 4-25 PWKL 法與 PWKL_KSAT 法在 Q_3.6 的平均屬性辨識率變動圖 ............49 圖 4-26 PWKL 法與 PWKL_KSAT 法在 Q_3.6 的整體屬性辨識率變動圖 ............49 圖 4-27 HKL 法與 HKL_KSAT 法在 Q_1.2 的平均屬性辨識率變動圖 ..................50 圖 4-28 HKL 法與 HKL_KSAT 法在 Q_1.2 的整體屬性辨識率變動圖 ..................51 圖 4-29 HKL 法與 HKL_KSAT 法在 Q_1.8 的平均屬性辨識率變動圖 ..................51 圖 4-30 HKL 法與 HKL_KSAT 法在 Q_1.8 的整體屬性辨識率變動圖 ..................52 圖 4-31 HKL 法與 HKL_KSAT 法在 Q_2.4 的平均屬性辨識率變動圖 ..................52 圖 4-32 HKL 法與 HKL_KSAT 法在 Q_2.4 的整體屬性辨識率變動圖 ..................53 圖 4-33 HKL 法與 HKL_KSAT 法在 Q_3.6 的平均屬性辨識率變動圖 ..................53 圖 4-34 HKL 法與 HKL_KSAT 法在 Q_3.6 的整體屬性辨識率變動圖 ..................54 圖 4-35 實徵資料在不同選題法的平均屬性辨識率變動圖.....................................56 圖 4-36 實徵資料在不同選題法的整體屬性辨識率變動圖.....................................57 圖 4-37 SHE 法與 SHE_KSAT 法在實徵資料的平均屬性辨識率變動圖 ...............57 圖 4-38 SHE 法與 SHE_KSAT 法在實徵資料的整體屬性辨識率變動圖 ...............58 圖 4-39 PWKL 法與 PWKL_KSAT 法在實徵資料的平均屬性辨識率變動圖........58 圖 4-40 PWKL 法與 PWKL_KSAT 法在實徵資料的整體屬性辨識率變動圖........59 圖 4-41 HKL 法與 HKL_KSAT 法在實徵資料的平均屬性辨識率變動圖 ..............59 圖 4-42 HKL 法與 HKL_KSAT 法在實徵資料的整體屬性辨識率變動圖 ..............60. VII.

(9) 第一章緒論第一節研究動機近年來，認知診斷模式（cognitive diagnosis models，CDMs）已引起廣泛關注，尤其是自從 No Child Left Behind Act 教育改革法案實施以來，此法案要求美國所有三到八年級的學生每年必須接受各州政府辦理的閱讀和數學評量，目的是使所有的學生在 12 年內，「閱讀」與「數學」達到精熟（proficiency）的程度（陳惠敏，2010）。除此之外，此法案規定提供教師、學生與家長測驗診斷結果，以了解每一位學生在主要學科進步情形等各項資訊，也就是提供學生哪些概念他們已經掌握，以及哪些概念還需要進行補救教學（Cheng, 2009）。而認知診斷就是一種可以提供了這類訊息的模式，認知診斷模式可以透過受試者的作答反應組型，推論出受試者的可能潛在認知狀態。因此，開發認知診斷模式實為重要。由於電腦與網路的蓬勃發展，使得電腦化測驗已逐漸取代傳統的紙筆測驗，過去電腦化適性測驗是以試題反應理論（item response theory，IRT）測量受試者的潛在能力而非技能或概念精熟程度，因此結合認知診斷模式的電腦化適性測驗（cognitive diagnosis computerized adaptive testing，CD-CAT）以診斷受試者的技能或概念精熟程度，是當前重要的研究新議題（Huebner, 2010）。編製認知診斷測驗時，首先就是要確定好欲評量的認知屬性，再將認知屬性組合成試題，每道試題至少必須包含一個認知屬性，此外，在編製過程中，還需考量認知屬性的相似程度與難易程度，並非任意的組合成試題（涂金堂，2003）。試題與認知屬性的關係，可藉由關聯矩陣（incidence matrix），通常以 Q 矩陣表示（Tatsuoka, 1985）顯示出來。因此，施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些認知屬性，進而據此瞭解受試者的學習狀況，進行補救教學（de la torre, 2008）。因此，Q 矩陣在認知診斷測驗設計上具有相當重要地位，例如：Rupp 與 Templin (2008)探究不正確使用或不適合的 Q 矩陣的結果；. 1.

(10) de la Torre (2008)開發在 DINA 模式（deterministic inputs, noisy “and” gate model）下，驗證 Q 矩陣有效性的方法；de la Torre 與 Douglas (2008)使用多重 Q 矩陣來模擬不同的解題策略；王文卿（2010）透過 Q 矩陣設計比較 DINA 與 G-DINA 模式（generalized DINA model）參數估計；陳亭宇（2010）透過 Q 矩陣設計探討 DINA 與 G-DINA 模式參數不變性。然而在認知診斷適性測驗中，目前研究並無探討 Q 矩陣設計對於診斷辨識率之影響。因此，本研究欲探討不同 Q 矩陣的設定，是否會影響認知診斷適性測驗的診斷辨識率。目前，認知診斷適性測驗的主要研究著重在選題法上的探究，如 Xu, Chang 與 Douglas (2003)提出兩種選題法：KL 法（Kullback-Leibler Algorithm）與 SHE 法（Shannon Entropy Algorithm），結果顯示 SHE 法優於 KL 法；Cheng (2009)提出兩種改善 KL 選題法：PWKL 法（Posterior-Weighted KL Algorithm）與 HKL 法（Hybrid KL Algorithm），並與 SHE 法進行比較，結果顯示 PWKL 法與 HKL 法皆優於 SHE 法。然而，這些選題法在測驗初始階段因獲得的訊息較少，以致於診斷辨識率不高。此外，Cheng (2009)的模擬研究中，試題參數皆設定為定值，然而在真實情境下，每道試題的試題參數應為不同，因此本研究欲在初始階段提供其他的訊息來提升診斷辨識率並將試題參數的設定設為不同值，以符合真實情境。另外，本研究為了與 Cheng (2009)的研究進行比較，所使用的認知診斷模式為 DINA 模式。以知識結構為基礎之適性測驗（knowledge structure based adaptive test， KSAT）選題法是依據建構出的知識或試題結構來選題，並利用結構所提供的訊息進行診斷及節省施測題數（吳慧珉，2006；劉育隆、曾筱倩、郭伯臣，2006）。也就是說，當受試者只施測少量試題時，以知識結構為基礎之適性測驗可藉由試題順序結構獲得額外的訊息進行診斷。本研究主要是結合知識結構於認知診斷適性測驗，改善認知診斷適性測驗選題法，藉由模擬研究探討在選題的過程中，將選到的試題加入其知識結構所提供. 2.

(11) 的訊息進行診斷，是否能提升認知診斷適性測驗的診斷辨識率。. 第二節研究目的根據上述動機，本研究擴大比較範圍並探討加入知識結構之選題法其診斷辨識率的成效，研究目的分述如下：一、比較不同 Q 矩陣在認知診斷適性測驗上的診斷辨識率。二、比較不同選題法在認知診斷適性測驗上的診斷辨識率。三、開發結合知識結構之認知診斷適性測驗選題法。四、比較結合知識結構之選題法在認知診斷適性測驗上的診斷辨識率。. 第三節名詞釋義壹、認知屬性在認知診斷模式中，認知屬性表示測驗所測量的概念或技能，通常以二元向量 1 或 0 來表示受試者精熟或非精熟認知屬性，在本研究的實徵資料中，測驗的概念即為認知屬性。. 貳、診斷辨識率診斷辨識率是用來估計受試者的認知屬性狀態是否與模擬樣本資料的認知屬性狀態一致，在這樣的概念之下，診斷辨識率是指判斷的正確性，也就是判斷的百分比愈高，其估計的結果愈準確。. 3.

(12) 第二章文獻探討本研究主要目的為開發結合知識結構之認知診斷適性測驗選題法，並比較不同選題法診斷辨識率的成效。為了達到本研究之目的，本章節將對認知診斷模式、電腦化認知診斷測驗選題法與以知識結構為基礎之適性測驗三個部份進行探討。. 第一節認知診斷模式認知診斷模式可以用來診斷受試者是否具備教育測驗所需的認知概念，不同於試題反應理論只是用一個廣義的潛在特質來代表受試者的能力，認知診斷模式是利用一個潛在向量 α i  ( i1 , i 2 ,..., iK ) 來表示受試者是否精熟每一個認知概念，其中  ik  1 表示第 i 位受試者精熟第 k 個認知概念， ik  0 則表示未精熟第 k 個認知概念。舉例來說，在一個分數減法的測驗中，試題反應理論的測量目標是了解受試者分數減法的能力，然而在認知診斷模式的目標則是測量受試者多種認知概念，例如：基本分數減法運算、化簡、從整數借 1 到分數……等認知歷程（de la Torre & Douglas, 2008）。因此，認知診斷模式可以提供更詳細的訊息協助教學者對學習者進行個別化的補救教學。目前已有許多認知診斷模式被開發且應用，例如規則空間模式（rule space model）（Tatsuoka, 1983）、二元技能模式（binary skills model）（Haertel, 1984; Haertel & Wiley, 1993）、貝式網路推論模式（bayesian inference network model）（Mislevy, Almond, Yan, & Steinberg, 1999）、DINA 模式（deterministic input; noisy “and” gate model）（Haertel, 1989; Junker & Sijtsma, 2001）、NIDA 模式（noisy inputs; deterministic “and” gate model）（Junker & Sijtsma, 2001）、DINO 模式（deterministic. 4.

(13) input; noisy ‘or’ gate model）（Templin & Henson, 2006）、融合模式（fusion model）（Hartz, 2002; Hartz, Roussos, & Stout, 2002）、HO-DINA 模式（higher-order DINA model）（de la Torre & Douglus, 2004），以下僅介紹本研究使用的兩種模式：DINA 模式與 HO-DINA 模式。上述所有的認知診斷模式都需由專家來界定每個試題所測量的認知概念，也就是 Q 矩陣（Tatsuoka, 1985），以 Q 矩陣為基礎進行診斷，在認知診斷模式中佔有不可或缺的重要性。Q 矩陣大小為 J  K ，J 為試題數，K 為屬性數，其中 q jk 代表要解決試題 j，是否需具備認知屬性 k，公式定義如下 1 第 j 題需要第 k 個認知屬性 q jk   0 其他. （1）. 舉例來說，假設 Q 矩陣的設計為一個 3  4 的矩陣，表示如下 0 1 0 0  Q  1 0 1 0 1 0 0 1. 代表第一題需要第 2 個認知屬性，第二題需要第 1 個與第 3 個認知屬性，第三題需要第 1 個與第 4 個認知屬性。. 壹、DINA 模式 DINA 模式是許多認知診斷模式評估方法的基礎，適合用於二元計分的認知診斷測驗。DINA 模式假設受試者答對試題的機率，會受到粗心（slip）及猜測（guess）兩個參數影響，其試題反應函數表示如下 ij. P ( X ij  1 |  , s, g )  (1  s j ) g j K. 其中，ij    ik. q jk. k 1. 5. 1ij. （2）.

(14) s j  P( X ij  0 |  ij  1) g j  P ( X ij  1 |  ij  0). 在上述公式中.  ij ：表示受試者 i 是否完全具備試題 j 所需具備的認知屬性，完全具備其值為 1，反之，缺少一個以上所需認知屬性其值為 0。.  ik ：表示受試者 i 是否具備認知屬性 k，具備該屬性其值為 1，反之為 0。 q jk ：表示解試題 j 是否需要認知屬性 k，需要該屬性其值為 1，反之為 0。 s j：表示受試者完全具備試題所需的認知屬性卻因為粗心而答錯此題的機率。 g j ：表示受試者缺少一個以上試題所需的認知屬性卻因為猜測而答對此題的. 機率。假設受試者間彼此相互獨立且試題間也彼此相互獨立，其概似函數（likelihood function）表示如下 N. J. i 1. j 1. L( , s, g )   P ( i ) (1  P ( i ) X ij. 1 X ij. ). （3）. 以下舉例說明 DINA 模式的計算方法：表 2-1 為整數四則的認知屬性，表 2-2 為測驗學生是否具備整數四則的認知屬性而設計的題目，表 2-3 為整數四則範例題之 Q 矩陣，由表 2-3 可知，解此題目需具備認知屬性 1、2、3、5、6、7。. 6.

(15) 表 2-1 整數四則的認知屬性認知屬性 1 2 3 4 5 6 7. 敘述基本加法運算基本減法運算基本乘法運算基本除法運算先乘除後加減由左往右計算括號內先計算. 表 2-2 整數四則的選擇題計算 3×7－2×(3＋5)＝？  5  20  62  152. 表 2-3 整數四則選擇題例題之 Q 矩陣屬性試題例題 1. K1. K2. K3. K4. K5. K6. K7. 1. 1. 1. 0. 1. 1. 1. 表 2-4 受試者的認知屬性狀態屬性試題受試者 1 受試者 2 受試者 3. K1. K2. K3. K4. K5. K6. K7. 1 1 1. 1 1 1. 1 0 1. 1 1 1. 1 1 1. 1 1 0. 1 1 0. 假設給定試題參數 s1  0.05 、 g1  0.05 ，今有三名受試者，其所具備的認知屬性如表 2-4 所示，可知受試者 1 具備解題所需的六個認知屬性，因此其11  1，受試者 2 與受試者 3 都缺少一個以上的認知屬性，所以其 21   31  0 ，則三位受. 7.

(16) 試者的答對機率分別計算如下： 111. P ( X 11  1 | 1 , s1 , g1 )  (1  s1 ) g1 11. 1 21.  (1  0.05) 0 (0.05)1 0  0.05  0.05. 1 31.  (1  0.05) 0 (0.05)1 0  0.05  0.05. P ( X 21  1 |  2 , s1 , g1 )  (1  s1 ) g1 21. P ( X 31  1 |  3 , s1 , g1 )  (1  s1 ) g1 31.  (1  0.05)1 (0.05)11  1  0.05  0.95. 由此可知，在 DINA 模式下，受試者只要缺少一個以上答題所需的認知屬性，若答對此題，皆屬於猜測的情況發生。綜合以上，DINA 模式是一個簡單且容易解釋的模式，因為它僅涉及粗心及猜測兩個參數，且具有良好的模式適配度，目前已應用在測驗許多方面（de la Torre & Douglas, 2004）。. 貳、HO_DINA 模式 de la Torre 與 Douglus (2004)為了減少 DINA 模式在估計受試者認知屬性計算上的負擔，藉由觀察受試者認知狀態與其能力間的關係，提出 higher-order DINA 模式（HO_DINA），認為受試者認知屬性的分布是在給定高階的潛在特質  i 下，假設元素  i 條件獨立，其精熟屬性的機率公式表示如下 K K  exp[1.71 ( i  0 k )]  P ( i |  i )   P ( ik  1 |  i )     k 1 k 1 1  exp[1.7 1 ( i  0 k )] . （4）. 上式與 IRT 的雙參數對數模式非常相似，不同的是 1 為認知屬性鑑別度參數， 0 k 為認知屬性難度參數。 0 k 愈高表示第 k 個認知屬性愈難精熟（de la Torre & Lee, 2010）。Leighton, Gierl 與 Hunka (2004)也發現在認知屬性上加上階層式的架構是合理的，這樣在估計受試者認知屬性時就可以減少屬性組合數。因此，本研究使用 HO_DINA 模式來產生受試者的認知狀態，減少認知狀態. 8.

(17) 不合理的情況產生，以符合真實情境，並使用 DINA 模式作為估計模式以及模擬產生受試者的作答資料。. 第二節電腦化認知診斷測驗選題法電腦化適性測驗（computerized adaptive testing，CAT）是一種測驗模式能夠更有效和準確的推論受試者一個或多個潛在特質。一般而言，電腦化適性測驗是建立在試題反應理論模式上，其中最常使用的選題法是最大訊息法（Lord, 1980; Thissen & Mislevy, 2000）。然而，當受試者的潛在特質為離散結構，或使用的是無參數試題反應理論模式（nonparametric IRT models）時，最大訊息法已不適用。然而Kullback-Leibler 訊息和Shannon entropy並無此限制，例如：Xu與Douglas（2006）已在試題反應理論模式上建立電腦化適性測驗，以及Xu et al. (2003)、McGlohen和Chang (2008) 與Cheng (2009)也在認知診斷模式上建立電腦化適性測驗。 Xu, et al. (2003)的研究是在Fusion模式中提出兩種選題法：KL法與SHE法，結果顯示SHE法的表現優於KL法，但曝光率部份是KL法比較好。因此，Cheng (2009)提出兩種改善KL選題法：PWKL法與HKL法，並應用於DINA模式中與SHE 法進行比較，結果顯示PWKL法與HKL法皆優於SHE法。然而Cheng (2009)的研究中，題庫的設計是建立在試題參數皆一致的情況，並且只以每道試題有20%機會測量到每個屬性的機制來建立Q矩陣，但真實的情境中每道試題的試題參數應為不同，因此本研究欲探討不同試題參數與不同Q矩陣的情況下，PWKL法與HKL法的表現是否仍優於SHE法。 CAT流程包含試題反應模型、題庫建置、測驗起點、選題策略、能力估計、測驗終止等六個步驟（余民寧，2009），其流程圖如圖2-1. 9.

(18) 測驗理論測驗起點選題策略能力估計. 測驗終止條件. 不成立. 成立測驗結束圖2-1 CAT流程圖. 以下僅針對本研究使用的電腦化認知診斷適性測驗選題法進行介紹。. 壹、基於 Kullback-Leibler 訊息的 KL 法 KL訊息主要是測量兩個機率分布之間的距離（Cover & Thomas, 1991），公式定義如下  f ( x)  D[ f , g ]  E f log g ( x)  . （5）. 在這裡， f (x) 和 g (x) 是兩個機率分布。通常 f (x) 表示為資料的真實分布，或是一個精確的理論分布。g (x ) 表示為一個近似 f (x) 的函數或理論分布。D[ f , g ] 的值愈大，則在統計上表示愈容易區別這兩個機率分布（Henson & Douglas,. 10.

(19) 2005）。目前KL訊息已在使用在試題反應理論的選題上，用以解決測驗初始階段試題參數估計誤差大的問題（Chang & Ying, 1996）。在認知診斷適性測驗中，假設目前已做 n  1 個試題，以 S n1 表示，W為整個題庫，定義 Rn =W\ S n1 ，表示為題庫中剩餘的題目。KL訊息是計算受試者目前估計的潛在認知狀態 ˆ 與其他認知狀態  c ，兩者 U j 分布之間的距離總和，也就是 P (U j  x | ˆ ) 與 P (U j  x |  c ) 之間的KL訊息，計算公式表示如下（Xu et al., 2003） 1  P (U j  x | ˆ )  P (U j  x | ˆ ) KL j (ˆ )    log    P ( U x |  ) c 1 x  0 j c   2K. （6）. 其中， ˆ ：表示受試者做完 n  1 題後所估計出的潛在認知狀態。.  c ：表示所有可能的潛在認知狀態， c  1,2,...,2 K ，K為屬性數。 U j ：表示受試者在第 j 題的作答反應，答對其值為1，反之，其值為0。. 這個總和代表受試者在第 j 題中，潛在認知狀態 ˆ 與其他認知狀態  c 之間的. KL訊息分布。因此，選擇下一題的標準是從 Rn 中挑選第 j 題，其 KL j (ˆ ) 值為最大，表示此題越能鑑別不同的潛在認知狀態。以KL訊息來選題的理論可以參閱. Tatsouka和Ferguson (2003)。. 貳、基於 Shannon Entropy 的 SHE 法 Shannon entropy是一種結合機率分布與不確定性的測量，Shannon entropy的離散機率分布 P 定義如下 n. H ( P )   pi log b pi. （7）. i 1. 其中 P  ( p1 ,p2 ,...,pn ) 且 pi  Pr ob( X  xi ) 。 H (P) 是一個非負的且凹面的函. 11.

(20) 數。當 H ( P)  0 時， P 是最集中的，也就是其中一個 pi  1，其餘的 p j  0 ， j  i ；當 H (P) 為最大時，所有的 pi 幾乎都相同，也就是 pi . 1 ， i  1,2,..., n 。 n. 在認知診斷適性測驗中，假設先驗機率的設定如下 Pr( c )   0 c. （8）. 2K. 其中   0 c  1 ，  0 c  0 ， c  1,2,...,2 K ，K為屬性數。 c 1. 如前述演算法所設定，假設目前已做 n  1 個試題，以 S n1 表示，W為整個題庫，定義 Rn =W\ S n1 表示為題庫中剩餘的題目，做完 n  1 題後觀察到的後驗分布可以表示如下.  n1 ( c )   0 c  L(u (n-1) |  c ). （9）. 其中 u (n-1) 是受試者做了 n  1 題的作答反應向量，且 L(u (n -1) |  c ) 是概似函數。  n1 的Shannon entropy表示如下 2K. H ( n1 )    n1 ( c ) log b ( n1 ( c )). （10）. c 1. 計算Shannon entropy的期望值，公式如下 1. SHE j ( n )   H ( n | u (n-1) ,U j  x)  P (U j  x | u (n-1) ). （11）. x 0. 最後，選擇第n題的標準是從 Rn 中挑選第j題，其 SHE j ( n ) 最小。藉由SHE法所挑選出的試題是能將潛在認知狀態的後驗分布之不確定性降到最小。對數的基底b，實際上並不影響試題選擇，它只改變測量Shannon entropy的單位（Cover &. Thomas, 1991），在本研究中，b使用的是自然對數。更多有關Shannon entropy的細節可以參閱DeGroot (1962)與Tatsouka (2002)。. 12.

(21) 參、基於 Kullback-Leibler 訊息的後驗加權 KL 法前述 KL 法中有一個隱含的假設，就是對每一位受試者在每一題的選題上，所有的潛在認知狀態  c （ c  1,2,...,2 K ）同樣都可能是真實的潛在認知狀態，也就是每個潛在認知狀態發生的機率是相等的。然而，這樣的假設是不必要的且是無效率的。因此，Cheng (2009)提出基於 Kullback-Leibler 訊息的後驗加權 KL 法（posterior-weighted KL, PWKL），是在 KL 法中，將每個潛在認知狀態加入有用的先驗訊息並獲得其後驗分布作為權重，以區別每個潛在認知狀態，PWKL 公式表示如下  1   P (U j  x | ˆ )  P (U j  x | ˆ )   n1 ( c )  PWKL j (ˆ )     log  P (U  x |  )    c 1 x 0 j c     2K.    P (U j  x | ˆ )  P (U j  x | ˆ )   0 ( c ) L(u ( n1) |  c )      log  P (U  x |  )    c 1 x 0 j c     2K. （12）. 1. 其中，u (n-1) 表示受試者做了 n  1 題的作答反應向量， L(u (n-1) |  c ) 是概似函數。如上述演算法所設定，假設目前已做 n  1 個試題，以 S n1 表示，W為整個題庫，定義 Rn =W\ S n1 表示為題庫中剩餘的題目，選擇第n題的標準是從 Rn 中挑選第. j題，其 PWKL j (ˆ ) 值為最大。假如先驗分布相同，PWKL指標會相等於藉由潛在認知狀態的概似函數所計算出的概似加權KL訊息，公式如下  1   P(U j  x | ˆ )  P (U j  x | ˆ )  L(u ( n1) |  c )  LWKL j (ˆ )     log  P(U  x |  )    c 1 x 0 j c     2K. 13. （13）.

(22) 肆、合併 Kullback-Leibler 訊息與潛在狀態間的距離法 Henson與Douglas (2005）指出如果一個試題可以「將相似的潛在認知狀態區別好的話，同樣地，它也可以將不相似的潛在認知狀態區別好」。因此，Cheng (2009) 提出合併Kullback-Leibler訊息與潛在狀態間的距離法（Hybrid KL, HKL），可以提供潛在認知狀態更多的權重使其能更接近目前的估計值。歐式距離是一個一般化的測量距離，公式如下： d (ˆ ,  c ) . K.  (ˆ k 1. k.   ck ) 2. （14）. 將 PWKL 法的每一個元素進一步給予加權，提供目前估計的潛在認知狀態 ˆ 和其他潛在認知狀態  c 的距離倒數。因此可以得到一個混合指標（即為 HKL）。 2  1   P (U j  x | ˆ )  1  P (U j  x | ˆ )   n1 ( c )  HKL j (ˆ )     log  P (U  x |  )    ˆ d (  ,  ) c 1 x 0 c j c     K. （15）. HKL 和 PWKL 指標之間的差異是在其他條件相等且其他潛在認知狀態接近. ˆ 時，前者選到的試題會有較佳的區別。本研究將針對上述四種選題法與隨機選題法進行認知診斷適性測驗，並比較其診斷辨識率之成效。. 第三節以知識結構為基礎之適性測驗壹、順序理論 Airasian 與 Bart (1973)提出的順序理論（ordering theory, OT）常被用來建立知識結構，其定義試題間的順序的方法，主要是探討困難的上位試題答對，而簡單的下位試題答錯這種不合理狀況發生情形，來判斷試題的順序性。在順序理論中，兩試題 j 和 k 的聯合邊際機率如表 2-5，試題 j 和試題 k 之間. 14.

(23) 產生順序關係，且試題 j 比試題 k 容易時，將表示試題 j 答錯而試題 k 對的情況應 * 該不會發生，其定義為：設  jk  P( X j  0, Xk  1) ，當試題 j 做錯而試題 k 做對的. 機率在  *jk   時，即表示試題 j 和試題 k 則有順序關係，兩個試題的關係可標記為 X j  X k ，也就是試題 j 是試題 k 的下位試題，其中  為一閾值（threshold），常. 設定為 0.02    0.04 。. 表 2-5 試題 j 與試題 k 之聯合邊際機率試題 k Xk 1. Xk  0. 總和. X j 1. P ( X j  1, X k  1) P ( X j  1, X k  0) P ( X j  1). Xj 0. P ( X j  0, X k  1) P ( X j  0, X k  0) P ( X j  0). 試題 j. 總和. P( X k  1). P ( X k  0). P ( X j  1) 表示試題 j 答對人數的機率。 P ( X j  0) 表示試題 j 答錯人數的機率。 P ( X k  1) 表示試題 k 答對人數的機率。 P ( X k  0) 表示試題 k 答錯人數的機率。 P ( X j  1, X k  1) 表示試題 j 與試題 k 都答對的機率。 P ( X j  1, X k  0) 表示試題 j 答對而試題 k 錯的機率。 P ( X j  0, X k  1) 表示試題 j 答錯而試題 k 對的機率。 P ( X j  0, X k  0) 表示試題 j 與試題 k 都答錯的機率。. 15. 1.

(24) 貳、以知識結構為基礎之適性測驗選題法以知識結構為基礎之適性測驗（ knowledge structure based adaptive test ，. KSAT）選題法是依據建構出的知識或試題結構來選題，並利用結構所提供的訊息進行診斷及節省施測題數（吳慧珉，2006；劉育隆等人，2006）。茲以圖 2-2 說明如下：. 圖2-2 試題結構圖假設要瞭解學生學習某單元後之剖面圖（profile）需要以試題 A 到 O 進行測量，在傳統紙筆測驗中試題 A 到 O（共十四題）皆需施測。假設有一單元試題順序結構如圖 2-2 所示，其中 B→A 表示試題 A 為試題 B 之上位試題，如果答對試題 A 則試題 B 也會答對，以試題順序結構為基礎之適性測驗流程中，是以試題順序結構最上位試題開始施測，如受試者答錯 A 試題則需進一步測量試題 B、C 及其子試題，以診斷學生之真正迷思概念。如 C 對 B 錯，則認定 C 下之所有試題蘊含的概念皆已精熟，不必再測，僅需再施測 D、E、I、J、K，即可節省 F、. G、H、L、M、O 六題，接著施測 D、E 兩題，如 D 錯 E 對，則認定 E 下之所有試題蘊含的概念皆已精熟，不必再測，僅需再施測 I 試題。因此，本研究將利用試題順序結構，結合KSAT的判斷準則，應用於認知診斷適性測驗中，並探究其診斷辨識率之成效。. 16.

(25) 第三章研究方法本研究旨在探究結合知識結構之認知診斷適性測驗是否影響估計受試者認知屬性的診斷辨識率，並比較不同選題法在不同 Q 矩陣設計下估計診斷辨識率的成效。. 第一節結合知識結構之認知診斷適性測驗演算法根據 Cheng (2009)的研究顯示，在 DINA 模式下，以 PWKL 法與 HKL 法作為認知診斷測驗的選題法有較佳的診斷辨識率。KSAT 選題法是依知識結構來選題，利用結構的連接關係獲得更多的訊息。故本研究將 PWKL 法、HKL 法與 SHE 法結合知識結構方法進行適性測驗選題，是分別以 PWKL 法及 HKL 法全域搜尋選題及 SHE 法選擇後驗分布較集中試題之優點，再加入 KSAT 方法的判斷準則獲得更多訊息來進行診斷，期望融入知識結構所提供的訊息能獲得更佳的診斷精準度，本研究將此選題法稱為 PWKL_KSAT 法、HKL_KSAT 法、SHE_KSAT 法。本研究結合知識結構之選題法是分別以 PWKL 法、HKL 法與 SHE 法等來選題，將選出的試題皆依照知識結構來判定其下位試題是否精熟，若選出之試題答對，則認定其下位試題已精熟，無需再測，若選出之試題答錯，則表示尚未精熟此試題，其下位試題仍需測量。然而，因 PWKL 法、HKL 法與 SHE 法並非依照. KSAT 選題法來選題，有可能選到在知識結構中為下位的試題，依照順序理論，若選到下位試題且答錯，則判定其上位試題未精熟；若下位試題答對，其上位試題狀態無法得知，故不做任何判斷。綜合上述，本研究結合知識結構之選題法的判斷準則為：若選到試題答對，則預測其下位未施測之試題也精熟；若選到試題答錯，則預測其上位未施測之試題未精熟，若其上位試題為先前其他試題的預測題並預測答對的情況下，需將此預測題判斷為未精熟，因依照順序理論，下位試題答錯，其上位試題必未精熟。. 17.

(26) 以圖 2-2 為例，假設第一題選到試題 C 且答對，則預測其下位試題 F、G、H、. L、M、O 皆精熟，接著第二題選到試題 O 且答錯，則需將預測試題 H 由精熟改為未精熟，其他預測試題 F、G、L、M 不做更改。本研究為了讓初始階段獲得較多的訊息，在初始階段是以預測精準度 0.7 時的閾值來建立知識結構，然而固定此閾值會因加入太多不確定性的訊息而導致後續診斷辨識率無法提升，因此，本研究隨著施測試題的增加，控制知識結構的閾值逐漸變小，以減少不確定性的訊息加入。本研究是以試題的概似函數（likelihood function）作為訊息函數來控制閾值的大小，公式如下 n. LI n ( c )   Pj ( c ) [1  Pj ( c )]. (1 x j ). xj. j 1. arg max{LI n ( c )}. （16）. LF. 將求出之最大概似函數值，以  log 函數加以轉換，公式如下 Ln   log( LI n ). （17）. 以 Ln 作為訊息量，計算出施測第 n 題所增加的訊息量與第 n  1 題所增加的訊息量，並計算兩者之間的比值，以調整閾值的大小，公式如下  if  n   if . n  2 2 . L2  L1 L1. L  Ln1  n  3 n  n  n  n 1 Ln 1  Ln 2 n. 1. j 2. n.  ( n )   (1)   (.  p). （18）. （19）. 其中，  ( n ) 為第 n 題知識結構的閾值，  (1) 為閾值的起始值， p 為定值。當  n 越大，表示加入第 n 題所提供的訊息比第 n  1 題提供的還多，欲加入其結構較多其他訊息，因此，閾值減少的量較小，反之，當  n 越小，閾值減少的量較大。. 18.

(27) 由於在 DINA 模式估計下，隨著施測題數的增加，最後估計會越來越精準，因此無需再加入更多訊息來提升診斷辨識率，而且加入的訊息若預測錯誤，則會導致估計誤差變大，反而降低診斷辨識率，故本研究知識結構的閾值隨著試題增加而遞減。在本研究各個模擬實驗中，受試者樣本皆為同一群受試者，因此，隨著 Q 矩陣平均測量的屬性數越多，受試者的平均通過率會相對地越低。然而在題庫試題為較難的情況下，兩試題間違反順序的機率在每個試題皆相差不多，以致於其知識結構會比較弱，若在選題的時候閾值降低的幅度是固定的情況下，納入預測試題的數量會隨著知識結構越弱而越少，而降低結合知識結構選題法所帶來的效益，因此，閾值的變動幅度，應隨著題庫試題平均通過率而有所不同。以平均測量 1.2、3.6 個屬性的 Q 矩陣為例，平均測量 1.2 個屬性的 Q 矩陣平均通過率為 0.4481，平均測量 3.6 個屬性的 Q 矩陣平均通過率為 0.2601，若在這兩種 Q 矩陣設計中將 p 值皆設為相同時，在施測題數為 12 題的情況下，診斷辨識率如表 3-1 所示，表 3-1 僅呈現 PWKL 法與 PWKL_KSAT 法的結果。在平均測量 1.2 個屬性的 Q 矩陣中，當 p=0.01 時，結合知識結構選題法的成效會比當. p=0.001 來的好；反之，在平均測量 3.6 個屬性的 Q 矩陣中，當 p=0.01 時，結合知識結構選題法的成效反而沒有比當 p=0.001 來的好，由此可知，在平均測量 1.2 個屬性的 Q 矩陣下，閾值降低的幅度要比平均測量 3.6 個屬性的 Q 矩陣來的快，結合知識結構選題法表現才會比較好。因此，閾值的變動幅度，應隨著題庫平均通過率越低而設定越小。. 19.

(28) 表 3-1 固定 p 值下結合知識結構選題法之診斷辨識率. Q 矩陣平均屬性辨識率. p=0.01 整體屬性辨識率平均屬性辨識率. p=0.001 整體屬性辨識率. PWKL PWKL_KSAT PWKL PWKL_KSAT PWKL PWKL_KSAT PWKL PWKL_KSAT. Q_1.2 0.9757 0.9758 0.8681 0.8682 0.9771 0.9608 0.8792 0.7968. Q_3.6 0.9488 0.9532 0.7832 0.7989 0.9470 0.9539 0.7793 0.7997. 本研究在各個 Q 矩陣設計中，p 值的設定如表 3-2 所示。因此建議 p 值設定的範圍可以在 0.01~0.001 之間。表 3-2 不同 Q 矩陣之 p 值設定表. Q 矩陣平均通過率 p值. Q_1.2 0.4481 0.01. Q_1.8 0.4039 0.005. Q_2.4 0.3526 0.005. Q_3.6 0.2601 0.001. 以下針對 PWKL_KSAT 為例，其選題步驟敘述如下：步驟一：以 PWKL 法選出初始題，以預測精準度 0.7 時的閾值來建立知識結構，設此閾值為  (1) ，若受試者答對此題，即預測受試者此題的下位試題已精熟；若答錯此題且上位試題未被測量，則預測其上位試題未精熟。步驟二：將真正作答試題與預測試題同時納入估計受試者的潛在認知狀態。步驟三：將估計之認知狀態以 PWKL 法選出下一題，利用上述公式 18 與公式 19 計算加入此題的訊息量以及閾值的大小，並利用此閾值重新調整知識結構，若受試者答對此題，即預測受試者此題的下位試題已精熟；若答錯此題且上位試題未被測量，則預測其上位試題未精熟。另外，將先前選到的試題，重新依照新的知識結構進行判斷，將不. 20.

(29) 確定性的試題移除。步驟四：重複步驟二估計受試者潛在認知狀態與步驟三選出下一題，直到達到測驗終止條件。根據上述選題步驟，本研究修改 PWKL 公式如下 2  1   P(U j  x | ˆ )  P(U j  x | ˆ )   n1 ( c )  PWKL _ KSAT j (ˆ )     log  P (U  x |  )    c 1 x 0 j c     K. 2  1   P (U j  x | ˆ )  P (U j  x | ˆ )   0 ( c ) L(u ( n1) , y ( n1) |  c )      log  P (U  x |  )    c 1 x 0 j c    . （20）. K. 其中， u ( n1) ：表示受試者施測 n  1 題的作答反應向量。 y ( n1) ：表示受試者施測 n  1 題後依知識結構所預測試題的作答反應向量。. 如 PWKL_KSAT 法一樣，本研究將 HKL 與 SHE 公式分別修改如下 HKL _ KSAT j (ˆ )  1   P (U j  x | ˆ )  1  P (U j  x | ˆ )   n 1 ( c )      log     ˆ  P U x  d (  ,  ) ( | ) c 1 x  0 j c  c    2K. （21）. 2  1   P (U j  x | ˆ )  1  P (U j  x | ˆ )   0 ( c ) L(u ( n1) , y ( n1) |  c )      log  P (U  x |  )    ˆ d (  ,  ) c 1 x 0 j c  c    K. 1. SHE _ KSAT j ( n )   H ( n | u (n-1) ,U j  x)  P (U j  x | u (n-1) ) x 0. 1.   H ( n | u x 0. (n -1). ,y. ( n 1). （22） ,U j  x)  P (U j  x | u. (n -1). ,y. ( n 1). ). 其中， u ( n1) ：表示受試者施測 n  1 題的作答反應向量。 y ( n1) ：表示受試者施測 n  1 題後依知識結構所預測試題的作答反應向量。. 21.

(30) 第二節研究流程本研究先確定研究主題，進行與研究主題相關的文獻蒐集與探討，提出演算法設計及改良，並將其程式化，再依據研究所設定之實驗情境產生模擬資料進行模擬研究，比較在不同選題法與不同 Q 矩陣設計下，受試者認知屬性的診斷辨識率估計成效，最後撰寫研究結果與建議，研究流程如圖 3-1。. 確定研究主題相關文獻探討. CD-CAT 模擬研究. 以實徵資料模擬 CD-CAT. 整理與比較各演算法辨識率結果. 結論與建議完成撰寫論文圖 3-1 研究流程圖. 22.

(31) 第三節實驗設計本研究以模擬研究比較不同 Q 矩陣在不同選題法下的診斷辨識率成效，以及探討結合知識結構之選題法的診斷辨識率成效，以下針對模擬資料進行說明。. 壹、模擬資料本研究是以 DINA 模式為基礎的認知診斷適性測驗，透過模擬研究方式探討不同實驗設計的成效，其模擬資料變項與估計方式設計如表 3-3，以下針對實驗設計的變項進行詳述。表 3-3 模擬資料變項與估計方式彙整表變數. Q 矩陣試題參數測驗長度受試者樣本數受試者認知屬性估計模式估計方法選題法模擬次數實徵資料. 設定值認知屬性數 K=6 題庫 n=300 s~Uniform(0.05,0.25) g~Uniform(0.05,0.25) T=12 N=2000 HO_DINA 模式：theta~N(0,1) 1  1 0 k  (1.0,0.5,0,0.5,1,1.5) DINA 模式最大概似值估計法（Maximum Likelihood Estimation, MLE） Random、KL、SHE、PWKL、HKL、 SHE_KSAT、PWKL_KSAT、HKL_KSAT 10 次國立臺中教育大學教育測驗統計研究所執行之「團班教學和個別指導之教材與評量以及其相關行政管理系統計畫」的研究成果. 一、Q 矩陣與試題參數設計本研究題庫的 Q 矩陣與試題參數是參考 Cheng 與 Chang (2007)以及 Cheng. 23.

(32) (2009)的實驗設計，其測驗的認知屬性數 K=6，並設定每個試題有 20%的機會測量到每一個屬性，也就是每個試題平均測量屬性數為 6×20%=1.2 個，這個機制可以確保題庫內每一個屬性被測量到試題數是相等的。因此，本研究分別設定每個試題有 20%、30%、40%和 60%四種機會測量到每一個屬性，也就是每個試題平均測量屬性數分別為 1.2 個、1.8 個、2.4 個和 3.6 個等四種 Q 矩陣，Q 矩陣的設計如表 3-4 所示。試題參數分別設定粗心參數 s 與猜測參數 g 皆服從均勻分布. U(0.05,0.25)。根據研究顯示，題庫大小至少需要測驗長度的 12 倍（Stocking, 1994），甚至有其他的研究者建議要更大的比率（Chang & Zhang, 2002），因此，本研究模擬. 300 題的題庫以確保有足夠的試題來進行測驗。表 3-4 Q 矩陣設計表屬性試題數題數分布試題屬性數題數分布屬性試題數題數分布試題屬性數題數分布屬性試題數題數分布試題屬性數題數分布屬性試題數題數分布試題屬性數題數分布. 平均每題測量 1.2 個屬性（Q_1.2）屬性 1 屬性 2 屬性 3 屬性 4 60 60 60 60 1 個屬性 2 個屬性 3 個屬性 4 個屬性 280 4 4 4 平均每題測量 1.8 個屬性（Q_1.8）屬性 1 屬性 2 屬性 3 屬性 4 90 90 90 90 1 個屬性 2 個屬性 3 個屬性 4 個屬性 220 16 16 16 平均每題測量 2.4 個屬性（Q_2.4）屬性 1 屬性 2 屬性 3 屬性 4 120 120 120 120 1 個屬性 2 個屬性 3 個屬性 4 個屬性 160 28 28 28 平均每題測量 3.6 個概念（Q_3.6）屬性 1 屬性 2 屬性 3 屬性 4 180 180 180 180 1 個屬性 2 個屬性 3 個屬性 4 個屬性 40 52 52 52. 24. 屬性 5 60 5 個屬性 4. 屬性 6 60 6 個屬性 4. 屬性 5 90 5 個屬性 16. 屬性 6 90 6 個屬性 16. 屬性 5 120 5 個屬性 28. 屬性 6 120 6 個屬性 28. 屬性 5 180 5 個屬性 52. 屬性 6 180 6 個屬性 52.

(33) 以平均每題測量 1.2 個屬性的 Q 矩陣為例說明，若每個屬性被測量到的機會是 20%，也就是測量每個屬性的試題數為 300  20%  60 題，在本研究中所使用的 Q 矩陣測量 1 個屬性的試題有 280 題，測量 2 個屬性以上的試題分別皆為 4 題。. 二、受試者認知屬性本研究受試者認知屬性分布是使用 HO_DINA 模式產生，設定屬性數 K=6 時，高階層試題迴歸參數 0 k  ( 1.0,0.5,0,0.5,1,1.5) 及 1  1 ，受試者的能力  服從標準常態分布  ~ N (0,1) ，並使用公式 4 產生受試者  k 的狀態，產生之受試者認知屬性其平均每個屬性所精熟的人數比率如表 3-5 所示。表 3-5 平均屬性精熟人數比率表屬性產生分布人數比率. 1 1543 0.77. 2 1227 0.61. 3 988 0.49. 4 746 0.37. 5 473 0.24. 6 318 0.16. 三、模擬作答反應資料本研究利用 DINA 模式計算出受試者在每一題的答對機率，再透過隨機產生之均勻分配 U(0,1)判定受試者是否答對該題來產生受試者的作答反應。. 四、模擬次數本研究提出之選題法是藉由知識結構提供額外的訊息來提升診斷辨識率，知識結構是利用學生作答反應建構出來的，因此本研究在每個 Q 矩陣設計下，皆產生 10 個不同作答反應資料集，並且將每個資料集模擬 5 次適性測驗，以降低當選題時，計算選題指標一樣的情況下，從中隨機選題所造成隨機效果，以及降低估計時計算 MLE 值相同的情況下，從中隨機選擇受試者潛在認知狀態所造成的隨機效果。. 25.

(34) 貳、實徵資料驗證本研究使用的實徵資料為國立臺中教育大學教育測驗統計研究所執行之「團班教學和個別指導之教材與評量以及其相關行政管理系統計畫」的研究成果，選擇國中第三冊第五單元「根式的運算」，該測驗試題數為 32 題、概念數為 8 個，施測人數共 319 人，概念與試題對照表和 Q 矩陣設計分別如表 3-6 與表 3-7 所示，接著利用 OX 軟體估計試題參數，試題參數如表 3-8 所示，試題選項分析如表 3-9 所示，並以專家的判斷作為受試者認知屬性的真值。由表 3-8 可發現利用 OX 軟體估計出的猜測參數 g 在某些試題偏大，如試題. 1、試題 2、試題 4、試題 5、試題 9 其猜測參數高達 0.7 以上，可能是因為此測驗樣本只有 319 人；或者是因為專家設定的 Q 矩陣不適當；亦或是此份測驗試題過於簡單，而導致猜測參數估計值較高的現象。由表 3-7 可知，此份測驗平均通過率為 74.15%，也就是能力較低的學生在此份測驗上能答對大部分的試題。. 表 3-6 實徵資料概念與試題對照表概念內容【概念 01】根式的乘法【概念 02】根式的除法【概念 03】最簡根式【概念 04】根式的加法【概念 05】根式的減法【概念 06】同類根式的化簡【概念 07】有理化根式【概念 08】根式的綜合運算. 26. 試題 1、9、17、24 2、10、18、25 3、11、19、26 4、12、20、27 5、13、21 6、14、22、28、30 7、15、31、32 8、16、23、29.

(35) 表 3-7 實徵資料 Q 矩陣設計試題（ n  32 ） I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 I19 I20 I21 I22 I23 I24 I25 I26 I27 I28 I29 I30 I31 I32 總計. K1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0. K2 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0. K3 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0. K4 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0. K5 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0. K6 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0. K7 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1. K8 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0. 4. 4. 4. 4. 3. 5. 4. 4. 27.

(36) 表 3-8 實徵資料試題參數表試題 I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 I19 I20 I21 I22 I23 I24 I25 I26 I27 I28 I29 I30 I31 I32. 粗心參數 s 0.0147 0.0207 0.0225 0.0095 0.0097 0.0893 0.4510 0.0361 0.0000 0.0326 0.0092 0.0000 0.0082 0.0049 0.0092 0.2271 0.0462 0.1254 0.0462 0.1152 0.0461 0.0000 0.1124 0.0782 0.0591 0.1362 0.0895 0.0509 0.2369 0.2337 0.0205 0.0712. 28. 猜測參數 g 0.8485 0.8488 0.5314 0.7550 0.7319 0.3794 0.3096 0.5972 0.7866 0.3864 0.5526 0.5012 0.4270 0.6544 0.3673 0.2619 0.3905 0.1886 0.2740 0.2023 0.1740 0.4300 0.2738 0.2338 0.5162 0.2956 0.1719 0.3724 0.3135 0.2182 0.3684 0.3267.

(37) 表 3-9 實徵資料選項分析表選項試題. 1. I1 2.19% I2 93.10% I3 0.94% I4 2.51% I5 1.57% I6 71.79% I7 5.96% I8 7.21% I9 91.54% I10 75.24% I11 4.70% I12 2.19% I13 5.02% I14 87.15% I15 14.73% I16 9.72% I17 11.60% I18 62.07% I19 6.27% I20 24.76% I21 12.23% I22 8.15% I24 8.78% I25 5.02% I26 6.90% I27 8.15% I28 14.42% I29 6.90% I31 10.34% I32 10.34% I33 5.64% I34 8.46% 註：灰底標示為標準答案. 2. 3. 4. 未作答. 93.10% 0.63% 1.25% 90.91% 89.66% 7.52% 45.14% 8.78% 3.45% 13.48% 85.89% 2.51% 78.68% 5.33% 5.64% 56.11% 6.58% 16.30% 74.92% 7.21% 9.72% 8.46% 17.24% 64.89% 78.37% 17.24% 10.66% 73.98% 57.68% 13.17% 11.91% 9.09%. 0.63% 5.96% 84.33% 4.70% 1.25% 15.36% 42.32% 81.19% 3.13% 5.64% 4.39% 82.76% 14.42% 4.70% 5.33% 26.33% 73.04% 11.60% 10.97% 64.89% 67.08% 79.31% 63.32% 13.79% 10.03% 69.28% 8.46% 10.34% 16.30% 17.87% 73.04% 11.91%. 3.76% 0.31% 13.48% 1.88% 7.52% 5.02% 6.27% 2.82% 1.88% 5.02% 4.70% 12.54% 1.57% 2.82% 73.67% 5.02% 8.15% 9.09% 7.21% 3.13% 10.03% 3.76% 9.09% 15.36% 4.08% 5.02% 65.52% 7.21% 14.11% 56.74% 6.27% 68.34%. 0.31% 0.00% 0.00% 0.00% 0.00% 0.31% 0.31% 0.00% 0.00% 0.63% 0.31% 0.00% 0.31% 0.00% 0.63% 2.82% 0.63% 0.94% 0.63% 0.00% 0.94% 0.31% 1.57% 0.94% 0.63% 0.31% 0.94% 1.57% 1.57% 1.88% 3.13% 2.19%. 29.

(38) 第四節評估指標本研究以模擬產生之受試者認知屬性當做真值，與估計的受試者認知屬性進行比較，使用平均屬性辨識率（mean of each attribute accuracy）與整體屬性辨識率（whole pattern accuracy）作為評估指標，計算方法如下：. 壹、平均屬性辨識率   N 1  ( ik  ˆ ik ) 2  K   i 1   N  k 1     ACC _ M ( )   K. （23）. 其中，N：表示受試者總人數。. K：表示 Q 矩陣的認知屬性數.  ik ：表示受試者 i 認知屬性狀態真值，其值為 1 表示受試者 i 具備認知屬性 k ，反之為 0。. ˆ ik ：表示受試者 i 認知屬性狀態估計值，其值為 1 表示受試者 i 具備認知屬性 k ，反之為 0。. 貳、整體屬性辨識率 N. ACC _ W ( ) .  D( ,ˆ ) i. i 1. N. i. 1, if  i  ˆ i ，其中 D ( i , ˆ i )   0, if  i  ˆ. 其中，N：表示受試者總人數。.  i ：表示受試者 i 認知屬性狀態真值。 ˆ i ：表示受試者 i 認知屬性狀態估計值。. 30. （24）.

(39) 第五節研究工具本研究使用的工具有 MATLAB 軟體及 OX 軟體，茲分述如下。. 壹、MATLAB 軟體 MATLAB 應用軟體結合了數值分析、矩陣運算、以及繪圖…等功能，語法簡單、操作介面簡易，擁有功能強大的函數庫，且提供完整的矩陣運算指令，主要用途為矩陣式的數學運算。本研究使用 MATLAB 2008a 來撰寫認知診斷適性測驗選題演算法，以及產生受試者認知屬性狀態，配合不同 Q 矩陣設定，計算答對機率值，進而模擬作答反應，並用來計算辨識率。. 貳、OX 軟體 Ox 是一個目標指向的統計系統。它的核心是一個有效率的矩陣語言，矩陣可以直接表示及運算，例如：矩陣相乘、計算反矩陣。這是一個相輔相成的綜合統計資料庫。它的特色是運算速度快、可延伸的資料庫及設計良好的語法與編輯器，使得程式很容易撰寫、維護及圖形繪製。Ox 可以讀寫相當多不同的資料格式，包含了電子表格（EXCEL）和 OXMETRIC 檔。Ox 也可以執行大部份的計量經濟學的高斯方程式（Doornik, 2003）。. Ox 分為二個版本：專業版和簡易版。簡易版以命令行執行程式，Ox 程式使用編輯器（例如：OXEDIT）撰寫程式碼，然後在 MS-DOS 下執行或直接在編輯器下執行。相對於專業版，簡易版無法顯示圖形及使用圖形使用者介面（graphical. user interface, GUI）。本研究使用 OX 軟體，並以 de la Torre (2008)撰寫之 DINA 模式程式，估計實徵資料的試題參數。. 31.

(40) 32.

(41) 第四章研究結果本章根據研究目的呈現研究結果，共分為四節，第一節為不同 Q 矩陣在認知診斷適性測驗上的診斷辨識率；第二節為不同選題法在認知診斷適性測驗上的診斷辨識率；第三節為結合知識結構之選題法在認知診斷適性測驗上的診斷辨識率，第四節為實徵資料驗證結果。. 第一節不同 Q 矩陣的診斷辨識率本研究以不同的 Q 矩陣設計共分成四種結果來呈現，表 4-1 至表 4-2 分別為測驗長度為 12 題時，受試者在不同 Q 矩陣設計下的平均屬性辨識率與整體屬性辨識率。. 表 4-1 不同 Q 矩陣設計的平均屬性辨識率. Q 矩陣選題法 Random KL SHE PWKL HKL. Q_1.2. Q_1.8. Q_2.4. Q_3.6. 0.8439 0.9390 0.9666 0.9757 0.9763. 0.8234 0.9538 0.9659 0.9766 0.9768. 0.7930 0.9328 0.9666 0.9702 0.9712. 0.6861 0.8942 0.9601 0.9470 0.9484. 表 4-2 不同 Q 矩陣設計的整體屬性辨識率. Q 矩陣選題法 Random KL SHE PWKL HKL. Q_1.2. Q_1.8. Q_2.4. Q_3.6. 0.3536 0.6893 0.8197 0.8681 0.8708. 0.3218 0.7639 0.8211 0.8764 0.8764. 0.2812 0.6753 0.8292 0.8511 0.8554. 0.2057 0.5649 0.8111 0.7793 0.7830. 33.

(42) 由上表 4-1 與表 4-2 可知，在 Random 法中隨著 Q 矩陣試題測量屬性數越多，受試者的平均屬性辨識率與整體屬性辨識率皆越低；在 KL 法、PWKL 法與 HKL 法中，受試者的平均屬性辨識率與整體屬性辨識率在平均測量 1.2、1.8、2.4 個屬性的 Q 矩陣下，並無隨著試題測量屬性數越多，而導致診斷辨識率下降，然而在平均測量 1.8、2.4、3.6 個屬性的 Q 矩陣下，KL 法、PWKL 法與 HKL 法就會隨著試題測量屬性數越多，平均屬性辨識率與整體屬性辨識率皆越低；在 SHE 法中四種 Q 矩陣設計下，受試者的平均屬性辨識率與整體屬性辨識率差異不大。因此本研究認為在 KL 法、PWKL 法與 HKL 法中，平均測量 1.8 個屬性的 Q 矩陣下，受試者的平均屬性辨識率與整體屬性辨識率表現最佳，可能是因為在平均測量 1.2 個屬性的 Q 矩陣中，測量 2 個認知屬性以上的試題太少，導致在估計受試者認知屬性狀態時，可選擇的資訊太少，造成估計較不精準；而在平均測量. 2.4、3.6 個屬性的 Q 矩陣中，隨著平均每題測量的屬性數越多，只測量 1 個認知屬性的試題越少，相對地，測量 2 個以上認知屬性的試題變多，可能是因為這樣的 Q 矩陣分布，導致平均每題測量屬性數越多的 Q 矩陣其診斷辨識率越差。此外，本研究發現在 SHE 法中，四種 Q 矩陣設計皆有一致的診斷辨識率，可能是因為 SHE 法是利用受試者的作答反應計算所有潛在認知狀態後驗分布的. entropy，不受受試者目前估計潛在認知狀態影響，因此，在不同 Q 矩陣設計下皆有一致的結果。. 34.

(43) 第二節不同選題法的診斷辨識率本研究依不同選題法共分成五種結果呈現，圖 4-1 至圖 4-8 分別為平均每題測量 1.2、1.8、2.4、3.6 個屬性的 Q 矩陣之平均屬性辨識率與整體屬性辨識率變動圖。結果顯示，在平均每題測量 1.2、1.8、2.4、3.6 個屬性的 Q 矩陣下、PWKL 法與 HKL 法明顯優於 KL 法與 Random 法，SHE 法也明顯優於 KL 法與 Random 法，PWKL 法與 HKL 法之間差異不大。在平均每題測量 1.2、1.8、2.4 個屬性的 Q 矩陣下，PWKL 法與 HKL 法隨著試題增加為 12 題時，最後也優於 SHE 法。然而，在平均每題測量 3.6 個屬性的. Q 矩陣下，試題增加為 12 題時，PWKL 法與 HKL 法並無表現比 SHE 法好，因此，本研究在此種 Q 矩陣設計下，將施測題數增加為 30 題時，如圖 4-9 與圖 4-10 所示，結果顯示 PWKL 法與 HKL 法最後也能優於 SHE 法。因此，隨著 Q 矩陣測量屬性數越多時，PWKL 法與 HKL 法要表現優於 SHE 法需測量較多試題，因為 SHE 法是計算哪一題可以使其後驗分布的 entropy 期望值越小，表示加入這一題可以使某個潛在認知狀態更集中，在估計時就可以更穩定趨向某個潛在認知狀態，然而 PWKL 法與 HKL 法是根據目前受試者的認知屬性狀態來選擇下一題將其潛在認知狀態區別更好，因為在初始階段，受試者的潛在認知狀態較不穩定，而在平均每題測量 3.6 個屬性的 Q 矩陣下，測量 1 個屬性的試題題數較少，估計較無法快速趨於穩定，故需要較多的試題。. 35.

(44) 圖 4-1 不同選題法在 Q_1.2 的平均屬性辨識率變動圖. 圖 4-2 不同選題法在 Q_1.2 的整體屬性辨識率變動圖. 36.



(47) 圖 4-7 不同選題法在 Q_3.6 的平均屬性辨識率變動圖（T=12）. 圖 4-8 不同選題法在 Q_3.6 的整體屬性辨識率變動圖（T=12）. 39.

(48) 圖 4-9 不同選題法在 Q_3.6 的平均屬性辨識率變動圖（T=30）. 圖 4-10 不同選題法在 Q_3.6 的整體屬性辨識率變動圖（T=30）. 40.

(49) 第三節結合知識結構選題法的診斷辨識率本研究依結合知識結構選題法共分為 SHE_KSAT 法、 PWKL_KSAT 法與. HKL_KSAT 法，並分別與未加入知識結構之選題法進行比較，結果成效詳述如下。. 壹、SHE 法與 SHE_KSAT 法成效比較圖 4-11 至圖 4-18 分別為 SHE 法與 SHE_KSAT 法在平均每題測量 1.2、1.8、. 2.4、3.6 個屬性的 Q 矩陣之平均屬性辨識率與整體屬性辨識率變動圖。由圖可知，在平均每題測量 1.2、1.8、2.4、3.6 個屬性的 Q 矩陣下，SHE_KSAT 法在前 5 題的辨識率皆優於 SHE 法；至第 6 題後，SHE_KSAT 法的表現開始不穩定。在平均每題測量 1.2、1.8、2.4 個屬性的 Q 矩陣下，測驗長度在 12 題時，. SHE_KSAT 法與 SHE 法表現差不多，但是在平均每題測量 3.6 個屬性的 Q 矩陣下，SHE_KSAT 法的表現就不如 SHE 法。. 圖 4-11 SHE 法與 SHE_KSAT 法在 Q_1.2 的平均屬性辨識率變動圖. 41.

(50) 圖 4-12 SHE 法與 SHE_KSAT 法在 Q_1.2 的整體屬性辨識率變動圖. 圖 4-13 SHE 法與 SHE_KSAT 法在 Q_1.8 的平均屬性辨識率變動圖. 42.



(53) 圖 4-18 SHE 法與 SHE_KSAT 法在 Q_3.6 的整體屬性辨識率變動圖. 貳、PWKL 法與 PWKL_KSAT 法成效比較圖 4-19 至圖 4-26 分別為 PWKL 法與 PWKL_KSAT 法在平均每題測量 1.2、. 1.8、2.4、3.6 個屬性的 Q 矩陣之平均屬性辨識率與整體屬性辨識率變動圖。由圖可知，在平均每題測量 1.2、1.8、2.4 個屬性的 Q 矩陣下，PWKL_KSAT 法在前 6 題的辨識率皆優於 PWKL 法；至第 6 題後，PWKL_KSAT 法與 PWKL 法表現差異不大。只有在 Q 矩陣平均每題測量 3.6 個屬性的情況下，隨著試題增加，PWKL_KSAT 法的表現皆優於 PWKL 法。因此，隨著 Q 矩陣平均每題測量屬性數越多，PWKL_KSAT 法的平均屬性辨識率與整體屬性辨識率越能明顯優於 PWKL 法。. 45.

(54) 圖 4-19 PWKL 法與 PWKL_KSAT 法在 Q_1.2 的平均屬性辨識率變動圖. 圖 4-20 PWKL 法與 PWKL_KSAT 法在 Q_1.2 的整體屬性辨識率變動圖. 46.




(58) 參、HKL 法與 HKL_KSAT 法成效比較圖 4-27 至圖 4-34 分別為 HKL 法與 HKL_KSAT 法在平均每題測量 1.2、1.8、. 2.4、3.6 個屬性的 Q 矩陣之平均屬性辨識率與整體屬性辨識率變動圖。由圖可知，在平均每題測量 1.2、1.8、2.4 個屬性的 Q 矩陣下，HKL_KSAT 法在前 6 題的辨識率皆優於 HKL 法；至第 6 題後，HKL_KSAT 法與 HKL 法表現差異不大。只有在 Q 矩陣平均每題測量 3.6 個屬性的情況下，隨著試題增加，. HKL_KSAT 法的表現皆優於 HKL 法。因此，隨著 Q 矩陣平均每題測量屬性數越多，HKL_KSAT 法的平均屬性辨識率與整體屬性辨識率越能明顯優於 HKL 法。. 圖 4-27 HKL 法與 HKL_KSAT 法在 Q_1.2 的平均屬性辨識率變動圖. 50.

(59) 圖 4-28 HKL 法與 HKL_KSAT 法在 Q_1.2 的整體屬性辨識率變動圖. 圖 4-29 HKL 法與 HKL_KSAT 法在 Q_1.8 的平均屬性辨識率變動圖. 51.



(62) 圖 4-34 HKL 法與 HKL_KSAT 法在 Q_3.6 的整體屬性辨識率變動圖. 表 4-3 與表 4-4 分別為結合知識結構選題法的平均屬性辨識率與整體屬性辨識率。綜合上述結果，由表 4-3 與表 4-4 可知，在 SHE_KSAT 法與 SHE 法中，隨著 Q 矩陣測量屬性數越多，SHE_KSAT 法表現會逐漸比 SHE 法還差；反之，在 PWKL_KSAT 法與 PWKL 法中，隨著 Q 矩陣測量屬性數越多，PWKL_KSAT 法表現會逐漸比 PWKL 法還要好；HKL_KSAT 法與 HKL 法也是隨著 Q 矩陣測量屬性數越多，HKL_KSAT 法表現會逐漸比 HKL 法還要好。因此，本研究認為會有這樣的結果可能是因為 PWKL_KSAT 法與 HKL_KSAT 法是藉由受試者目前估計的潛在認知狀態來選擇下一題，所以初始階段獲得越多額外訊息能加速估計受試者的潛在認知狀態，所以在 Q 矩陣平均測量 3.6 個屬性的情況下，表現更加明顯；然而 SHE 法是藉由受試者的作答反應來計算所有潛在認知狀態後驗分布的 entropy，可能是因為從知識結構中所獲得的訊息為預測作答，含不確定性的成分太多，以致於分佈沒有特別集中，因此估計時無法精確找. 54.

(63) 到潛在認知狀態，造成診斷辨識率較差。. 表 4-3 結合知識結構選題法的平均屬性辨識率. Q 矩陣選題法 SHE SHE_KSAT PWKL PWKL_KSAT HKL HKL_KSAT. Q_1.2. Q_1.8. Q_2.4. Q_3.6. 0.9666 0.9654 0.9757 0.9758 0.9763 0.9766. 0.9659 0.9606 0.9766 0.9759 0.9768 0.9765. 0.9666 0.9648 0.9702 0.9712 0.9712 0.9720. 0.9601 0.9503 0.9470 0.9539 0.9484 0.9548. 表 4-4 結合知識結構選題法的整體屬性辨識率. Q 矩陣選題法 SHE SHE_KSAT PWKL PWKL_KSAT HKL HKL_KSAT. Q_1.2. Q_1.8. Q_2.4. Q_3.6. 0.8197 0.8160 0.8681 0.8682 0.8708 0.8720. 0.8211 0.7950 0.8764 0.8745 0.8764 0.8761. 0.8292 0.8201 0.8511 0.8560 0.8554 0.8590. 0.8111 0.7717 0.7793 0.7997 0.7830 0.8028. 第四節實徵資料驗證本研究使用的實徵資料其測驗試題數為 32 題、概念數為 8 個，施測人數共. 319 人，圖 4-35 與圖 4-36 為在不同選題法的平均屬性辨識率與整體屬性辨識率變動圖。圖 4-37 與圖 4-38 為 SHE 法與 SHE_KSAT 法的平均屬性辨識率與整體屬性辨識率變動圖。圖 4-39 與圖 4-40 為 PWKL 法與 PWKL_KSAT 法的平均屬性辨識率與整體屬性辨識率變動圖。圖 4-41 與圖 4-42 為 HKL 法與 HKL_KSAT 法的平均屬性辨識率與整體屬性辨識率變動圖。. 55.

(64) 由圖 4-35 與圖 4-36 可知，在實徵資料的情況下，PWKL 法與 HKL 法明顯優於 KL 法與 Random 法，SHE 法也明顯優於 KL 法與 Random 法，PWKL 法與 HKL 法也優於 SHE 法，PWKL 法與 HKL 法之間差異不大。由圖 4-37 與圖 4-38 可知，在實徵資料的情況下，SHE_KSAT 法優於 SHE 法。由圖 4-39 與圖 4-40 可知，在實徵資料的情況下，PWKL_KSAT 法在初始階段試題少時優於 PWKL 法，然而隨著試題增加 PWKL_KSAT 法表現並不穩定，但整體而言，其表現是有比 PWKL 法來的好。由圖 4-41 與圖 4-42 可知，在實徵資料的情況下，HKL_KSAT 法在初始階段試題少時亦優於 HKL 法，然而隨著試題增加 HKL_KSAT 法表現也並不穩定，但整體而言，其表現是亦比 HKL 法來的好。. 圖 4-35 實徵資料在不同選題法的平均屬性辨識率變動圖. 56.

(65) 圖 4-36 實徵資料在不同選題法的整體屬性辨識率變動圖. 圖 4-37 SHE 法與 SHE_KSAT 法在實徵資料的平均屬性辨識率變動圖. 57.

(66) 圖 4-38 SHE 法與 SHE_KSAT 法在實徵資料的整體屬性辨識率變動圖. 圖 4-39 PWKL 法與 PWKL_KSAT 法在實徵資料的平均屬性辨識率變動圖. 58.

(67) 圖 4-40 PWKL 法與 PWKL_KSAT 法在實徵資料的整體屬性辨識率變動圖. 圖 4-41 HKL 法與 HKL_KSAT 法在實徵資料的平均屬性辨識率變動圖. 59.

(68) 圖 4-42 HKL 法與 HKL_KSAT 法在實徵資料的整體屬性辨識率變動圖. 60.