研究成果

依據第三章的研究方法，分別於各節探討研究結果如后﹔

第一節選題數不同的適性選題分類正確率的比較

研究者利用AO^*演算法，引用許雅菱(民 94)研究使用之學生作答情形的資料，從選 1 題、選 2 題、一直做到選 17 題，分別建立試題結構後，進行推論及分類正確率的判定。比較結果發現，skill 和 bug 的分類正確率總平均值最高落在選 8 題試題時﹔而 skill 和 bug 各別的分類正確率之間的值較接近的選題數落在選 15 題試題時，分別如表 4-1-1，圖 4-1-1 及表 4-1-2，圖 4-1-2，標記部分為最佳的選題數處。

表 4-1-1 選題數和分類正確率總平均值的關係

選題數 1 2 3 4 5 6 7 8

總平均值 0.7183 0.7672 0.8053 0.8221 0.871 0.871 0.871 0.8725

9 10 11 12 13 14 15 16 17 0.8702 0.8695 0.8588 0.855 0.8458 0.8473 0.8611 0.8603 0.8626

圖 4-1-1 分類正確率總平均值和選題數的關係

表 4-1-2 不同選題數的各個分類正確率值的接近度比較

Skill1 Skill2 Skill3 Skill4 Skill5 Bug1 Bug2 Bug3 Bug4 Bug5 最大間隔差

1 0.7252 0.4657 0.7786 0.6412 0.6412 0.7252 0.8931 0.916 0.4809 0.916 0.43511 2 0.7786 0.4657 0.7786 0.7939 0.6412 0.7786 0.8931 0.916 0.7099 0.916 0.31298 3 0.9008 0.4657 0.7786 0.855 0.6412 0.9008 0.8931 0.916 0.7863 0.916 0.43511 4 0.9008 0.4657 0.7786 0.8931 0.6412 0.9008 0.8931 0.916 0.916 0.916 0.43511 5 0.9008 0.9237 0.7786 0.8779 0.6412 0.9008 0.8931 0.916 0.9618 0.916 0.25954 6 0.9008 0.9237 0.7786 0.8779 0.6412 0.9008 0.8931 0.916 0.9618 0.916 0.25954 7 0.9008 0.9237 0.7786 0.8779 0.6412 0.9008 0.8931 0.916 0.9618 0.916 0.25954 8 0.9008 0.9237 0.7786 0.8626 0.6641 0.9008 0.8931 0.916 0.9771 0.9084 0.23664 9 0.9084 0.9237 0.7786 0.8626 0.6641 0.9008 0.8855 0.9084 0.9695 0.9008 0.23664

skill & bug 正確率的平均值

10 0.9237 0.9237 0.7786 0.8626 0.6641 0.9084 0.8779 0.9008 0.9618 0.8931 0.24428 11 0.9237 0.9313 0.7786 0.855 0.6641 0.8855 0.855 0.8779 0.9466 0.8702 0.22138 12 0.9237 0.9313 0.7786 0.855 0.6641 0.8779 0.8473 0.8702 0.9389 0.8626 0.21374 13 0.9389 0.9237 0.7786 0.8473 0.6641 0.8702 0.8244 0.8473 0.9237 0.8397 0.20611 14 0.9542 0.9237 0.7786 0.8473 0.6641 0.8779 0.8168 0.8626 0.916 0.8321 0.21374 15 0.9618 0.9237 0.7786 0.8473 0.7405 0.8855 0.8168 0.9008 0.916 0.8397 0.14504 16 0.9695 0.9237 0.7786 0.8473 0.7328 0.8855 0.8092 0.9084 0.9084 0.8397 0.15268 17 0.9771 0.916 0.7786 0.8397 0.7328 0.8931 0.8092 0.916 0.916 0.8473 0.16031

圖 4-1-2 不同選題數的各個分類正確率值之間的接近情況

另外由圖 4-1-2 也可以看出所有 skill 和 bug 都要達到六成以上，則選 skill_bug 正確率圖

0.4

skill1 skill2 skill3 skill4 skill5 bug1 bug2 bug3 bug4 bug5

題數必須至少五題以上，且自此以後分類正確率的總平均都達到八成以上。

第二節使用固定試題數和 18 題全做的比較

Average

18 題全做 0.7882 0.7986 0.9583 0.9236 0.9444 0.8826 選 15 題 0.7535 0.7986 0.9444 0.875 0.9028 0.8548 選 8 題 0.809 0.7986 0.9271 0.8576 0.8542 0.8439

Bug1 Bug2 Bug3 Bug4 Bug5 Bug Average

Total Average 0.7882 0.7569 1 0.875 0.9688 0.8778 0.8802

第三節使用演算停止閥值方式和 18 題全做的比較

Average

18 題全做 0.8281 0.7684 0.9368 0.9298 0.9509 0.8828 Average

Total Average

0.8175 0.807 1 0.8526 0.9684 0.8891 0.886

第五章結論與建議

第一節結論

根據本研究之實驗，研究者得到幾點結論，說明如下

一、固定長度的試題結構樹中，選題數必須至少選五題以上，則所有的 skill 和 bug 的分類正確率才會都高於 6 成以上，比一般有無猜測機率的 5 成為高，

此結論說明如果要使用此結構樹做為適性選題的依據，則選題數必須至少 5 題以上，線上實作系統方為可行。

二、選用 skill 和 bug 的分類正確率總平均值最高落在選 8 題試題時﹔和 skill 以及和 bug 各別的分類正確率之間的值較接近的選題數落在選 15 題試題時的兩種方式進行實際線上施測的分析比較，結果選題數 8 題方式仍比選題數 15 題方式的分類正確率的總平均值來得高，顯然各別的分類正確率之間的值較接近的這種狀況並不會使實務上的線上測驗的結果的分類正確率提升。

三、經學生線上實測全部 18 題試題所得作答的情況資料，透過訓練過的貝式網路的推論後和專家所判定的結果做比較，得知 skill 和 bug 的分類正確率皆高於 5 成以上，接近 7 成 5 以上，顯示實作的線上學習診斷系統，具有其可行性。

四、固定選題數 8 題、選題數 15 題和演算停止閥值方式的適性選題線上診斷結果發現和專家判定的結果比較，得到 skill 和 bug 各別分類正確率皆高於 5 成以上，達到 6 成 8 以上﹔顯示實作降低題數的適性選題試題結構之線上學習診斷系統，具有其可行性。

五、經學生線上實測適性選題之固定選題數 8 題、選題數 15 題和演算停止閥值方式後的推論和專家判定做比較，所得的 skill 平均分類正確率和 bug 平均分類正確率都比 18 題全做的分類正確率來得低，可見 18 題全做，比降低題

數的適性選題的診斷效果來得好。

六、依平均作題數來看，固定選題數 8 題、選題數 15 題和演算停止閥值方式 skill 和 bug 分類正確率的總平均分別為 8 成 6、8 成 5、8 成 4 左右，正確率相當接近，但演算停止閥值方式平均卻只使用 5 題，使用的試題數遠比其他二者少，可見演算停止閥值方式的適性選題的診斷效果來得比較好。

七、使用演算停止閥值的適性選題方式所建構的試題結構，經線上實測結果的推論分析和專家判定做比較時發現，雖然它的 skill 平均分類正確率和 bug 平均分類正確率都高於 7 成﹔但在 skill4 和 bug4 的分類正確率僅達 6 成多左右，有偏低的情形，顯示此種方法建立適性選題的方式還有提升分類正確率的空間。

參考文獻

中文部分

何明鏡，劉湘川，郭伯臣(民 93)。以知識結構為主的適性診斷測驗系統之研究-以高階語言 C++之算術邏輯運算及輸入輸出函數為例。網路學習評量系統。

網路學習理論與應用學術研討會。新竹，交通大學。

李俊儀，許雅菱，施淑娟，郭伯臣，許天維(民 94)。貝氏網路在錯誤類型分類之應用-以國小四年級學童「面積」單元為例。人工智慧理論與應用。銘傳大學 2005 國際學術研討會。桃園，銘傳大學。

施淑娟(民 94)。應用貝氏網路進行國小五年級「小數」單元學習診斷之研究。國立台灣師範大學教育心理與輔導研究所博士論文計畫，未出版，台北市。

許雅菱(民 94)。貝氏網路在教育測驗分析上的應用。台中師範學院測驗統計研究所碩士論文，未出版，台中市。

劉湘川(民93a)。解釋結構建模(ISM)分析法簡介。

劉湘川彙編(民 93b)。貝氏網路機率模式。國立台中師範學院九十三學年度第二學期。「貝氏統計理論」教學講義。

蘇俊和(民 91)。貝氏網路的建構與學習機制之研究-以航太產業績效管理為例。

東海大學碩士論文，未出版，台中市。

英文部分

Almond,R.G., Mislevy, Robert J. (1999). Graphical models and computerized adaptive testing. Applied Psychological Measurement, 23(3):223-237.

Almond,R. G., Dibello, L., Jenkins, F., Senturk, D., Mislevy, R. J., Steinberg, L. S., and Yan, D. (2001). Models for Conditional Probability Tables in Educational Assessment. In Proceedings of the 2001 Conference on AI and Statistics.

Society for Artificial Intelligence and Statistics

http://www.ai.mit.edu/conference /aistats2001/files/almond46.ps.

Hambleton, R. K. and Swaminathan, H. (1985). Item response theorey:Principles and applications. Boston,MA:Kluwer-Nijhoff.

Johnsonbaugh, R. and Schaefer, M. (2004).Dynamic programming ,algorithms,P.323.

Lee, J.(2003).Diagnosis of bugs in multi-column subtraction using Bayesian networks.

Unpublished ph.D., Columbia University.

Mislevy, Robert J., Almond, Russell G., Lukas, Janice F.(2003).A Brief Introduction to Evidence-Centered Design.

Vomlel, J.(2002). Evidence Propagation in Bayesian Networks for Computerized Adaptive Testing .Aalborg University .http://www.cs.auc.dk/~jirka

Vomlel, J.(2003).Bayesian Networks in Educational Testing Testing.http://utia.cas.cz/vomlel/.

Vomlel, J.(2004). Building adaptive tests using Bayesian networks.

Kybernetika –Volume 40(2004),Number 3,p.333-348

附錄一施測試題

附錄二面積貝氏網路二元計分分類決斷值之辨識率

(引自許雅菱，民 94) 分類決斷值辨識率

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

b 1 81.54% 78.46% 86.92% 79.23% 82.31% 82.31% 80.77% 89.23% 87.69%

b 2 65.39% 76.15% 90.77% 90.00% 81.54% 84.62% 93.08% 83.85% 88.46%

b 3 63.85% 67.69% 69.23% 65.39% 68.46% 66.92% 55.39% 65.39% 55.39%

b 4 84.62% 83.08% 87.69% 81.54% 90.00% 83.85% 82.31% 82.31% 80.00%

b 5 66.15% 80.00% 90.00% 87.69% 82.31% 82.31% 91.54% 83.08% 85.39%

平均 72.31% 77.08% *84.92% 80.77% 80.92% 80.00% 80.62% 80.77% 79.39%

sk 1 81.54% 73.08% 76.15% 70.00% 75.39% 77.69% 72.31% 69.08% 73.08%

sk 2 68.54% 71.54% 75.39% 71.54% 81.54% 78.46% 60.77% 75.39% 77.69%

sk 3 72.31% 73.08% 73.85% 75.39% 70.00% 83.85% 69.85% 73.08% 63.85%

sk 4 80.77% 83.08% 84.62% 76.15% 93.85% 80.77% 92.31% 80.62% 91.54%

sk 5 66.77% 70.15% 73.85% 70.77% 75.39% 71.54% 70.39% 78.08% 70.00%

平均 73.99% 74.19% 76.77% 72.77% *79.23% 78.46% 73.13% 75.25% 75.23%

*表示最高的平均辨識率；著色部分代表在同一決斷值下不同的錯誤類型與子技能的最高辨識率處，選出這些分類決斷值形成一個集合，稱為動態分類決斷值。

在文檔中以貝氏網路為基礎的適性測驗電腦化的可行性評估-以國小數學科診斷測驗為例 (頁 51-62)

第一節 選題數不同的適性選題分類正確率的比較

0.4

第二節 使用固定試題數和 18 題全做的比較

第三節 使用演算停止閥值方式和 18 題全做的比較

第五章 結論與建議

第一節 結論