實驗結果討論

第四章實驗設計

第五節實驗結果討論

根據上述實驗結果，研究者分別針對自動批改結果及規則計分法效能分析進行討論，另外，我們也對實驗樣本對結果造成的可能影響進行分析。

一、規則計分法效能分析

從表 4-9 和 4-10 可以看出，每個規則的正確排除率平均都有 70%以上，而且規則計分法的排除率平均高於 53.5%，這代表了規則計分法的排除效能是可接受的，但是經由概念比對所找到的動名詞對，可能有一半以上無法代表待批改反應的概念。

從表 4-11 可以看出，不同的題目的整體正確排除率不盡相同，其中最高的第 10 題和最低的第 4 題相差了 16%的正確率差距，主要的原因跟答案的範圍有關。研究者在分析規則的正確排除率時發現，受詴者在第 10 題的所寫的反應差異很大，因此透過規則計分法較能排除較不相近的概念，使得正確排除率比較高。而在第 4 題中學生寫的反應雖然較為集中，而且提出的作法也較為單純，

但是學生針對相同作法的表達詞彙不一，或是使用到了專有名詞，使得規則計分法無法正確保留相同的概念，造成正確排除率較低。

在表 4-15 中，我們可以看到分析代號 H0的數值最大，平均比例為 56.8%，

這代表了子規則 2 要處理的動名詞對比貣其他子規則來得多。而在表 4-16 中，

每題的透過規則直接給分的效能不一，其中第 4 題的效能良好，達到令人滿意

的水準，但是有些題目的給分效能仍偏低，有可能是某些特定的題型較不適合使用規則計分法給分。另外最多相同詞重複規則、非同義動名詞對優先規則、

非半動名詞對優先規則及反應相似優先規則，這四個規則在規則計分法的篩選流程中都排在後陎，以致於可分析的動名詞對或反應數較少，造成透過這四個規則直接給分的反應數平均最多只有 5.8 個，這樣的分析結果可能無法代表這些規則真正的直接給分效能。

以下我們再根據規則計分法中的 6 個規則的效能進行細部討論。

1、高鑑別度詞優先規則

從表 4-12 和 4-9 可以看出，本規則的排除個數很多，正確排除率也較高，

但在表 4-16 中，使用本規則直接給分的效能除了第 4 題之外，其他題目的給分給分效能並不佳。本規則排除數量較多，有可能是因為在批改流程中排序為第一的關係，而排除錯誤的原因可能在於當概念比對後找到的動名詞對，與待批改反應所形成的動名詞對，雖然擁有相同的概念，但是教師卻對相同的概念給予差距超過三分的分數，使得本規則會將相有的概念排除，造成排除錯誤。給分效能不佳的原因則有可能是因為保留下來的動名詞對可能不足以代表原反應的概念。

2、原文重疊率規則

從表 4-12 和 4-9 可以看出，本規則也可排除的動名詞對個數相較於其他規

則最多，但是正確排除率較低，而透過本規則直接給分的效能在第 4、第 7 及第

8 題中，精確率和正確率都達到令人滿意的結果。排除錯誤的原因在於經概念比對後找到的反應雖然和待評分反應擁有相同的概念，但是當找到的反應和待評分反應所使用到的相同詞彙太少時，會被優先排除，尤其是當反應字數越少時，

越有可能發生此種情形，要解決這方陎的問題，可能需要調降此規則的門檻值。

3、最多相同詞重複規則

從表 4-12 和 4-9 可以看出，本規則排除的數量較少，但是正確排除率的效能還算不錯，排除數量較少是因為本規則排在篩選流程的後陎，其可分析的動名詞對個數相對的也就比較少。在表 4-16 中，本規則直接給分的效能雖然尚可接受，但是分析的平均個數只有 4.6 個，過少的分析個數可能無法看出本規則的直接給分效能。由於本規則會保留和待評分反應擁有超過門檻值詞彙的反應，

排除錯誤的原因為當概念比對後找到的反應，和待評分反應只有一個相同詞彙時，會被排除。

4、非同義動名詞對優先規則

從表 4-12 和 4-9 可以看出，本規則能排除掉為數不少的動名詞對個數，而且正確排除率效能良好。在表 4-16 中，本規則直接給分的效能並不佳，但是其分析的平均個數只有 5.8 個，過少的分析個數可能無法看出本規則的直接給分效能。此規則排除錯誤的原因在於經概念比對後找到的同義動名詞對，雖然經過

了動名詞的轉換，但是仍然和待評分反應擁有相同的概念。

5、非半動名詞對優先規則

從表 4-12 和 4-9 可以看出，本規則排除掉的動名詞對數量並不多，而且平均正確排除率是所有規則中最低的。排除的動名詞對數量不多可能是本規則位於計分流程的後段，造成可排除的動名詞對並不多。在表 4-16 中，本規則直接給分的效能並不佳，但是其分析的平均個數只有 1.5 個，過少的分析個數可能無法看出本規則的直接給分效能。而在排除錯誤率分析方陎，有些單一動詞就可以代表句子的概念，因此排除半動名詞對所代表的概念，仍然有可能會排除錯誤。

6、反應相似優先規則

從表 4-12 和 4-9 可以看出，篩選的數量比貣其他規則相對的較少，但是正確排除率達到可接受的效能。在表 4-16 中，本規則直接給分的精確率不佳，但是正確率達到良好的標準，另外其分析的平均個數只有 1.8 個，過少的分析個數可能無法看出本規則的直接給分效能。有些反應雖然和待評分反應只有一對相同的動名詞對，但是卻也可能表達了相同的概念，但是此反應所產生的動名詞對有可能會被本規則排除，而造成排除錯誤的情形發生。

二、實驗樣本的影響

本實驗顯示本文所提之方法有相當好的效果，然而距離可應用階段所需的正

確率仍有差距，以下我們討論幾項可能降低本實驗正確率的因素，做為未來進一步研究的參考。

第一點為教師評分不一致的問題。這個問題可細分為教師間對同一題目評分不一致和單一教師對類似反應評分不一致兩個類型。我們從三位老師的給分分佈可以看出教師間給分不一致的現象，由於教師間對同樣題目的評分不一致，

代表教師對反應中該得高分的好概念和該得低分的不好概念沒有共識，使得本研究只能分別採用三位教師的給分作為訓練樣本，若是教師間評分一致，可以以三位教師的平均給分作為訓練樣本的分數來源，這樣的批改結果理論上來說可能會比以單一教師的給分做為訓練樣本來得準確。而單一教師對類似反應評分不一致，使得以比對相同概念為主的規則計分法即使找到了和待評分反應相同的概念，但是教師在對於含有相同概念的反應的給分不一致，可能會影響規則計分法給分的正確性。我們相信若事先先將教師加以訓練，使得老師的評分標準獲得更一致的控制，以訓練過的教師給分作為實驗樣本，可能可以讓批改效能提升。

第二點是樣本數量的問題。本實驗中每題平均的樣本數量為 186.5 個反應，

在進行概念比對時可能會有比對不到或是比對數量不足的情況發生，這些情形都會影響到系統評分的正確性。我們相信樣本數的數量越多，批改的正確性可能會越高，但是在本研究中樣本數過少，故無法提出多少樣本才是個適當的數

量，而這也待未來的研究進行更深入的探討。

第三點為題目的差異。理論上當題目的作答範圍較窄或是學生答題用詞較為類似時，可以比對到相同概念的機率也就越高，使得批改的效能越好，反之，

若是題目的概念是較不易比對到的，比對的誤差可能也會因此增加。但是要如何判斷題目的好壞，在本研究中很難判斷，必頇要累積更多的經驗，才能夠找出哪些題目是較適合這類的系統來評分。

在文檔中擴展反應型論述題反應之自動化評估方法－以教師教學能力為例 (頁 92-98)

第四章 實驗設計

第五節 實驗結果討論

第四章實驗設計

第五節實驗結果討論