• 沒有找到結果。

LSA 造句自動化計分評估之成效

第四章 研究結果與討論

第三節 LSA 造句自動化計分評估之成效

本研究在此節先敘述國小六年級學童在以字造句與以詞造句的表現,接著評估 LSA 造句自動化計分(以字造句、以詞造句)與專家評分之成效,最後進行綜合討 論。

壹、國小六年級學童在以字造句與以詞造句之表現

LSA_entropy 為加入 entropy 權重後計算所得到的分數;LSA_1 計分為利用本研究所 發展的詞彙重要性指標 1 作為詞彙加權計分計算而得到的分數;LSA_2 計分則是利 LSA_entropy計分 111.62 13.49 52.99 119 LSA_1計分 111.33 13.52 52.77 119 LSA_2計分 111.53 13.47 53.23 119 LSA_3計分 113.04 13.42 49.44 119

以詞造句

專家評分 61.14 12.14 10 74 LSA計分 70.01 9.05 14.94 74 LSA_entropy計分 69.84 9.13 13.17 74 LSA_1計分 69.84 9.13 13.34 74 LSA_2計分 69.85 9.16 12.90 74 LSA_3計分 70.02 9.05 14.94 74 註記:1.所有數據皆四捨五入到小數第二位。

貳、LSA 造句自動化計分與專家評分之成效

本研究的造句測驗分為以字造句與以詞造句兩個測驗,本研究就兩個測驗評估 LSA 造句自動化計分與專家評分結果之成效的研究結果分別說明。其中表 4-14 為以 字造句 LSA 自動化計分與專家評分之相關程度,表 4-15 為以詞造句 LSA 自動化計 分與專家評分之相關程度。

表4-14專家評分與LSA造句自動化計分之相關矩陣-以字造句

1 2 3 4 5 6

1.專家評分 ─ .776** .817* .821** .817** .738**

2.LSA ─ .991** .990* .991** .980**

3.LSA_entropy ─ .998** .999** .964**

4.LSA_1 ─ .999** .963**

5.LSA_2 ─ .963**

6.LSA_3 ─

*p<.05 **p<.01

表4-15專家評分與LSA造句自動化計分之相關矩陣-以詞造句

1 2 3 4 5 6

1.專家評分 ─ .678** .684* .683** .682** .678**

2.LSA ─ .999** .999* .999** .999**

3.LSA_entropy ─ .999** .999** .997**

4.LSA_1 ─ .999** .997**

5.LSA_2 ─ .997**

6.LSA_3 ─

*p<.05 **p<.01

根據表 4-14 的研究結果,在以字造句測驗部分,專家評分與未考慮詞彙權重的 LSA 自動化計分呈現顯著高度相關(r = .776);而加入 entropy 詞彙權重的 LSA 自 動化計分與專家評分也呈現顯著高度相關(r = .817);加入本研究所發展的詞彙重 要性指標則一樣分別呈現顯著高度相關(r = .821 和 r = .817);而馮樹仁所使用的詞 彙加權方法得到的自動化計分與專家評分也是呈現顯著高度相關(r = .738)。

表 4-15 則是呈現以詞造句測驗的研究結果,未考慮詞彙權重的 LSA 自動化計分 與專家評分呈現顯著高度相關(r = .678);加入 entropy 詞彙權重的 LSA 自動化計分 與專家評分一樣呈現顯著高度相關(r = .684);而本研究所發展的詞彙重要性指標 也一樣分別呈現顯著高度相關(r = .683 和 r = .682);馮樹仁所使用的詞彙加權方法 得到的自動化計分與專家評分也是呈現顯著高度相關(r = .678)。

參、綜合討論

根據表 4-14 與表 4-15 呈現的研究結果,LSA 自動化計分模式與專家評分之間有 顯著的高相關,本研究比較五種 LSA 計分模式在以字造句測驗部分,未考慮詞彙加 重要性加權的 LSA 計分模式與專家評分之間相關性較低(r = .776),而以 LSA_1 計 分模式,即是本研究所發展的詞彙重要性指標 1 與專家評分之間有較高的顯著相關 性(r = .821);而三種加入詞彙重要性加權(LSA_entropy、LSA_1、LSA_2)的計 分模式與專家評分的相關性皆高於未考慮詞彙加重要性加權的 LSA 計分模式,顯示 句子中每個詞彙重要性並不相同,加入詞彙重要性可以提升 LSA 在造句計分時與專 家評分的準確性。而以詞造句測驗部分雖然五種 LSA 計分模式也呈現顯著高度相關

(r 介於.678 和.684 之間),但是如果與以字造句進行比較,其與專家評分相關性明 顯低於以字造句測驗的計分。

本研究進一步探討,發現在利用 LSA 進行比對受試者所造的句子答案與標準答 案的語意相似度時,需先將句子進行斷詞處理,因為 LSA 的句子語意相似度比對是 以句子中的關鍵詞彙為主,例如句子為藍藍的天空很美麗,將句子進行斷詞後即成

為藍藍的/天空/很/美麗,LSA 是依這些詞彙與其他句子的關鍵詞彙進行詞彙的語意 相似度計算而得到句子之間的語意相似度。而在以字造句測驗是以字為單位讓學童 去進行字的排列組合組合成一個正確的句子,這關係到學童對於字組成詞的詞素能 力,學童必須由這些字先去組成有意義的詞彙,再由詞彙去組成完整的句子;如果 學生詞素能力較低,則在以字造句測驗部分即無法將字組成一個正確的詞彙,造成 句子在進行斷詞時會與標準答案句子所包含的詞彙有所差異,進而在進行 LSA 句子 語意相似度比對時得到較低的餘弦值(cosine),因此會得到較低的分數。根據研究 結果顯示在以字造句測驗可以反映學生的詞素能力,也可以測得學生由詞素去組成 中文句子的建構能力,其分數與專家評分有較好的相關程度。

在以詞造句測驗部分,因為測驗中已先將詞彙建構完成,讓學童由這些詞彙去 組成一個句子,但這樣即無法完全測得學生對於詞彙的意義與熟悉程度。而根據 LSA 句子比對是以句子中的關鍵詞進行兩句子之間的語意相似度比對,假如正確句子為 藍藍的天空很美麗,其詞彙包含藍藍、的、天空、很、美麗,其學生如果不了解詞 彙組成句子的規則或是不了解某一詞彙的意思,但仍將這五個詞彙進行排序,例如 利用藍藍的/天空/很/美麗這四個詞彙進行排列組合,學生組合成美麗很藍藍的天 空,這在 LSA 句子相似度比對與正確答案的 cosine 值是 1,但此句子的句法是不對 的,因此在以詞造句測驗會有造成誤判的情形出現。某些受試者的句子可能是不對 的但藉由 LSA 計分而得到較高的分數,所以研究結果與專家評分的相關程度才會比 較低。

相關文件