LSA 造句自動化計分評估之成效

第四章研究結果與討論

第三節 LSA 造句自動化計分評估之成效

本研究在此節先敘述國小六年級學童在以字造句與以詞造句的表現，接著評估 LSA 造句自動化計分（以字造句、以詞造句）與專家評分之成效，最後進行綜合討論。

壹、國小六年級學童在以字造句與以詞造句之表現

LSA_entropy 為加入 entropy 權重後計算所得到的分數；LSA_1 計分為利用本研究所發展的詞彙重要性指標 1 作為詞彙加權計分計算而得到的分數；LSA_2 計分則是利 LSA_entropy計分 111.62 13.49 52.99 119 LSA_1計分 111.33 13.52 52.77 119 LSA_2計分 111.53 13.47 53.23 119 LSA_3計分 113.04 13.42 49.44 119

以詞造句

專家評分 _61.14 _12.14 ₁₀ ₇₄ LSA計分 70.01 9.05 14.94 74 LSA_entropy計分 69.84 9.13 13.17 74 LSA_1計分 69.84 9.13 13.34 74 LSA_2計分 69.85 9.16 12.90 74 LSA_3計分 70.02 9.05 14.94 74 註記：1.所有數據皆四捨五入到小數第二位。

貳、LSA 造句自動化計分與專家評分之成效

本研究的造句測驗分為以字造句與以詞造句兩個測驗，本研究就兩個測驗評估 LSA 造句自動化計分與專家評分結果之成效的研究結果分別說明。其中表 4-14 為以字造句 LSA 自動化計分與專家評分之相關程度，表 4-15 為以詞造句 LSA 自動化計分與專家評分之相關程度。

表4-14專家評分與LSA造句自動化計分之相關矩陣-以字造句

1 2 3 4 5 6

1.專家評分 ─ .776** .817* .821** .817** .738**

2.LSA ─ .991** .990* .991** .980**

3.LSA_entropy ─ .998** .999** .964**

4.LSA_1 ─ .999** .963**

5.LSA_2 ─ .963**

6.LSA_3 ─

*p<.05 **p<.01

表4-15專家評分與LSA造句自動化計分之相關矩陣-以詞造句

1 2 3 4 5 6

1.專家評分 ─ .678** .684* .683** .682** .678**

2.LSA ─ .999** .999* .999** .999**

3.LSA_entropy ─ .999** .999** .997**

4.LSA_1 ─ .999** .997**

5.LSA_2 ─ .997**

6.LSA_3 ─

*p<.05 **p<.01

根據表 4-14 的研究結果，在以字造句測驗部分，專家評分與未考慮詞彙權重的 LSA 自動化計分呈現顯著高度相關（r = .776）；而加入 entropy 詞彙權重的 LSA 自 動化計分與專家評分也呈現顯著高度相關（r = .817）；加入本研究所發展的詞彙重 要性指標則一樣分別呈現顯著高度相關（r = .821 和 r = .817）；而馮樹仁所使用的詞 彙加權方法得到的自動化計分與專家評分也是呈現顯著高度相關（r = .738）。

表 4-15 則是呈現以詞造句測驗的研究結果，未考慮詞彙權重的 LSA 自動化計分 與專家評分呈現顯著高度相關（r = .678）；加入 entropy 詞彙權重的 LSA 自動化計分 與專家評分一樣呈現顯著高度相關（r = .684）；而本研究所發展的詞彙重要性指標 也一樣分別呈現顯著高度相關（r = .683 和 r = .682）；馮樹仁所使用的詞彙加權方法 得到的自動化計分與專家評分也是呈現顯著高度相關（r = .678）。

參、綜合討論

根據表 4-14 與表 4-15 呈現的研究結果，LSA 自動化計分模式與專家評分之間有顯著的高相關，本研究比較五種 LSA 計分模式在以字造句測驗部分，未考慮詞彙加 重要性加權的 LSA 計分模式與專家評分之間相關性較低（r = .776），而以 LSA_1 計分模式，即是本研究所發展的詞彙重要性指標 1 與專家評分之間有較高的顯著相關 性（r = .821）；而三種加入詞彙重要性加權（LSA_entropy、LSA_1、LSA_2）的計 分模式與專家評分的相關性皆高於未考慮詞彙加重要性加權的 LSA 計分模式，顯示句子中每個詞彙重要性並不相同，加入詞彙重要性可以提升 LSA 在造句計分時與專家評分的準確性。而以詞造句測驗部分雖然五種 LSA 計分模式也呈現顯著高度相關

（r 介於.678 和.684 之間），但是如果與以字造句進行比較，其與專家評分相關性明顯低於以字造句測驗的計分。

本研究進一步探討，發現在利用 LSA 進行比對受試者所造的句子答案與標準答案的語意相似度時，需先將句子進行斷詞處理，因為 LSA 的句子語意相似度比對是以句子中的關鍵詞彙為主，例如句子為藍藍的天空很美麗，將句子進行斷詞後即成

為藍藍的/天空/很/美麗，LSA 是依這些詞彙與其他句子的關鍵詞彙進行詞彙的語意相似度計算而得到句子之間的語意相似度。而在以字造句測驗是以字為單位讓學童去進行字的排列組合組合成一個正確的句子，這關係到學童對於字組成詞的詞素能力，學童必須由這些字先去組成有意義的詞彙，再由詞彙去組成完整的句子；如果學生詞素能力較低，則在以字造句測驗部分即無法將字組成一個正確的詞彙，造成句子在進行斷詞時會與標準答案句子所包含的詞彙有所差異，進而在進行 LSA 句子語意相似度比對時得到較低的餘弦值（cosine），因此會得到較低的分數。根據研究結果顯示在以字造句測驗可以反映學生的詞素能力，也可以測得學生由詞素去組成中文句子的建構能力，其分數與專家評分有較好的相關程度。

在以詞造句測驗部分，因為測驗中已先將詞彙建構完成，讓學童由這些詞彙去組成一個句子，但這樣即無法完全測得學生對於詞彙的意義與熟悉程度。而根據 LSA 句子比對是以句子中的關鍵詞進行兩句子之間的語意相似度比對，假如正確句子為藍藍的天空很美麗，其詞彙包含藍藍、的、天空、很、美麗，其學生如果不了解詞彙組成句子的規則或是不了解某一詞彙的意思，但仍將這五個詞彙進行排序，例如利用藍藍的/天空/很/美麗這四個詞彙進行排列組合，學生組合成美麗很藍藍的天空，這在 LSA 句子相似度比對與正確答案的 cosine 值是 1，但此句子的句法是不對的，因此在以詞造句測驗會有造成誤判的情形出現。某些受試者的句子可能是不對的但藉由 LSA 計分而得到較高的分數，所以研究結果與專家評分的相關程度才會比較低。

在文檔中以潛在語意分析評估詞彙重要性及其應用 (頁 47-51)

第四章 研究結果與討論

第三節 LSA 造句自動化計分評估之成效

壹、國小六年級學童在以字造句與以詞造句之表現

貳、LSA 造句自動化計分與專家評分之成效

參、綜合討論

第四章研究結果與討論