實驗結果與討論 - 英文學習者文章摘要結果自動化評分技術

本研究依系統流程共有三部份的實驗，第一部份是評估英文文章分類的效果，

第二部份是評估系統找出主角的正確率，第三部份是評估對學生答案自動化評分的正確率。以下將介紹實驗資料來源以及實驗結果。

6-1 文章類型自動分類實驗 6-1-1 實驗資料來源及評估方法

本研究中所使用的英文文章由英語系教師提供，以適合國中階段學生閱讀為主的英文文章，將非本研究所研究之類型的文章刪去後，共有 27 篇文章，其中有 22 篇敘述類型文章，5 篇對話類型文章。由於對話及敘述類型文章數量差異較大，

因此由一個英文網站再取 12 篇英文文章，共 39 篇文章做為實驗資料。

我們將英語系教師對於文章類型的判斷做為標準答案，與系統分類出的結果計算系統分類的正確率。

6-1-2 實驗結果

根據 3-1 小節所提出的特徵及分類的方法，以 3-fold crossvalidation 方法測試，

根據系統分類預測的結果，與文章類型比對後，得到文章類型預測正確率為 100%。

分類預測結果如下表 10 所示。表 10 所示，當敘述與對話文章數量差異不大時，

系統預測文章的類型可以得到很好的效果。

表 10 文章類型預測結果 文章類型預測結果

敘述對話總計 recall

文章類型實際結果

敘述 22 0 22 100%

對話 0 17 17 100%

總計 22 17 39

precision 100% 100% Accuracy

=100%

6-2 主角問答題實驗

6-2-1 實驗資料來源及評估方法

本研究中所使用的英文文章由英語系教師提供，以適合國中階段學生閱讀為主的英文文章，將非本研究所研究之類型的文章刪去後，共有 27 篇文章。

我們將現職英語教師的主角答案做為標準答案，與系統自動找出的主角詞彙結果做比對，使用 4-3-2 節所提出的評分公式計算分數值，評估系統自動找出主角的效果。

6-2-2 實驗結果

根據第四章所提出的建立語意關係圖及計算重要性分數的方法，系統可以自動找出文章中的主角詞彙。由於系統找出的主角詞彙以及現職英語教師的主角結果如表 10 所示，我們使用 4-3-2 節公式計算分數值。不同的語意關係圖的建立方

法，所找出的主角詞彙也不相同，其詳細結果記錄於附錄一。

表 11 統計三種不同的語意關係圖所找出的主角詞彙與教師答案比較之分數效果，可看出在 27 篇文章中，無方向性語意關係圖方法所找出的主角詞彙與教師答案完全相同的數量最多，雙向語意關係圖與單向語意關係圖方法則是都可找出所有文章中的主角詞彙。

表 11 各語意關係圖主角詞彙分數統計

分數值 無方向性語意關係圖 雙向語意關係圖 單向語意關係圖

1.00 10 8 5

0.50~0.99 8 8 9

0.01~0.49 7 11 13

0.00 2 0 0

由附錄一表 19 可看到無方向性語意關係圖方法中，有兩篇文章無法找出主角詞彙，若是我們將門檻值降低，則會造成系統會將語意關係圖中一半以上的語意節點視為主角詞彙，使得所有文章的分數值皆下降，因此不調整門檻值。

由附錄一表 20 及表 21 來看，雙向語意關係圖與單向語意關係圖方法中，教師所判斷的主角與系統找出的相似度小於 0.5 的文章，主要是由於系統找出了三個以上的主角，而教師在判斷主角時，大部份是三個以內，因此分數值較小。若是調整門檻值來減少系統找出的主角詞彙數量，則會造成少數文章中系統無法找出主角詞彙，因此為了讓系統能夠找出所有文章的主角詞彙，雙向語意關係圖的門檻值仍為 1.0，單向語意關係圖的門檻值仍為 0.7。

總結實驗，本研究的目的是希望能夠找出文章中的主要角色，因此雙向關係圖和單向關係圖的建立與計算重要性分數值方法較為適合。

6-3 文意理解敘述題實驗

6-3-1 實驗資料來源及評估方法

本研究中實驗對象是新北市蘆洲國中的國一學生，共 47 人，所使用的英文文章由英語系教師提供，選用其中 13 篇程度適合國一生的英文文章做實驗，所得到的學生摘要答案共有 375 個。教師評分則請兩位現職英語教師採用 5-1 小節的評分標準進行評分。

我們將現職英語教師的評分做為實際評分，與系統自動預測評分等級，計算系統預測分數的正確率。

6-3-2 實驗結果

根據第五章提出的特徵及評分模型建立的方法，以 5-fold crossvalidation 的方法進行測試。

【實驗一】文意理解敘述題自動評分效果

根據第四章所提出的三種建立語意關係圖及計算重要性分數的方法，使用第五章提出的特徵及評分模型建立方法，學生的答案預測等級與教師評分等級的混淆矩陣(confusing matrix)如表 12 所示。

表 12 學生摘要答案預測結果(5-fold)

表 13 學生摘要預測效果

correlation 0.4477 0.3871 0.4893

而實驗結果證實語意結構較完整的單向語意關係圖建立方法的效果較好，也就是說我們使用語意關係圖表示文章，透過比對兩個圖形進行等級評分是可行的。

【實驗二】摘要預測評分特徵值選取

我們使用 LIBSVM[3]系統的 classification 方法，透過 5-2 小節所提出的 22 種特徵值，評估學生摘要的語意符合程度，實驗結果如實驗一。為了增加摘要預測評分的正確率，我們從表 6 的 22 種特徵值中，選取合適的特徵值讓正確率增加。

我們使用刪去的方法來選取特徵值，每回合刪去一種特徵值使得正確率較未刪去前的正確率高，直到正確率不會再變高為止。

由於實驗一中可知，正確率最高的是單向語意關係圖建立方法，因此我們使用單向語意關係圖建立方法，選取合適的特徵值增加正確率。第一回合我們將所有 22 種特徵值，每次刪去任 1 種特徵值後計算正確率，將得到的 22 個正確率取其中最高的正確率，且此正確率較原先的正確率高。將選取出的正確率所對應的刪去特徵值刪去，剩下的 21 個特徵值則繼續第二回合的選取，直至正確率不會較前一回合的正確率高後停止，所得到的實驗結果如表 14。從表中我們可知道，第一回合刪去 F13 特徵值後，正確率為 59.81%，第二回合刪去 F14 後，正確率已提高至 62.08%，刪去五種特徵值後可使得正確率增加至 64.80%。

表 14 特徵值刪去

表 15 中可看出系統評分的三個等級的 precision 值皆高於 60%，表示系統的等級評分皆有 60%以上正確，A 等級的評分中 65 個評分有 48 個與教師評分相同。從 recall 值來看，教師評分等級中，C 等級共有 148 個，系統可正確評出 134 個，recall 值高達 90.54%。整體正確率有 64.80%，correlation 值則為 0.5069，表示系統預測等級與教師評分的有低度的相關程度。

我們發現在許多文章中，A 等級被預測成 C 等級的答案是由於學生使用非文章中的字詞來摘要，且這些字詞能夠涵蓋文章中語意，因此教師評分給予 A 等級，

但系統無法從文章語意關係圖中找出相同的字詞，因此影響特徵值的擷取，使得在預測評分的分類模型中，A 等級的答案與 C 等級的答案的特徵值較為相近，因此系統預測成 C 等級。如圖 16 的文章(Reading107)，表 16 為學生答案，文章中為作者一家人在早上六點鐘的作息，因此學生摘要中以 family 來表示，但文章中並沒有 family 字詞，因此比對時明顯影響特徵。

圖 16 文章範例三：有明確字詞文章

It’s six o’clock now. My mother is cooking in the kitchen. My father is working in his office. My brother is taking a shower. My grandma is watching TV in the living room. My grandpa is reading a book and drinking tea. They are all busy. What am I doing now? Ha! Ha! I’m playing my computer games in my bedroom!

表 16 文章範例三學生摘要答案及預測分數 members are doing different things.

B A The writer is talking about what the family do in six o'clock.

C A What is family do at six o'clock.

A A Wise packing is very important for Jane. Jane travels from countries to countries.

B B Jane travels on business, and why does she prepare carry-on bag .

C C It talk us that "a plan outfit" is good for traveling

Jane is a secretary in a big company. She travels from country to country on business. Sometime she visits countries of different weather in a short time. Therefore, wise packing is very important for her.

Jane has a packing list for her travelling. She puts all things on the list into a carry-on bag and calls them “a plane outfit.” This plane outfit means everything necessary for her plane ride. Look at Jane’s outfit list below.

Maybe you can use this list for your own travel too.

以圖 17 文章範例三(Reading303)來看，這篇文章的主題是關於 Jane 旅行相關

從表 18 中可看出，文章中有明確重點字詞的正確率最低有 52.00%，最高的有 95.83%，平均正確率 71.46%，Correlation 值為 0.5012，可以知道文章中有明確重點字詞的效果比全部文章效果好。

總結實驗，我們所提出語意關係圖的建立及計算重要性分數的方法中，單向語意關係圖的建立及計算重要性分數值方法用來預測學生摘要等級效果較好，而文章中有明確重點字詞的平均正確率有 71.46%，表示我們的方法在此種類型文章有不錯的正確率。

在文檔中英文學習者文章摘要結果自動化評分技術 (頁 47-59)