英文學習者文章摘要結果自動化評分技術

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：柯佳伶. 博士. 英文學習者文章摘要結果自動化評分技術 Document Summarization Automatic Scoring for English Learners. 研究生：黃楨喻中華民國. 一百零三年. 撰七月.

(2) 摘要英文學習者文章摘要結果自動化評分技術黃楨喻. 英語為我國語文教學的一門重要科目。以往的研究顯示，大量的閱讀能增進語文能力，但學生在閱讀後是否理解內容則需要適當的評估方式。文章主角及內容摘要的非選擇問題可瞭解學生是否理解文章內容，但此類型的問答題，若由教師進行評分需花費許多時間，因此本研究將文章摘要問答題進行自動化評分，將可加速評估回饋並增加學生練習的機會。本研究從文章內容擷取特徵，使用機器學習的方法建立模型，進行文章類型自動分類，以挑選合適的文意理解問答題。針對學生回答的摘要結果自動化評分，本研究不需要教師提供答案，而是將英文文章及學生的摘要分別建立語意關係圖，運用語意關係圖計算出各字詞在文章及摘要內容中的重要性，並透過比對英文文章及學生摘要的語意關係圖，取出各種比對特徵，以機器學習的方法建立預測評分等第的分類模型，用來對學生回答的摘要進行語意符合程度自動化評分。實驗結果顯示，本研究所提出的方法在文章有明確的字詞表達文章重點時，可達到不錯的正確率。. 關鍵字：自動化評分、文章摘要、語意關係圖.

(3) ABSTRACT Document Summarization Automatic Scoring for English Learners by Chen-Yu Huang. English is an important subject of language teaching in our country. Previous studies have shown that a lot of reading can enhance language ability, but it needs appropriate assessment methods to judge that whether students understand the contents after reading. The open questions about article's main role and article's summarization can evaluate whether students understand the content of an article. However, such kind of questions need a lot of time of scoring by teacher. The main goal of this study is to provide automatic scoring for the summarization questions of articles. Accordingly, the students can get evaluation feedback in short time such that it can provide more opportunities for students to practice. In our study, we extract the different features from the content of the article. After that, the machine learning method is used to establish classification model for two article types. According to the article type, suitable questions are selected to be the summarization questions. In the proposed system, teachers are not required to provide answers. Instead, the article and the students' summarizations are represented by semantic graphs in order to calculate the importance score of each word in the article and the students' summarizations, respectively. Then the semantic graphs of the article and the students' summarizations are compared to extract the matching features. Finally, the machine learning method is used to establish the classification model of automatic scoring for the given summarizations. The experiment results show that the proposed method can achieve high accuracy when the articles have distinguishable words to express its focus.. Keywords：automatic scoring、document summarization、semantic graph.

(4) 誌謝能順利完成這份研究，首先要感謝我的指導教授─柯佳伶老師。感謝老師的細心指導，不僅僅在於專業領域的知識傳授，在對於解決問題以及處理事情的態度和方法上，老師也不吝指導及分享經驗，讓我收穫許多，真的非常感謝老師的指導和幫助。也感謝吳宜鴻教授與徐嘉連教授在百忙之中抽空擔任我的口試委員，並提供許多寶貴的意見，使這份研究更加完善。感謝我的同學─舜宸、懿萱跟張崴，在研究所的兩年，無論是修課或是進行研究，我們總是一起努力，一起討論解決問題，很開心能夠與大家相遇成為同學，謝謝你們這兩年來的照顧！另外也謝謝碩一學弟妹思涵、培豪、紹峻和聖池，在研究實驗階段時，不遺餘力的幫助我進行實驗，在我們忙著撰寫論文和準備口試時，幫我們準備相關的事情。特別感謝助理于立幫忙到國高中實地取得實驗數據，學弟培豪架設網頁處理實驗相關事項，讓我順利完成實驗。感謝我的家人長久以來的養育及支持，讓我能夠無後顧之憂的完成學業，以及在我遇到困難時給予關心和建議！也感謝我的朋友在我煩惱時陪我聊天，給予我關心和鼓勵。因為有大家的支持與關心，我才能夠順利完成學業，在此對大家獻上最大的謝意，謝謝你們!!. 黃楨喻謹識於國立臺灣師範大學資訊工程研究所中華民國 103 年 8 月.

(5) 目錄附表目錄.......................................................................................................................... i 附圖目錄......................................................................................................................... ii 第一章 1-1 1-2. 緒論............................................................................................................. 1 研究動機及目的......................................................................................... 1 研究的範圍與限制..................................................................................... 2. 1-3 1-4. 研究方法..................................................................................................... 3 論文架構..................................................................................................... 4. 第二章 2-1 2-2 2-3 2-4. 文獻探討..................................................................................................... 5 文章分類方法............................................................................................. 5 自動產生問題系統..................................................................................... 5 概念圖理論................................................................................................. 6 自動化評分方法......................................................................................... 7. 第三章 3-1 3-2. 系統架構與流程......................................................................................... 9 產生文意理解問答題................................................................................. 9 自動化評分............................................................................................... 10. 第四章 4-1 4-2 4-3. 主角問答題自動評分............................................................................... 12 語意關係圖建立....................................................................................... 12 重要性分數計算....................................................................................... 20 主角問答題答案評分............................................................................... 25 4-3-1 主角詞彙挑選............................................................................... 25 4-3-2 主角詞彙比對評分....................................................................... 27. 第五章 5-1 5-2. 文意理解敘述題自動評估....................................................................... 29 教師評分的標準....................................................................................... 29 文意理解敘述題答案評分方法............................................................... 29 5-2-1 文章與答案之語意表示模型....................................................... 29 5-2-2 比對特徵擷取............................................................................... 32 5-3 評分模型建立及預測............................................................................... 38. 第六章 6-1. 實驗結果與討論....................................................................................... 39 文章類型自動分類實驗........................................................................... 39 6-1-1 實驗資料來源及評估方法........................................................... 39.

(6) 6-1-2 實驗結果....................................................................................... 39 6-2 主角問答題實驗....................................................................................... 40 6-2-1 實驗資料來源及評估方法........................................................... 40 6-2-2 實驗結果....................................................................................... 40 6-3 文意理解敘述題實驗............................................................................... 42 6-3-1 實驗資料來源及評估方法........................................................... 42 6-3-2 實驗結果....................................................................................... 42 【實驗一】文意理解敘述題自動評分效果............................................... 42 【實驗二】摘要預測評分特徵值選取....................................................... 45 【實驗三】單向語意關係圖文意理解敘述題自動評分效果................... 46 第七章. 結論與未來研究方向............................................................................... 51. 參考文獻....................................................................................................................... 52 附錄一 1-1 1-2 1-3. 系統自動擷取主角詞彙結果................................................................... 54 無方向性語意關係圖的主角詞彙結果 ..................................................... 54 雙向語意關係圖的主角詞彙結果 ............................................................. 55 單向語意關係圖的主角詞彙結果 ............................................................. 57. 附錄二. 實驗資料(英文文章) .................................................................................... 59.

(7) 附表目錄表表表表表表表. 1 2 3 4 5 6 7(a). 文意理解問答題............................................................................................... 2 圖八節點對應表............................................................................................. 22 圖 10 無方向性語意關係圖計算出的重要性分數值................................... 26 圖 11 雙向語意關係圖計算出的重要性分數值 ........................................... 27 圖 12 單向語意關係圖計算出的重要性分數值........................................... 27 語意摘要評分標準......................................................................................... 29 GA 節點重要性分數值 ................................................................................. 31. 表表表表表表表表表表. 7(b) GS 節點重要性分數值 ................................................................................. 31 8 語意關係圖比對擷取特徵............................................................................. 32 9 範例 5-1 特徵值 ............................................................................................. 38 10 文章類型預測結果......................................................................................... 40 11 各語意關係圖主角詞彙分數統計 ................................................................. 41 12 學生摘要答案預測結果(5-fold) .................................................................... 43 13 學生摘要預測效果......................................................................................... 44 14 特徵值刪去..................................................................................................... 46 15 學生摘要答案預測結果(5-fold) .................................................................... 46 16 文章範例三學生摘要答案及預測分數......................................................... 48. 表表表表表. 17 18 19 20 21. 文章範例四學生摘要答案及預測分數......................................................... 48 文章預測評分正確率..................................................................................... 49 主角詞彙(無方向性語意關係圖) .................................................................. 54 主角詞彙(雙向語意關係圖) .......................................................................... 55 主角詞彙(單向語意關係圖) .......................................................................... 57. i.

(8) 附圖目錄圖圖圖圖圖圖圖. 1 2 3 4 5 6 7. 圖圖圖圖圖圖圖圖圖圖. 8 範例一文章的語意節點及語意關係............................................................. 17 9 範例一文章構成的無方向性語意關係圖..................................................... 18 10 範例一文章構成的雙向語意關係圖............................................................. 18 11 範例一文章構成的單向語意關係圖 ............................................................. 20 12 範例一計算重要性分數的雙向語意關係圖................................................. 21 13 範例一計算重要性分數的單向語意關係圖................................................. 25 14 學生答案......................................................................................................... 30 15(a) 文章語意關係圖 GA .................................................................................. 31 15(b) 學生答案語意關係圖 GS........................................................................... 31 16 文章範例三：有明確字詞文章..................................................................... 47. 圖 17. 產生文意理解問題系統流程......................................................................... 10 學生閱讀理解程度自動評分系統流程圖..................................................... 11 文章範例一：敘述類型文章......................................................................... 13 文章範例二：對話類型文章......................................................................... 13 詞性標記結果................................................................................................. 14 代名詞替代結果............................................................................................. 15 代名詞替代結果............................................................................................. 16. 文章範例四：無明確字詞文章..................................................................... 48. ii.

(9) 第一章緒論 1-1. 研究動機及目的語言是人們溝通的橋樑，讓人們表達彼此的意思。英語是國際共通語言，在. 我國的教育也將英語列為教學上的一門重要科目。英語的學習以聽、說、讀、寫這四大部分為主。教師在課堂上，可實際以口語英語教學，訓練學生聽說的能力，而讀寫的部分，多閱讀文章是一個可增進閱讀能力的方法，因所費的時間較多，較難在課堂上直接實際練習，常以作業的形式讓學生課後自行練習。有研究指出，在課後及時練習能使學生將學習內容充份吸收，因此若能在學生閱讀完一篇文章後，立刻進行讀寫能力的練習評量，可幫助學生回顧文章內容進而增加理解思考的機會。評量後的即時回饋也是件相當重要的事，可以即時讓學生知道自己回答的答案是否合適。為了檢測學生的閱讀理解程度，常以選擇題出題來進行閱讀測驗，這種出題方式方便於教師的批改，或電腦化自動測驗，但由於有選項可供學生選答，無法得知學生是否確實理解。另一種出題方式則是以問答題出題，此種出題方式沒有選項可提供選答，學生需要將自己的想法寫出答案。問答題在批改時老師需花較多時間，因此學校的評量較少使用此種出題方式。為了幫助學生回顧在閱讀文章內容後是否理解文章，可讓學生練習回答一般性文意理解問答題，例如文章中的主角有哪些?或是請學生以幾個句子摘要文章中的重點。而此類型的問題，若全部需由教師進行評分，需花費許多時間，使得學生無法得到即時的回饋，不容易大量練習。 1.

(10) 因此本研究針對英文文章，探討自動挑選出符合該文章類型的文意理解相關問答題目，並且在不需要教師給予的正確答案下，能對學生的答案與文意內容自動進行語意符合程度評分，以即時反應學生的閱讀理解程度。. 1-2. 研究的範圍與限制文章整體文意最基本的就是文章中的人、事、時、地、物，而其中人和物經. 常是一篇文章中的主角，如何自動從文章中找出這兩項基本要件是本研究的重點之一，因此本研究所使用的文章內容中，一定需要有人或物，因此可詢問學生文章中的主角是誰。此外文章中的句子需為具完整文法結構的句子，方便於自動分析文章結構，找出文章中的重要要件。表 1 文意理解問答題. 文章類型. 主角問答題. 敘述. Please write the leading role of this article.. 對話. Please write the leading role talked about in this dialogue.. 文意理解敘述題. Please use at most 3 sentences to summary this article.. 文意理解問答題共有兩種題目，如表 1 所示，第一種是詢問學生文章中的主角有哪些的主角問答題，第二種則是請學生在三個句子內摘要文章中的重點的文意理解敘述題。依照不同的文章類型，主角問答題的呈現形式會不同，本研究將文章分做兩種類型，一是以敘述為主的文章，第二是以對話為主的文章。以敘述為主的文章，主角問答題的題目為「Please write the leading role of this article.」。而以對話為主的文章，則是「Please write the leading role talked about in this 2.

(11) dialogue.」。因此本研究必須先自動判斷文章的類型後，挑選適合的問題形式給學生練習。敘述及對話的文意理解敘述題的問題形式相同，題目都是「Please use at most 3 sentences to summary this article.」。文意理解敘述題主要是想瞭解學生對於文章的理解程度，同時能夠訓練學生的書寫能力，因此假設學生回答的答案是完整的句子而非片斷的單字。請學生摘要這篇英文文章的重點，學生需用完整文法結構的句子，使用最多三個句子回答問題。本研究的目的是提供英文文章摘要結果自動化評分，因此如何對學生的答案與文章內容進行語意符合程度評分是本論文的主要研究內容。. 1-3. 研究方法本研究第一部份是挑選適合的文意理解問答題，提供給學生進行練習。由於. 不同文章類型所詢問的問題形式會有所不同，因此需要先將文章進行分類。本研究從文章中擷取出特徵，使用機器學習的方法建立模型，達到分類的目的，以挑選適合的文意理解問答題。文意理解問答題第一題是主角問答題，本研究根據名詞在文章中的文法結構關係建立出語意關係圖，使用圖形結構計算文章中的名詞重要性，透過圖形結構分析找出主角，與學生的答案進行比對後，可以評估學生的理解程度。第二題是文意理解敘述題，教師不需提供正確答案，本研究將英文文章及學生的答案皆建立成語意關係圖，計算英文文章及學生的摘要中的名詞重要性，並且透過比對文章及學生摘要的語意關係圖，得到各種特徵，最後使用機器學習的方法，建立各比對特徵用來預測老師評分等第的分類模型，用來對學生的答案進行語意符合程度自動評分。 3.

(12) 1-4. 論文架構本論文計劃書以下章節內容簡介如下：第二章說明相關文獻之探討。第三章. 說明本論文規劃之系統架構與流程。第四章為主角問答題評估的方法。文意理解敘述題自動化評分的方法則在第五章做介紹。第六章是實驗結果與討論，並在第七章總結本論文並提出未來研究方向。. 4.

(13) 第二章文獻探討隨著科技的進步，教師不再僅僅使用傳統的教學方法，而是將資訊科技導入教學之中，提升教學的品質，使得數位學習相關的研究得以蓬勃發展。與本研究相關的主要包含以下幾項研究：文章分類方法、自動產生問題系統、概念圖理論、以及自動化評分方法。以下我們將對此四項議題分別探討重要相關文獻。. 2-1. 文章分類方法文章的類型有許多種，敘述、對話、書信等等的，不同文章的類型，其文章. 內容的結構及重點也會有所不同，因此在摘要文章及分析文章之前，有其必要先將文章進行分類。分類最直覺作法就是透過觀察及分析定出許多的規則，這類的方法一般使用假設句”if…then…”的規則來分類。例如：一篇文章中若有出現冒號，則表示文章中有對話，可將文章分類為對話性文章。近年來較多使用機器學習的方法 [3]，將大量的訓練資料以及所採用的特徵，讓機器學習的工具學習，產生一個分類模型，測試資料放入後就可以透過模型判斷出資料的類別。. 2-2. 自動產生問題系統在學習的測驗評量上，電腦自動出題是近年來的一個研究主題，目的是希望. 能夠節省教師出題的時間及減輕教師的負擔。 [5] 使用電子科學領域的書籍為資料來源，運用術語的擷取以及自然語言處理的技術，擷取文章中的關鍵字詞，以關鍵字所在的句子為題目，從語料庫中選取相似語意及相反語意的字詞選取誘答選項，產生與書籍內容相關的多重選擇題。[1] [10] 則是在英語教學上，使用商業 5.

(14) 上及旅遊等文章作為素材(corpus)，TOEIC 測驗的資料作為測驗資料庫，使用自然語言處理的技術，找出文章中可以用來產生克漏字測驗的句子，將句子中的字詞使用 POS Tagger 及 Chunk 經過規則選取後，產生克漏字測驗題。[4] [11] 以英文閱讀測驗為研究主題，提出一個自動出題的做法，透過句法結構的分析、詞性分析以及 N-gram 統計分析，提出多重的策略，擷取閱讀的文章中具有特定句法結構的句子，以形成選擇題形式的閱讀測驗題。. 2-3. 概念圖理論概念是指對同類事物獲得概括性的單一認知經驗 [14]，並且可以運用舊有經. 驗形成概念判斷新的事物以形成新的概念。概念圖是一種簡單的圖形表示法，以圖形的方式來表示概念關係，將概念之間的關係視覺化。概念圖是由概念(concept)以及概念之間的連結關係(relation links) 所組成，兩個概念和概念之間的連結關係則形成敘述(proposition) 。概念圖(Concept map)是 Novak [7] 發展出的教學與學習策略，在學習上可以幫助學生建立學習概念，有效的改變學生的認知方式，提高教師的教學效果。 Novak [7] 指出概念圖具有下列幾項特性： 1.. 概念圖是組織知識和呈現知識的工具，包含概念（通常以圓圈或是方形框住）、連接線（連接兩概念）、連接詞（說明概念間的關連），概念和連接詞形成句子。. 2.. 概念的呈現是有階層性的，較一般化的、包含較廣的概念放在圖的上方，較專一的、包含較少的概念放在圖的下方。 6.

(15) 3.. 概念圖包含橫向連結，可以知道不同概念之間的關係。. 對學生而言，概念圖可以協助學生統整新舊知識，建立學生的認知架構，提高學生的自我統整能力、學習能力以及反思能力。由上述可知，透過概念圖可以幫助建立學習的概念，也就是說，一個概念圖可以表示用來建立概念圖的主題下的整體概念 [7] [15] ，換句話說就是一個概念圖就是整個主題的重點概念。因此若是建立一篇文章的概念圖，則此概念圖即涵蓋整篇文章的概念，則可透過這個概念圖瞭解整篇文章的重點，協助文章的摘要。 Krunoslav Zubrinic [12] 將文章中的名詞做為概念，動詞做為兩個概念節點之間的連結關係，將整篇文章建立出一個概念圖。本研究認為可透過運用概念圖之理論及方法作為評估理解程度之基礎。. 2-4. 自動化評分方法簡答評分系統是將學生的回答當作問題，人工定義的標準答案當作答案，判. 斷學生的答案是否合適，自動的評定一個分數值 [13] 。Bachman et al., 2002 [10] 提出了 WebLAS 系統 [2]，使用 regular expressions 比對人工定義的標準答案與學生的答案，評定一個分數值。Rose et al. 2003 [8] 提出了 CarmelTC 系統，將學生的答案做分類，分類的方法有分類樹( decision tree )、貝氏分類( Naïve Bayes text classifier)。之後機器學習的方法也被使用到了自動評分系統中， Pulman and Sukkarieh, 2005 [9] 的 Oxford 系統自動從標準答案中取出模組(template)，將學生的答案透過模組，使用機器學習的方法做分類。Mohler et al. 2011 [6] 使用剖析樹 (parser)工具將學生的回答及標準答案做標記，使用機器學習的方法來做分類，同時結合了語義詞彙相似度 (lexical semantic similarity) 使用 Latent Semantic 7.

(16) Analysis(LSA)，給予學生答案一個分數。以往的這些研究在分析方法上的改進與創新有很大的突破及發展，但使用的仍是人工定義的標準答案，系統在評估學生的答案前需要有一些人工定義好的標準答案。本研究希望可以系統自動化，不需要人工定義的答案，可以自動從文章中取出答案關鍵字，與學生的答案自動進行評估。. 8.

(17) 第三章系統架構與流程本研究實作一個系統，提供給教師及學生輸入一篇英文文章後，能自動產生文意理解問題讓學生練習，系統可自動對學生輸入的答案進行評分。本研究的架構主要可分做兩部分。一個是產生文意理解問題，另一部分則是自動化評分。. 產生文意理解問答題. 3-1. 本研究將文章分做兩種類型，敘述為主的文章，問答題的題目為「Please write the leading role of this article.」。而以對話為主的文章，則是「Please write the leading role talked about in this dialogue.」。因此本研究從文章中取出下列三種特徵進行分類： 1.. 文章中對話的句子數量。. 2.. 文章中連續對話句子的最大值。. 3.. 文章中對話句子的平均距離。. 圖 1 為產生文意問題的處理流程。根據上述三種特徵，本研究使用 [3] 提出的 LIBSVM 系統的 Classification 方法，系統會事先收集一定數量的文章，擷取每篇文章的特徵後，使用 support vector machine 建立分類模型。. 9.

(18) Article classification training. Automatic question selection. English article. English article Training data. Question selection. English article classification model. Questions. 圖 1. 3-2. 產生文意理解問題系統流程. 自動化評分如圖 2 所示，實線框為主角問答題自動評分流程，虛線框為文意理解敘述題. 自動評分流程。系統會將文章內容建立成一個語意關係圖，使用語意關係圖計算關係圖中的名詞重要性，透過分析找出主角，與學生的答案進行比對後，可以評估學生的理解程度。. 文意理解敘述題的評分，系統事先收集學生與教師的評分等第，使用 [3] 提出的 LIBSVM 系統的 Classification 方法，建立出一個用來預測教師評分的分類模型。將學生的摘要建立成一個語意關係圖，計算關係圖中的名詞重要性，透過比對文章及學生摘要所構成的語意關係圖，得到各種特徵，透過分類模型自動進. 10.

(19) 行評分。. 圖 2. 學生閱讀理解程度自動評分系統流程圖. 11.

(20) 第四章主角問答題自動評分本章將介紹建立英文文章的語意關係圖的方法，以及如何運用語意關係圖計算文章中名詞的重要性分數，找出文章中的重要名詞，以進行主角問答題自動評分。以下將分成兩小節分別介紹語意關係圖建立及計算重要性分數的方法。圖 3 及圖 4 所示為以下文中所使用之範例文章。. 4-1. 語意關係圖建立本研究根據文章中的文法結構關係建立出語意關係圖，分成以下三個主要處. 理步驟。. (一) 字詞標記處理本研究採用 Stanford [16] 提供的 Stanford Corenlp version 3.2.0 對文章中的每一個字詞進行詞性標記(part-of-speech tagging)以及指稱代名詞處理。Stanford Corenlp 中具有 POS Tagger 可以將文章中每一個字詞依據標記出字詞在該句子中的詞性，以範例一為例，詞性標記結果如圖 5 所示。. 12.

(21) Gary’s father is a cook. He is fifty-four years old. He is tall, thin, and handsome. He doesn’t wear glasses. He runs a Japanese restaurant in Taipei. It opens six days a week, from Tuesday to Sunday. Gary’s mother, Susan, and the other cook, Mr. Chen, also work in the restaurant. They work together from 11:30 a.m. to 09:30 p.m. Many people eat in the restaurant during lunch break. Families and friends also get together to enjoy dinner. It is a popular restaurant in the neighborhood. 圖 3. 文章範例一：敘述類型文章. David: Hey, did you watch the baseball game last night? Oscar: Yeah, I did. So sad. David: I agree. I thought we could have won the game. Oscar: Me too. You know, when the 7th inning was over, we still led by 2 runs in the game. I felt we would definitely win, so I went to take a shower. When I came back, the Japanese team had tied the game 33. I was so surprised! David: I know how you felt. I had the same feelings. Oscar: Then, I decided not to watch the game because I was tired of watching our team losing. David: Well, it’s just a game, not the end of the world! Oscar: You’re right. Maybe I need to learn to deal with my feelings. David: We’re playing again tomorrow evening. Do you want to watch it with me? We can cheer for our team! Oscar: Sounds like a great idea! 圖 4. 文章範例二：對話類型文章. 13.

(22) Gary 's father is a cook . NNP POS NN VBZ DT NN . He is fifty-four years old . PRP VBZ CD NNS JJ . He is tall , thin , and handsome . PRP VBZ JJ , JJ , CC JJ . He does n't wear glasses . PRP VBZ RB VB NNS . He runs a Japanese restaurant in Taipei . PRP VBZ DT JJ NN IN NNP . It opens six days a week , from Tuesday to Sunday . PRP VBZ CD NNS DT NN , IN NNP TO NNP . Gary 's mother , Susan , and the other cook , Mr. Chen , also work in the restaurant . NNP POS NN , NNP , CC DT JJ NN , NNP NNP , RB NN IN DT NN . They work together from 11:30 a.m. to 09:30 p.m. . PRP VBP RB IN CD NN TO CD NN . Many people eat in the restaurant during lunch break . JJ NNS VBP IN DT NN IN NN NN . Families and friends also get together to enjoy dinner . NNS CC NNS RB VBP RB TO VB NN . It is a popular restaurant in the neighborhood . PRP VBZ DT JJ NN IN DT NN . 圖 5. 詞性標記結果. (二) 代名詞替換處理文章中代名詞的目的在可增加語法上的流暢性，但是在處理文章內容時不易分析，因此我們使用 Coreference Resolution System 透過詞性標記的結果，找出文章中的代名詞對應的名詞，將代名詞替換成其對應的名詞。以範例一為例，如圖 6 所示，第二句原句為「He is tall, thin, and handsome.」，將代名詞 He 替換後，對應的名詞是 Gary’s father，因此句子成為「Gary’s father is tall, thin, and handsome.」，且也會將詞性標記結果中的代名詞 He 的詞性 PRP 替換 14.

(23) 成 Gary’s father 的詞性 NNP POS NN。 Gary 's father is a cook . NNP POS NN VBZ DT NN . Gary 's father is fifty-four years old . NNP POS NN VBZ CD NNS JJ . Gary 's father is tall , thin , and handsome . NNP POS NN VBZ JJ , JJ , CC JJ . Gary 's father does n't wear glasses . NNP POS NN VBZ RB VB NNS . Gary 's father runs a Japanese restaurant in Taipei . NNP POS NN VBZ DT JJ NN IN NNP . restaurant opens six days a week , from Tuesday to Sunday . NN VBZ CD NNS DT NN , IN NNP TO NNP . Gary 's mother , Susan , and the other cook , Mr. Chen , also work in the restaurant. NNP POS NN , NNP , CC DT JJ NN , NNP NNP , RB NN IN DT NN . They work together from 11:30 a.m. to 09:30 p.m. . PRP VBP RB IN CD NN TO CD NN . Many people eat in the restaurant during lunch break . JJ NNS VBP IN DT NN IN NN NN . Families and friends also get together to enjoy dinner . NNS CC NNS RB VBP RB TO VB NN . It is a popular restaurant in the neighborhood . PRP VBZ DT JJ NN IN DT NN . 圖 6. 代名詞替代結果. 敘述文章的句子可透過 Stanford Corenlp 的 Coreference Resolution System 處理代名詞，但在對話的文章中，Coreference Resolution System 無法有效的處理，因此對於對話的文章，本論文透過判斷對話的人物及其對應的語句，針對於第一人稱及第二人稱的代名詞進行替換處理。以範例二的文章為例，如圖 7 所示，第一句原句為「David: Hey, did you watch the baseball game last night?」，經由判斷說話的人為 David，與 David 對話的人為 Oscar，因此句子中的 you 應替換成 Oscar， 15.

(24) 替換後的句子為「David: Hey, did Oscar watch the baseball game last night?」。. David: Hey, did Oscar watch the baseball game last night? Oscar: Yeah, Oscar did. So sad. David: David agree. David thought we could have won the game. Oscar: Oscar too. David know, when the 7th inning was over, we still led by 2 runs in the game. Oscar felt we would definitely win, so Oscar went to take a shower. When Oscar came back, the Japanese team had tied the game 3-3. I was so surprised! David: David know how you felt. David had the same feelings. Oscar: Then, Oscar decided not to watch the game because Oscar was tired of watching our team losing. David: Well, it’s just a game, not the end of the world! Oscar: David’re right. Maybe Oscar need to learn to deal with my feelings. David: We’re playing again tomorrow evening. Do Oscar want to watch it with me? We can cheer for our team! Oscar: Sounds like a great idea!. 圖 7. 代名詞替代結果. (三) 語意關係圖建立本研究以 [12] 所提出概念圖建立之方法為基礎，建立文章內容的語意關係圖。但[12]所考慮的資料是來自多篇同一主題的文件，而本研究是針對於一篇文章。資料量少，因此對於建立的方法進行修改。本研究建立三種語意關係圖，無方向性語意關係圖、單方向性語意關係圖，雙方向性語意關係圖，以下說明三種語意關係圖的建立。. 1. 無方向性語意關係圖建立對於一篇文章，系統先取名詞做為語意關係圖的語意節點，以及取名詞與名詞間的動詞，做為語意關係圖中，連結語意節點的語意關係。除了名詞及動詞之 16.

(25) 外，有許多形容詞與副詞，若是將所有形容詞與副詞皆放入語意關係圖中，將使得語意關係圖所包含的內容過於繁瑣。本研究認為句子中，用來形容主詞的形容詞及副詞，可表示主詞的相關語意資訊，因此另外將這種形容詞及副詞也表示為語意節點，放入語意關係圖中。取出動詞做為連結語意關係圖中兩個語意節點的語意關係，此語意關係為無方向性的連結關係。以範例一為例，如圖 8 所示，從文章中擷取出名詞、名詞片語、形容詞及副詞為語意節點，動詞為語意關係，圖中將形成語意節點的名詞、名詞片語、形容詞及副詞標注底線，以粗體字表示語意關係的動詞，所形成的無方向性語意關係圖如圖 9 所示。範例一文章中的第一個句子「Gary’s father is a cook.」，詞性標記結果為「NNP POS NN VBZ DT NN .」。其中名詞 Gary’s father 以及 cook 表示為語意節點，動詞 is 為 Gary’s father 和 cook 兩個語意節點之間的無方向性語意關係。第三個句子「Gary’s father is tall, thin, and handsome.」，詞性為「NNP POS NN VBZ JJ , JJ , CC JJ .」。因此名詞 Gary’s father、tall、thin 以及 handsome 表示為語意節點，動詞 is 為 Gary’s father 和 tall、thin、handsome 之間的語意關係。 Gary’s father is a cook. Gary’s father is fifty-four years old. Gary’s father is tall, thin, and handsome. Gary’s father doesn’t wear glasses. Gary’s father runs a Japanese restaurant in Taipei. restaurant opens six days a week, from Tuesday to Sunday. Gary’s mother, Susan, and the other cook, Mr. Chen, also work in the restaurant. They work together from 11:30 a.m. to 09:30 p.m. Many people eat in the restaurant during lunch break. Families and friends also get together to enjoy dinner. It is a popular restaurant in the neighborhood.. 圖 8. 範例一文章的語意節點及語意關係 17.

(26) 圖 9. 範例一文章構成的無方向性語意關係圖. 2. 雙向語意關係圖建立與無方向性語意關係圖的建立方法相同，但連結語意節點之間的語意關係改為雙向的語意關係。以範例一為例，如圖 8 所示，從文章中擷取出名詞、名詞片語、形容詞及副詞為語意節點，動詞為語意關係，圖中將形成語意節點的名詞、名詞片語、形容詞及副詞標注底線，以粗體字表示語意關係的動詞，所形成的雙向語意關係圖如圖 10 所示。. 圖 10. 範例一文章構成的雙向語意關係圖. 18.

(27) 3. 單向語意關係圖建立對於一篇文章，系統先取名詞以及用來形容主詞的形容詞及副詞做為語意關係圖的語意節點。取名詞與名詞間的動詞，以及名詞與形容詞間的動詞，做為語意關係圖中，連結語意節點的語意關係，此語意關係為主詞指向受詞的單向連結關係。以範例一為例，如圖 8 所示，從文章中擷取出名詞、名詞片語、形容詞及副詞為語意節點，動詞為主詞指向受詞的單向語意關係，圖中將形成語意節點的名詞、名詞片語、形容詞及副詞標注底線，以粗體字表示語意關係的動詞，所形成的單方向性語意關係圖如圖 11 所示。範例一文章中的第一個句子「Gary’s father is a cook.」，詞性標記結果為「NNP POS NN VBZ DT NN .」。其中名詞 Gary’s father 以及 cook 表示為語意節點，動詞 is 為 Gary’s father 和 cook 兩個語意節點之間的語意關係，Gary’s father 為句子中的主詞，cook 為句子中的受詞，此語意關係為 Gary’s father 指向 cook 的單向語意關係。第三個句子「Gary’s father is tall, thin, and handsome.」，詞性為「NNP POS NN VBZ JJ , JJ , CC JJ .」。因此名詞 Gary’s father、tall、thin 以及 handsome 表示為語意節點，動詞 is 為 Gary’s father 和 tall、thin、handsome 之間的語意關係，Gary’s father 為句子中的主詞，tall、 thin、handsome 為句子中的受詞，此語意關係為 Gary’s father 指向 tall、thin、 handsome 的單向語意關係。. 19.

(28) 圖 11. 4-2. 範例一文章構成的單向語意關係圖. 重要性分數計算. 根據文章內容將其表示成語意關係圖後，接下來必須從圖中自動分析出文章中主要的人或物。我們認為在圖形的網絡中越是重要的節點，越可能對應文章中的主要描述或討論的人或物的名詞，故我們對語意關係圖中的節點分析其在圖形結構中的重要性分數。. 根據不同的語意關係圖建立方法，重要性分數的計算方法也不同，以下說明三種語意關係圖的建立方法的計算方式。. 1. 無方向性語意關係圖重要性分數設定每個語意節點的重要性分數值為語意節點在文章中出現的句子數量比例值。以範例一為例，如圖 8 所示，節點 Gary’s father 在文章中出現的句子數量為 5，文章中共有 11 個句子，因此重要性分數值為 0.45。. 20.

(29) 2. 雙向語意關係圖重要性分數 Random walk 是一個隨機程序的模型，經常用於許多領域。許多研究將 Random walk 的方法運用在對文件進行摘要句選取，以一個句子為單位對應到節點，計算每一個節點的重要性，取出文件中重要的句子為摘要。本研究使用 Random walk with restart 的方法，從已建立好的語意關係圖中，計算每個節點的重要性。本研究中，由於英文文章所構成的語意關係圖中，可能會有孤立點，因此在計算名詞的重要性分數時，設立一個空節點(Null node)與關係圖中各點連結，使得孤立點可以與其它節點連結，所有節點之間的連結皆設為雙向。如圖 12 所示，關係圖中間設立一個 null node 與其它節點相連。. 圖 12. 範例一計算重要性分數的雙向語意關係圖. 21.

(30) 表 2 節點. 1. 對應字詞. gary 's father. 節點. 8. 對應字詞. thin. 圖八節點對應表. 2. 3. 4. 6. families cook and friends. restaurant people 9. 5. 10. 11. handsome glasses. 12. 7. fifty-four tall years old 13. six days a dinner null node week. 本研究設定兩個語意節點間關係連結的權重值為兩個語意節點在文章中同一個句子中的句子數量，空節點與語意節點間的權重值設為 1。以範例一為例，如圖 8 所示，節點 restaurant，與節點 Gary’s father 在同一個句子中的句子數量為 1，因此其間的連結權重值設為 1;與節點 dinner 在同一個句子中的句子數量為 0，因此權重值設為 0。語意關係矩陣 S 是一個 n×n 矩陣，n 為語意關係圖中的節點數量。表 2 為語意關係圖使用中節點與字詞的對應，如下將圖 12 轉換成語意關係矩陣 S 儲存的結果，其中矩陣第二行表示節點 restaurant 連結到其它節點的權重值。 0 1 0 0 1 1 W1 = 1 1 1 1 0 0 [1. 1 0 1 0 0 0 0 0 0 0 1 0 1. 0 1 0 0 0 0 0 0 0 0 0 0 1. 0 0 0 0 0 0 0 0 0 0 0 1 1. 1 1 0 0 0 0 0 0 0 0 0 0 1. 1 0 0 0 0 0 0 0 0 0 0 0 1. 1 0 0 0 0 0 0 1 1 0 0 0 1. 1 0 0 0 0 0 1 0 1 0 0 0 1. 1 0 0 0 0 0 1 1 0 0 0 0 1. 1 0 0 0 0 0 0 0 0 0 0 0 1. 0 1 0 0 0 0 0 0 0 0 0 0 1. 0 0 0 1 0 0 0 0 0 0 0 0 1. 1 1 1 1 1 1 1 1 1 1 1 1 0]. 為了將權重值轉化成一個節點走訪其它節點的機率值，矩陣 S 中每個值必須除以該行向量上各個權重值的加總，使得由一個節點到各節點的走訪機率值加總 22.

(31) 為 1，所得之矩陣以 W 表示。 W1 0.00 0.125 0.00 0.00 0.125 0.125 = 0.125 0.125 0.125 0.125 0.00 0.00 [ 0.125. 0.25 0.00 0.25 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.25 0.00 0.25. 0.00 0.50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50. 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.50. 0.33 0.33 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.33. 0.50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50. 0.25 0.00 0.00 0.00 0.00 0.00 0.00 0.25 0.25 0.00 0.00 0.00 0.25. 0.25 0.00 0.00 0.00 0.00 0.00 0.25 0.00 0.25 0.00 0.00 0.00 0.25. 0.25 0.00 0.00 0.00 0.00 0.00 0.25 0.25 0.00 0.00 0.00 0.00 0.25. 0.05 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50. 0.00 0.50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50. 0.00 0.00 0.00 0.50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50. 由於每個節點都可能為起點，故設定初始狀態 P0 矩陣為一個n × 1的矩陣，每個值皆為 1，每回合隨著計算而變更其值。E 矩陣為n × 1不會變動的矩陣，其值和 P0 相同，表示上回合不管停在哪個節點，這回合重新由起始節點開始的。 Random walk with restart 計算第 i 回合後每個節點被走訪的期望值計算方式如下： P𝑖 = (1 − c) × W × P𝑖−1 + c × E c 為一個參數值，用來設定每回合會返回起始點的機率。為了想找出每一個名詞的重要性，本研究認為在文章中越重要的字詞，在語意關係圖上進行 random walk 時，其對應節點被走訪的機率值應該越高，因此以 random walk 的方法計算多回合後，每一列代表從其它節點出發後走訪到該節點的期望值，用來代表該字詞的重要性分數。 23. 0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.00 ].

(32) 3. 單向語意關係圖重要性分數與雙向語意關係圖計算重要性分數方法相同，使用 Random walk with restart 的方法，從已建立好的語意關係圖中，計算每個節點的重要性。設立一個空節點(Null node)與關係圖中各點連結，使得孤立點可以與其它節點連結，所有節點之間的連結皆設為 null node 指向其它節點的單向連結關係。如圖 13 所示，關係圖中間設立一個 null node 指向其它節點。本研究設定兩個語意節點間，由節點 A 指向節點 B 關係連結的權重值為兩個語意節點在文章中同一個句子裡由 A 指向 B 的句子數量，空節點與語意節點間的權重值設為 1。以範例一為例，如圖 8 所示，節點 restaurant，與節點 Gary’s father 在同一個句子中由 Gary’s father 指向 restaurant 的句子數量為 1，因此其間的連結權重值設為 1。最後在語意關係圖上進行 random walk，以 random walk 的方法計算多回合後，每一列代表從其它節點出發後走訪到該節點的期望值，用來代表該字詞的重要性分數。. 24.

(33) 圖 13. 範例一計算重要性分數的單向語意關係圖. 主角問答題答案評分. 4-3. 建立完文章的語意關係圖後，透過前一小節所述計算方法計算文章中的字詞重要性，系統自動取出文章中的主角詞彙，再將系統找出的主角詞彙與學生答案比對評分。以下分做主角詞彙的挑選以及比對評分方法兩部份做說明。. 4-3-1. 主角詞彙挑選. 我們觀察多篇文章的重要性分數值，依照語意關係圖的建立方法不同而設定不一樣的門檻值，取出重要性分數值大於門檻值的語意節點做為主角詞彙，以下說明三種語意關係圖的門檻值。. 1. 無方向性語意關係圖重要性分數我們設定門檻值為 0.3，大於門檻值的語意節點為主角詞彙。以範例一為例，以圖 9 的語意關係圖計算各字詞的重要性分數，所得到各節點的重要性分數值如. 25.

(34) 表 3。在表 3 中，大於 0.3 的節點有兩個：gary’s father 及 restaurant，因此範例一中，無方向性語意關係圖的主角詞彙判定為 gary’s father 和 restaurant。. 2. 雙向語意關係圖重要性分數設定門檻值為 1.0，大於門檻值的語意節點為主角詞彙。以範例一為例，以圖 10 的語意關係圖計算各字詞的重要性分數，所得到各節點的重要性分數值如表 4。在表 4 中，大於 1.0 的非空節點有兩個：gary’s father 及 restaurant，因此範例一中，雙向語意關係圖的主角詞彙判定為 gary’s father 和 restaurant。. 3. 單向語意關係圖重要性分數我們設定門檻值為 0.8，大於門檻值的語意節點為主角詞彙。以範例一為例，以圖 11 的語意關係圖計算各字詞的重要性分數，所得到各節點的重要性分數值如表 5。在表 5 中，大於 0.8 的非空節點有一個：gary’s father，因此範例一中，單向語意關係圖的主角詞彙判定為 gary’s father。. 表 3 對應節點節點重要性分. 圖 10 無方向性語意關係圖計算出的重要性分數值 1. 2. 3. gary 's father restaurant people. 4. 5. 6. families fifty-four cook and friends years old. 0.45. 0.45. 0.09. 0.09. 0.18. 009. 對應節點. 8. 9. 10. 11. 12. 13. 節點. thin. 重要性分數. 0.09. 數. handsome glasses 0.09. 0.09. 26. six days a dinner week 0.09. 0.09. 7 tall 0.09.

(35) 表 4 對應節點節點. 圖 11 雙向語意關係圖計算出的重要性分數值 1. 2. 3. gary 's father restaurant people. 4. 5. 6. families fifty-four cook and friends years old. 重要性分數. 1.96. 1.25. 0.48. 0.52. 0.72. 0.47. 對應節點. 8. 9. 10. 11. 12. 13. 節點. thin. 重要性分數. 0.94. 表 5 對應節點節點. handsome glasses 0.94. 0.47. tall 0.94. six days a dinner null node week 0.48. 0.52. 3.3. 圖 12 單向語意關係圖計算出的重要性分數值 1. 2. 3. gary 's father restaurant people. 4 families and friends. 5 cook. 6 fifty-four years old. 重要性分數. 2.03. 0.64. 0.63. 0.64. 0.41. 0.41. 對應節點. 8. 9. 10. 11. 12. 13. 節點. thin. 重要性分數. 0.41. 4-3-2. 7. handsome glasses 0.41. 0.41. 7 tall 0.41. six days a dinner null node week 0.41. 0.41. 5.78. 主角詞彙比對評分. 系統將學生所輸入的答案 S 與系統找出的主角詞彙 A 進行比對，我們使用完全比對和部份比對的方法，修改 Jaccard similarity 方法來計算主角問答題正確率分數值，分數值為 0 到 1 之間的值。. 27.

(36) s 表示學生答案詞彙中的單字，a 表示系統找出的主角詞彙的單字。|𝑆 ∪𝐴|表示 S 和 A 中的主角詞彙聯集數量，|𝑆 ∩𝐴|表示 S 和 A 中的主角詞彙完全比對到的數量，也就是指主角詞彙的所有單字都一樣的詞彙數量，|𝑠 ∩𝑎|表示 S 和 A 中的單字部份比對的字詞數量，指的是沒有完全比對到的詞彙中的單字各別比對到的比例值。公式如下：. Score(S, A) =. |𝑆 ∩𝐴| + |𝑠 ∩𝑎| |𝑆 ∪𝐴| − |𝑠 ∩𝑎|. 以範例一為例，系統判斷 Gary’ s father 以及 restaurant 皆為範例一文章的重要主角，若學生答案回答 Gary’ s father 為範例一文章的重要主角，則系統與學生答案聯集有二個字詞 Gary’s father 和 restaurant，主角詞彙聯集數量為 2，完全比對到一個字詞 Gary’s father，部份比對數量為 0，因此分數值為 0.5。若學生答案回答為 father 和 restaurant，則系統與學生答案聯集為 Gary’s father、 restaurant 和 father，主角詞彙聯集數量為 3，完全比對到一個字詞 restaurant，部份比對到 Gary’s father 和 father 中的 father，因此以系統的主角詞彙單字數量為主，Gary’s father 為 3 個單字，部份比對到 father 一個單字，所以部份比對的字詞比例值為 1/3，因此分數值為 0.5。在本論文中比對兩個單字是否相同時，會採用 WordNet [17] 語料庫，回傳一個介於 0 到 1 之間的相關程度值，因此即使兩個字不相同，若具有某個語意關係，仍會傳回一個大於 0 的值。. 28.

(37) 第五章文意理解敘述題自動評估文意理解敘述題是請學生使用最多三個句子將文章進行重點摘要。本章將介紹如何對文意理解敘述題，自動評估學生答案和文章語意的符合程度等級。. 教師評分的標準. 5-1. 本研究使用機器學習的方法，由學生答案和文章語意的比對特徵值，建立用來預測老師評分等級的分類模型，對學生的答案進行語意符合程度自動評分。本研究參考學測英文非選擇題評分標準，訂定下列評分標準做為評分等級依據。表 6. 語意摘要評分標準. 分數類型. 等級. 評分標準. 語意分數：單純只看意思內容，文法、句法結構等之使用不在考量範圍. A. 主題清楚，並有具體、完整相關細節。. B. 主題不夠清楚，部份相關敘述發展不全。. C. 主題不明，文不對題或沒寫。. 文意理解敘述題答案評分方法. 5-2 5-2-1. 文章與答案之語意表示模型. 透過 4-1 節所介紹建立語意關係的方法，對於文章 A，我們先建立文章的語意關係圖 GA，假設 GA 中的語意節點所成的集合為 node(GA)， GA 中的語意關係. 29.

(38) 所成的集合為 edge(GA)。此外，採用 4-2 節所介紹之重要性分數計算方法後，可以得到 GA 中各語意節點 vi 對應的重要性分數值以 scoreA(vi)表示。. 對於一個學生的文章理解敘述題答案，可視為一篇文章，因此也可建構出其語意關係圖。令 GS 表示以學生答案建立的語意關係圖，其中 GS 中的語意節點所成的集合以 node(GS)表示，GS 中的語意關係所成的集合以 edge(GS)表示。根據 43 節所介紹，令 GA 中的主角詞彙集合以 inode(GA)表示，GS 中的主角詞彙集合為 inode(GS)表示。以圖 3 的範例一為例，我們以雙向的語意關係圖做說明，所形成的語意關係圖 GA 如圖 12(a)，圖 12(b)是由圖 11 的學生答案所構成的語意關係圖。表 6(a)是圖 12(a)所計算出節點的重要性分數值，表 6(b)是圖 12(b)所計算出節點的重要性分數值。. Gary’s father is a fifty-four-year old man, Gary’s father successfully runs a Japanese restaurant. Gary’s father is not only the boss but also a cook of that restaurant. It is a popular and nice eating place. 圖 14. 學生答案. 30.

(39) 圖 15(a) 文章語意關係圖 GA. 圖 15(b) 學生答案語意關係圖 GS 表 7(a) GA 節點重要性分數值對應節點. 1. 2. 7. 8. 9. 5. 節點. gary 's father. restaurant. tall. thin. handsome. cook. 重要性分數. 1.96. 1.25. 0.94. 0.94. 0.94. 0.72. 對應節點. 4. 12. 3. 11. 6. 10. 節點. families and friends. dinner. people. 重要性分數. 0.52. 0.52. 0.48. six days fifty-four a week years old 0.48. glasses. 0.47. 0.47. 表 7(b) GS 節點重要性分數值對應節點節點重要性分數. 1. 3. gary 's father restaurant 1.57. 1.33 31. 4. 5. 2. boss. cook. man. 0.65. 0.65. 0.44.

(40) 5-2-2. 比對特徵擷取. 本研究對於文章構成的語意關係圖 GA 以及學生摘要構成的語意關係圖 GS 所建立的語意表示模型進行比對，從比對結果擷取出特徵值特徵的擷取可分為兩大部份，第一部份是比對文章語意關係圖 GA 與學生摘要語意關係圖 GS 的名詞節點 node(GA) 和 node(GS)，第二部份則是比對文章語意關係圖 GA 與學生摘要語意關係圖 GS 的語意關係 edge(GA) 和 edge(GS)，也就是節點之間連結的動詞。rankn (GA)表示在集合 node(GA)中，重要性分數值最高的第 n 名。比對結果所擷取出的特徵如表 8。表 8. 語意關係圖比對擷取特徵. F1：|node(GA ) ∩ node(GS )| / |node(GS )| F2：|node(GA ) ∩ node(GS )| /|node(GA )| 相同字. F3：|node(GA ) ∩ inode(GS )| /|inode(GS )|. 詞數量. F4：|inode(GA ) ∩ node(GS )| /|inode(GA )| F5：|inode(GA ) ∩ inode(GS )| /|inode(GS )| F6：|inode(GA ) ∩ 𝑖node(GS )| /|inode(GA )|. 語意. F7：∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝐴 )∩𝑣∈𝑛𝑜𝑑𝑒(𝐺𝑆 ) scoreS (𝑣)/ |node(GS )|. 節點. F8：∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝐴 )∩𝑣∈𝑛𝑜𝑑𝑒(𝐺𝑆 ) scoreA (𝑣) |node(GA )|. 比對. F9：∑𝑣∈𝑖𝑛𝑜𝑑𝑒(𝐺𝐴 )∩𝑣∈𝑖𝑛𝑜𝑑𝑒(𝐺𝑆 ) scoreS (𝑣) / |inode(GS )| 相同字詞重要性. F10：∑𝑣∈𝑖𝑛𝑜𝑑𝑒(𝐺𝐴 )∩𝑣∈𝑖𝑛𝑜𝑑𝑒(𝐺𝑆 ) scoreA (𝑣)/ |inode(GA )| F11：score𝑆 (rank1(𝐺𝑆 ))/ ∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝑆 ) 𝑠𝑐𝑜𝑟𝑒𝑆 (𝑣) F12：score𝑆 (rank2(𝐺𝑆 ))/ ∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝑆 ) 𝑠𝑐𝑜𝑟𝑒𝑆 (𝑣) F13：score𝑆 (rank3(𝐺𝑆 )) / ∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝑆 ) 𝑠𝑐𝑜𝑟𝑒𝑆 (𝑣) F14：score𝐴 (rank1(𝐺𝐴 ))/ ∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝐴) 𝑠𝑐𝑜𝑟𝑒𝐴 (𝑣) F15：score𝐴 (rank2(𝐺𝐴 ))/ ∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝐴) 𝑠𝑐𝑜𝑟𝑒𝐴 (𝑣) 32.

(41) F16：score𝐴 (rank3(𝐺𝐴 ))/ ∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝐴) 𝑠𝑐𝑜𝑟𝑒𝐴 (𝑣) 1. 重要性順序比對. ∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝐴 )∩𝑣∈𝑛𝑜𝑑𝑒(𝐺𝑆 ). 𝑟𝑎𝑛𝑘 𝑖𝑛 𝑠𝑐𝑜𝑟𝑒𝐴 (𝑣). A )|. ∑𝑣∈𝑛𝑜𝑑𝑒(𝐺𝐴)∩𝑣∈𝑛𝑜𝑑𝑒(𝐺𝑆 ). 𝑟𝑎𝑛𝑘 𝑖𝑛 𝑠𝑐𝑜𝑟𝑒𝑆 (𝑣). S )|. ∑𝑣∈𝑖𝑛𝑜𝑑𝑒(𝐺𝐴)∩𝑣∈𝑖𝑛𝑜𝑑𝑒(𝐺𝑆 ). 𝑟𝑎𝑛𝑘 𝑖𝑛 𝑖𝑠𝑐𝑜𝑟𝑒𝐴 (𝑣). A )|. ∑𝑣∈𝑖𝑛𝑜𝑑𝑒(𝐺𝐴 )∩𝑣∈𝑖𝑛𝑜𝑑𝑒(𝐺𝑆 ). 𝑟𝑎𝑛𝑘 𝑖𝑛 𝑖𝑠𝑐𝑜𝑟𝑒𝑆 (𝑣). 1. F18：𝑀𝑅𝑅 = |𝑛𝑜𝑑𝑒(G 1. F19：𝑀𝑅𝑅 = |𝑖𝑛𝑜𝑑𝑒(G 1. F20：𝑀𝑅𝑅 = |𝑖𝑛𝑜𝑑𝑒(G. 1. S )|. F17：𝑀𝑅𝑅 = |𝑛𝑜𝑑𝑒(G. 1. 1. 1. 語意關係比對. 相同關係字詞數量. F21：|edge(GA) ∩ edge(GS)|/|node(GS )| F22：|edge(GA) ∩ edge(GS)|/|node(GA )|. 共有四大類特徵，以下對於這四類特徵做說明。. (一) 相同字詞數量語意關係圖由名詞節點及名詞節點之間的連結關係所構成，兩個關係圖之間相同的名詞節點個數越多，代表關係圖越相似。而主角詞彙相同則表示兩個關係圖中的主角一樣。因此分別比對文章語意關係圖 GA 和學生答案語意關係圖 GS 中的名詞節點的共同個數以及主角詞彙的共同個數。 1.. F1 特徵：取 node(GA) 和 node(GS)兩個集合中相同字詞的數量，但同一篇文章的答案，當答案中字詞數量不同可能影響特徵值，因此以 node(GS) 的數量作為分母算出相對比例值。. 2.. F2 特徵：取 node(GA) 和 node(GS)兩個集合中相同字詞的數量，但不同. 33.

(42) 的文章，當文章中字詞數量不同可能影響特徵值，因此以 node(GA)的數量作為分母算出相對比例值。 3.. F3 特徵：取 node(GA) 和 inode(GS)兩個集合中相同字詞的數量，但同一篇文章的答案，當答案中主角詞彙數量不同可能影響特徵值，因此以 inode(GS)的數量作為分母算出相對比例值。. 4.. F4 特徵：取 inode(GA) 和 node(GS)兩個集合中相同字詞的數量，但不同的文章，當文章中主角詞彙數量不同可能影響特徵值，因此以 inode(GA) 的數量作為分母算出相對比例值。. 5.. F5 特徵：取 inode(GA) 和 inode(GS)兩個集合中相同字詞的數量，但同一篇文章的答案，當答案中主角詞彙數量不同可能影響特徵值，因此以 inode(GS)的數量作為分母算出相對比例值。. 6.. F6 特徵：取 inode(GA) 和 inode(GS)兩個集合中相同字詞的數量，但不同的文章，當文章中主角詞彙數量不同可能影響特徵值，因此以 inode(GA) 的數量作為分母算出相對比例值。. (二) 相同節點重要性節點重要性分數越高，表示節點在語意關係圖中越是重要，因此分別計算文章語意關係圖 GA 和學生答案語意關係圖 GS 中相同的節點在 GS 和 GA 的重要性分數值，可以得知節點在兩個關係圖中各別的重要性。 1.. F7 特徵：取 node(GA) 和 node(GS)兩個集合中相同字詞對應的重要性分數值的和。但同一篇文章的答案，當答案中字詞數量不同可能影響特徵值，因此以 node(GS)的數量作為分母算出相對比例值。 34.

(43) 2.. F8 特徵：取 node(GA) 和 node(GS)兩個集合中相同字詞對應的重要性分數值的和。但不同的文章，當文章中字詞數量不同可能影響特徵值，因此以 node(GA)的數量作為分母算出相對比例值。. 3.. F9 特徵：取 inode(GA) 和 inode(GS)兩個集合中相同字詞對應的重要性分數值的和。但同一篇文章的答案，當答案中主角詞彙數量不同可能影響特徵值，因此以 inode(GS)的數量作為分母算出相對比例值。. 4.. F10 特徵：取 inode(GA) 和 inode(GS)兩個集合中相同字詞對應的重要性分數值的和。但不同的文章，當文章中主角詞彙數量不同可能影響特徵值，因此以 inode(GA)的數量作為分母算出相對比例值。. 5.. F11、F12、F13 特徵：取 node(GS)集合中，對應的重要性分數值最高的前三名的分數值做為特徵。. 6.. F14、F15、F16 特徵：取 node(GA)集合中，對應的重要性分數值最高的前三名的分數值做為特徵。. (三) 相同字詞重要性透過節點重要性分數可知道關係圖中節點的重要性順序，兩個語意關係圖中的節點重要性順序越相近，表示關係圖的組成越相似，因此藉由 Mean Reciprocal Rank 統計測量的方法，比對關係圖之間節點的重要性順序。 1.. F17 特徵：對於 node(GS)和 node(GA)中共同出現的字詞，根據其在 node(GA)中的重要性排序位置，取倒數後相加得到的特徵值。. 2.. F18 特徵：對於 node(GS)和 node(GA)中共同出現的字詞，根據其在 node(GS) 35.

(44) 中的重要性排序位置，取倒數後相加得到的特徵值。 3.. F19 特徵：對於 inode(GS)和 inode(GA)中共同出現的字詞，根據其在 inode(GA)中的重要性排序位置，取倒數後相加得到的特徵值。. 4.. F20 特徵：對於 inode(GS)和 inode(GA)中共同出現的字詞，根據其在 inode(GS)中的重要性排序位置，取倒數後相加得到的特徵值。. (四) 相同關係字詞語意關係圖中除了語意節點之外，還有連結語意節點的語意關係，因此兩個語意關係圖相同的連結關係越多，關係圖越相似。. 1.. F21 特徵：計算 edge(GA)和 edge(GS)相同的個數。在計算兩個 edge(GA) 和 edge(GS)的交集時，兩個 e 和 e’必須連結相同語意節點，且連結上標示的動詞相同的才算相同的關係字詞。當答案中連結關係數量不同可能影響特徵值，因此以 edge(GS)的數量作為分母算出相對比例值。. 2.. F22 特徵：計算 edge(GA)和 edge(GS)相同的個數。當文章中連結關係數量不同可能影響特徵值，因此以 edge(GA)的數量作為分母算出相對比例值。. 【範例 5-1】比對圖 15(a)及圖 15(b)中，相同的語意節點有 Gary’s father、restaurant 和 cook 三個節點，因此相同的語意節點數量為 3。由表 7(a)可看出圖 15(a)的主角詞彙是 36.

(45) Gary’s father 和 restaurant，表 7(b)則表示圖 15(b)的主角詞彙為 Gary’s father 和 restaurant，因此相同的主角詞彙數量為 2。圖 15(a)中的節點與圖 15(b)中的主角詞彙相同的是 Gary’s father 和 restaurant，因此數量為 2。圖 15(a)中的主角詞彙與圖 15(b)中的節點相同的是 Gary’s father 和 restaurant，因此數量為 2。從表 7 的重要性分數可觀察到重要性排序，如圖 15(b)的節點在圖 15(a)的排序，Gary’s father 在表 7(a)中排名為 1，restaurant 排名為 2，cook 排名為 6。因此計算圖 15(a)的節點在圖 15(a)中的 Mean reciprocal rank 值為(1/1+1/2+1/6)/5，所以 MRR 為 1/3。圖 15(b)中的主角詞彙 Gary’s father 在圖 15(a)中排名為 1，restaurant 排名為 2。因此計算 Mean reciprocal rank 值為(1/1+1/2)/2，所以 MRR 為 3/4。圖 15(a)及圖 15(b)中，相同的語意節點有 Gary’s father、restaurant 和 cook 三個節點，在圖 15(a)中對應的語意節點重要性分數為 1.96、0.72 和 1.25，將重要性分數相加後結果為 3.93。圖 15(a)及圖 15(b)中相同的主角詞彙是 Gary’s father 和 restaurant，在圖 15(a)中對應的語意節點重要性分數為 1.96 和 1.25，主角詞彙的重要性分數相加後結果為 3.21。圖 15(a)及圖 15(b)中，相同的語意節點有 Gary’s father、restaurant 和 cook 三個節點，這些語意節點中的語意關係相同的數量為 2。相同的主角詞彙是 Gary’s father 和 restaurant，語意節點中的語意關係相同的數量為 1。所有的特徵值如表 9 所示。. 37.

(46) 表 9 範例 5-1 特徵值特徵. F1. F2. F3. F4. F5. F6. F7. F8. 特徵值. 0.6. 0.25. 0.4. 0.17. 1. 1. 0.77. 0.40. 特徵. F9. F10. F11. F12. F13. F14. F15. F16. 特徵值. 0.59. 0.33. 1. 0.07. 1. 0.20. 1. 0.13. 特徵. F17. F18. F19. F20. F21. F22. 特徵值. 0.34. 0.14. 0.75. 0.75. 0.2. 0.5. 5-3. 評分模型建立及預測本研究使用 LIBSVM[3]系統的 classification 方法，評估學生摘要的語意符合. 程度，因此會先蒐集一定數量的學生答案與教師的評分做為訓練資料，根據 5-2 小節所提出的特徵，擷取每個答案的特徵後，使用 support vector machine 建立預測教師評分等級的分類模型，用來對學生答案進行語意符合程度自動評分。. 38.

(47) 第六章實驗結果與討論本研究依系統流程共有三部份的實驗，第一部份是評估英文文章分類的效果，第二部份是評估系統找出主角的正確率，第三部份是評估對學生答案自動化評分的正確率。以下將介紹實驗資料來源以及實驗結果。. 文章類型自動分類實驗. 6-1 6-1-1. 實驗資料來源及評估方法. 本研究中所使用的英文文章由英語系教師提供，以適合國中階段學生閱讀為主的英文文章，將非本研究所研究之類型的文章刪去後，共有 27 篇文章，其中有 22 篇敘述類型文章，5 篇對話類型文章。由於對話及敘述類型文章數量差異較大，因此由一個英文網站再取 12 篇英文文章，共 39 篇文章做為實驗資料。我們將英語系教師對於文章類型的判斷做為標準答案，與系統分類出的結果計算系統分類的正確率。. 6-1-2. 實驗結果. 根據 3-1 小節所提出的特徵及分類的方法，以 3-fold crossvalidation 方法測試，根據系統分類預測的結果，與文章類型比對後，得到文章類型預測正確率為 100%。分類預測結果如下表 10 所示。表 10 所示，當敘述與對話文章數量差異不大時，系統預測文章的類型可以得到很好的效果。. 39.

(48) 表 10. 文章類型預測結果文章類型預測結果. 敘述. 對話. 總計. recall. 敘述. 22. 0. 22. 100%. 對話. 0. 17. 17. 100%. 總計. 22. 17. 39. precision. 100%. 100%. 文章類型實際結果. Accuracy =100%. 主角問答題實驗. 6-2. 6-2-1. 實驗資料來源及評估方法. 本研究中所使用的英文文章由英語系教師提供，以適合國中階段學生閱讀為主的英文文章，將非本研究所研究之類型的文章刪去後，共有 27 篇文章。我們將現職英語教師的主角答案做為標準答案，與系統自動找出的主角詞彙結果做比對，使用 4-3-2 節所提出的評分公式計算分數值，評估系統自動找出主角的效果。. 6-2-2. 實驗結果. 根據第四章所提出的建立語意關係圖及計算重要性分數的方法，系統可以自動找出文章中的主角詞彙。由於系統找出的主角詞彙以及現職英語教師的主角結果如表 10 所示，我們使用 4-3-2 節公式計算分數值。不同的語意關係圖的建立方 40.

(49) 法，所找出的主角詞彙也不相同，其詳細結果記錄於附錄一。表 11 統計三種不同的語意關係圖所找出的主角詞彙與教師答案比較之分數效果，可看出在 27 篇文章中，無方向性語意關係圖方法所找出的主角詞彙與教師答案完全相同的數量最多，雙向語意關係圖與單向語意關係圖方法則是都可找出所有文章中的主角詞彙。. 表 11. 各語意關係圖主角詞彙分數統計. 分數值. 無方向性語意關係圖. 雙向語意關係圖. 單向語意關係圖. 1.00. 10. 8. 5. 0.50~0.99. 8. 8. 9. 0.01~0.49. 7. 11. 13. 0.00. 2. 0. 0. 由附錄一表 19 可看到無方向性語意關係圖方法中，有兩篇文章無法找出主角詞彙，若是我們將門檻值降低，則會造成系統會將語意關係圖中一半以上的語意節點視為主角詞彙，使得所有文章的分數值皆下降，因此不調整門檻值。由附錄一表 20 及表 21 來看，雙向語意關係圖與單向語意關係圖方法中，教師所判斷的主角與系統找出的相似度小於 0.5 的文章，主要是由於系統找出了三個以上的主角，而教師在判斷主角時，大部份是三個以內，因此分數值較小。若是調整門檻值來減少系統找出的主角詞彙數量，則會造成少數文章中系統無法找出主角詞彙，因此為了讓系統能夠找出所有文章的主角詞彙，雙向語意關係圖的門檻值仍為 1.0，單向語意關係圖的門檻值仍為 0.7。. 41.

(50) 總結實驗，本研究的目的是希望能夠找出文章中的主要角色，因此雙向關係圖和單向關係圖的建立與計算重要性分數值方法較為適合。. 文意理解敘述題實驗. 6-3 6-3-1. 實驗資料來源及評估方法. 本研究中實驗對象是新北市蘆洲國中的國一學生，共 47 人，所使用的英文文章由英語系教師提供，選用其中 13 篇程度適合國一生的英文文章做實驗，所得到的學生摘要答案共有 375 個。教師評分則請兩位現職英語教師採用 5-1 小節的評分標準進行評分。我們將現職英語教師的評分做為實際評分，與系統自動預測評分等級，計算系統預測分數的正確率。. 6-3-2. 實驗結果. 根據第五章提出的特徵及評分模型建立的方法，以 5-fold crossvalidation 的方法進行測試。. 【實驗一】文意理解敘述題自動評分效果. 根據第四章所提出的三種建立語意關係圖及計算重要性分數的方法，使用第五章提出的特徵及評分模型建立方法，學生的答案預測等級與教師評分等級的混淆矩陣(confusing matrix)如表 12 所示。. 42.

(51) 表 12 學生摘要答案預測結果(5-fold) 無方向性語意關係圖. 教師評分結果. A. B. C. 總計. recall. A. 37. 33. 33. 103. 35.92%. B. 20. 45. 59. 124. 36.29%. C. 8. 16. 124. 148. 83.78%. 總計. 65. 94. 216. 375. precision. 56.92%. 47.87%. 57.41%. 雙向語意關係圖. 教師評分結果. Accuracy =54.93%. 系統評分結果 A. B. C. 總計. recall. A. 39. 25. 39. 103. 37.86%. B. 22. 34. 68. 124. 27.42%. C. 12. 10. 126. 148. 85.14%. 總計. 73. 69. 233. 375. precision. 單向語意關係圖. 教師評分結果. 系統評分結果. 53.42%. 49.28%. Accuracy =53.07%. 54.08%. 系統評分結果 A. B. C. 總計. recall. A. 42. 31. 30. 103. 40.78%. B. 29. 50. 45. 124. 40.32%. C. 9. 17. 122. 148. 82.43%. 總計. 80. 98. 197. 375. precision. 52.50%. 51.02%. 61.93%. 43. Accuracy =57.07%.

(52) 表 13. 學生摘要預測效果無方向性語意關係圖. 雙向語意關係圖. 單向語意關係圖. Accuracy. 54.93%. 53.07%. 57.07%. correlation. 0.4477. 0.3871. 0.4893. Precision. 56.92%. 53.42%. 52.50%. Recall. 35.92%. 37.86%. 40.78%. Precision. 47.87%. 49.28%. 51.02%. Recall. 36.29%. 27.42%. 40.32%. Precision. 54.08%. 54.08%. 61.93%. Recall. 83.78%. 85.14%. 82.43%. 全部. A. B. C. 觀察表 13 實驗結果比較，在三種不同語意關係圖建立方法中，單向語意關係圖建立方法的整體正確率有 57.07%，而無方向性語意關係圖正確率為 54.93%，雙向語意關係圖正確率只有 53.07%。由各個評分等級來看，雙向語意關係圖建立方法在 C 等級的評分效果最好，Recall 值 85.14%，表示所有教師評為 C 等級的摘要中，有 85.14%系統預測正確。單向語意關係圖方法在 B 等級的評分效果較其它兩個方法好，所有系統判斷為 B 等級的摘要中有 51.02%判斷正確，其它兩種方法皆低於 50%，而 A 等級的評分效果也較雙向語意關係圖評分好，因此整體來看，單向語意關係圖建立方法系統預測評分等級的效果最好。由語意關係圖建立的方法，單向語意關係圖能夠表示句子中主詞與受詞之間的方向性，與無方向性和雙向語意關係圖相比，單向語意關係圖更完整的表示整篇文章的語意結構， 44.

(53) 而實驗結果證實語意結構較完整的單向語意關係圖建立方法的效果較好，也就是說我們使用語意關係圖表示文章，透過比對兩個圖形進行等級評分是可行的。. 【實驗二】摘要預測評分特徵值選取我們使用 LIBSVM[3]系統的 classification 方法，透過 5-2 小節所提出的 22 種特徵值，評估學生摘要的語意符合程度，實驗結果如實驗一。為了增加摘要預測評分的正確率，我們從表 6 的 22 種特徵值中，選取合適的特徵值讓正確率增加。我們使用刪去的方法來選取特徵值，每回合刪去一種特徵值使得正確率較未刪去前的正確率高，直到正確率不會再變高為止。由於實驗一中可知，正確率最高的是單向語意關係圖建立方法，因此我們使用單向語意關係圖建立方法，選取合適的特徵值增加正確率。第一回合我們將所有 22 種特徵值，每次刪去任 1 種特徵值後計算正確率，將得到的 22 個正確率取其中最高的正確率，且此正確率較原先的正確率高。將選取出的正確率所對應的刪去特徵值刪去，剩下的 21 個特徵值則繼續第二回合的選取，直至正確率不會較前一回合的正確率高後停止，所得到的實驗結果如表 14。從表中我們可知道，第一回合刪去 F13 特徵值後，正確率為 59.81%，第二回合刪去 F14 後，正確率已提高至 62.08%，刪去五種特徵值後可使得正確率增加至 64.80%。. 45.

(54) 表 14. 特徵值刪去. 回合數. 刪去特徵值. 正確率. 1. F13. 59.73%. 2. F14. 62.13%. 3. F1. 63.63%. 4. F19. 64.44%. 5. F11. 64.80%. 【實驗三】單向語意關係圖文意理解敘述題自動評分效果我們使用第四章提出的單向語意關係圖建立方法以及計算重要性分數方法，根據第五章的模型建立方法，使用實驗二的實驗結果選取出的特徵值，預測學生摘要等級，結果如表 15，正確率為 64.80%。. 表 15 學生摘要答案預測結果(5-fold) 單向語意關係圖. 教師評分結果. 系統評分結果 A. B. C. 總計. recall. A. 48. 27. 28. 103. 46.60%. B. 14. 61. 49. 124. 49.19%. C. 3. 11. 134. 148. 90.54%. 總計. 65. 99. 211. 375. precision. 73.85%. 61.62%. 46. 63.51%. Accuracy =64.80% Correlation =0.5069.