應用階層式語意暨聲學特徵表示於語音文件摘要之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳博士應用階層式語意暨聲學特徵表示於語音文件摘要之研究 Spoken Document Summarization Leveraging Hierarchical Semantic and Acoustic Representations. 研究生：劉慈恩撰中華民國 108 年 7 月.

(2) 摘. 要. 由於巨量資訊的快速傳播，如何有效率地瀏覽資料是ㄧ項重要的課題。對於多媒體文件而言，語音是其內容中具有語意的主要元素之一，能夠相當完整的表達整份多媒體文件。近年來，有許多研究紛紛針對多媒體文件的理解與檢索進行深入的研究探討，並且有優異的成果與貢獻，如影像摘要、音訊摘要及影片摘要。文件摘要可概分為節錄式 (Extractive) 和重寫式 (Abstractive) 摘要。其中節錄式摘要會依固定的比例，從文件中選出具代表性的文句組成其摘要結果；而重寫式摘要主要會先完整理解整份文件中的隱含意義，之後會根據其隱含意義，並使用不同的文詞，產生一個簡短版本的文件描述即為摘要。由於重寫式摘要對於自動語音摘要任務的困難度較高，故目前的研究大多是以節錄式摘要方式為主流。本論文主要探討新穎的節錄式摘要方法於語音文件摘要任務上的應用，並深入研究如何改善語音文件摘要之成效。因此，我們提出以類神經網路為基礎之摘要摘要模型，運用階層式的架構及注意力機制深層次地理解文件蘊含的主旨，並以強化學習輔助訓練模型根據文件主旨選取並排序具代表性的語句組成摘要。同時，我們為了避免語音辨識的錯誤影響摘要結果，也將語音文件中相關的聲學特徵加入模型訓練以及使用次詞向量作為輸入。最後我們在中文廣播新聞語料 (MATBN)上進行一系列的實驗與分析，從實驗結果中可驗證本論文提出之假設且在摘要成效上有顯著的提升。. 關鍵字：語音文件、節錄式摘要、類神經網路、階層式語意表示、注意力機制、聲學特徵、次詞向量、強化學習. i.

(3) Abstract With the rapid spread of tremendous amounts of multimedia information, how to browse the associated content efficiently becomes an important issue. Speech is one of the primary sources of semantics in multimedia content, by listening to which we can digest the content in a more complete manner. In recent years, many studies have conducted in-depth research and discussion on understanding and retrieval of multimedia documents, achieving excellent performance and making substantial contributions on a wide array of tasks, such as image caption, audio summarization and video caption. Document summarization methods can be broadly divided into two categories: extraction-based and abstraction-based methods. The former ones select a representative set sentences from the document to produce a summary according to a predefined summarization ratio whilst preserving its important information. The latter ones manage to understand a whole document, and then produce a short version of the document based on its main theme. Due to abstractive summarization is still far from being satisfied for either text or spoken documents, most of current studies focus exclusively on the development of extraction-based summarization methods. This thesis set to explore novel and effective extractive methods for spoken document summarization. To this end, we propose a neural summarization approach leveraging a hierarchical modeling structure with an attention mechanism to understand a document deeply, and in turn to select representative sentences as its summary. Meanwhile, for alleviating the negative effect of speech recognition errors, we make use of acoustic features and subword-level input representations for the proposed approach. Finally, we conduct a series of experiments on the Mandarin Broadcast News (MATBN) Corpus. The experimental results confirm the utility of our approach which improves the performance of state-of-the-art ones. Index Terms: Spoken Documents, Extractive Summarization, Deep Neural Networks, Hierarchical Semantic Representations, Attention Mechanism, Acoustic Features, Subword Embedding, Reinforcement Learning ii.

(4) 誌. 謝. 時光芢苒，兩年的時間倏忽即逝，在師大資工系的研究生活中，有歡笑有苦痛有喜悅有淚水，共同交織成最後的夢想。首先感謝我的指導教授陳柏琳教授，從大學專題時期至今約四年期間，努力不懈地指導我，讓我能參與業界的計畫，協助我於碩士生涯中成功地登上國際會議的舞台，豐富我的碩士班。過程中經歷了許多艱辛、坎坷，感謝劉士弘學長願意在工作之餘盡心盡力地輔導我，接收我在研究上遇到的各種難題，一步步地引導我跳脫瓶頸。亦感謝中華電信研究院讓我參與計畫，每一次的會議都讓我更加精進自己的能力，也讓我提前體會未來的職場生涯，對於就業亦有了無限的憧憬與規劃。在苦悶的研究生活中，我要感謝實驗室的學長姐，佳樺、奕儒、映文、天宏及明璋在我剛進入實驗室中，給予我各方面的協助，讓我在陌生的環境亦有滿滿的安心感。再來我要感謝我的同學們，修瑞、偉成、振恩、日鳳、建瑋及李方，雖然我們沒有都在同一個實驗室裡，但有你們的陪伴，讓我這兩年更加充滿希望，能夠一起度過碩士班是我最大的快樂，最後感謝實驗室的學弟妹，筱芸、世弦、福安、韋廷及百恩，你們的出現讓實驗室總是充滿了歡聲笑語，更加點綴了我這兩年的生活。最後的最後，我要將此論文與榮譽謹獻給最愛我及我最愛的家人們，感謝他們在我的升學過程中總是不斷地鼓勵我、支持我。讓我能有現在的成就。. iii.

(5) 目. 錄. 1. 緒論 ................................................................................................... 1 1.1.. 研究背景與動機 ......................................................................................... 1. 1.2.. 研究內容與成果 ......................................................................................... 2. 1.3.. 論文架構 ..................................................................................................... 5. 2. 文獻探討............................................................................................ 6 2.1.. 自動文件摘要背景概述 .............................................................................. 6. 2.2.. 自動文件摘要分類...................................................................................... 7. 2.3.. 傳統自動文件摘要方法 .............................................................................. 9. 2.3.1.. 基於主題表示之摘要方法 ..........................................................................................10. 2.3.2.. 基於指標表示之摘要方法 ..........................................................................................16. 2.4.. 深層學習摘要技術.................................................................................... 19. 2.4.1.. 節錄式摘要方法 .........................................................................................................19. 2.4.2.. 重寫式摘要方法 .........................................................................................................21. 2.5.. 自動文件摘要的評估方式 ........................................................................ 23. 2.5.1.. 主觀評估 ....................................................................................................................25. 2.5.2.. 客觀評估 ....................................................................................................................26. 3. 研究方法.......................................................................................... 29 3.1.. 問題定義與假設 ....................................................................................... 29. 3.2.. 階層式類神經摘要模型 ............................................................................ 30. iv.

(6) 3.2.1.. 基本架構 ....................................................................................................................30. 3.2.2.. 聲學特徵 ....................................................................................................................33. 3.2.3.. 次詞向量 (Subword Information) ...............................................................................35. 3.2.4.. 注意力機制 (Attention Mechanism) ...........................................................................36. 3.2.5.. 強化學習 ....................................................................................................................38. 4. 實驗設置與結果 .............................................................................. 40 4.1.. 實驗語料 ................................................................................................... 40. 4.2.. 實驗結果 ................................................................................................... 42. 4.2.1.. 基礎實驗 (Baseline) ...................................................................................................42. 4.2.2.. 階層式類神經摘要模型實驗 ......................................................................................43. 5. 結論與未來展望 .............................................................................. 49 6. 參考文獻.......................................................................................... 51. v.

(7) 表目錄表 4.1 用於摘要之廣播新聞文件的統計資訊 ........................................................ 40 表 4.2 語音文件中每個語句對應的聲學特徵 ........................................................ 41 表 4.3 基礎實驗結果 .............................................................................................. 42 表 4.4 階層式類神經摘要模型-次詞向量 .............................................................. 44 表 4.5 階層式類神經摘要模型-強化學習 .............................................................. 44 表 4.6 階層式類神經摘要模型-聲學特徵+強化學習............................................. 45 表 4.7 階層式類神經摘要模型-次詞向量+注意力機制 ......................................... 45 表 4.8 階層式類神經摘要模型-次詞向量+注意力機制+強化學習 ....................... 46 表 4.9 階層式類神經摘要模型-綜合比較 .............................................................. 47. vi.

(8) 圖目錄圖 1.1 節錄式語音文件摘要系統示意圖 ................................................................. 2 圖 2.1 自動文件摘要的分類..................................................................................... 7 圖 2.2 節錄式摘要系統流程..................................................................................... 9 圖 2.3 潛在語意分析圖示....................................................................................... 14 圖 3.1 階層式類神經摘要模型-基本架構 ............................................................... 30 圖 3.2 階層式類神經摘要模型-結合聲學特徵 ...................................................... 33 圖 3.3 階層式類神經摘要模型-結合次詞向量 ...................................................... 35 圖 3.4 階層式類神經摘要模型-結合注意力機制................................................... 37 圖 3.5 單類別分類問題示意圖 ............................................................................... 39 圖 4.1 注意力機制權重視覺化 ............................................................................... 48. vii.

(9) 1. 緒論 1.1.. 研究背景與動機. 隨著大數據時代的來臨，巨量且多元的資訊透過網際網路快速地在全球各地傳播，資料內容的呈現方式已不侷限於傳統的紙本形式，包含語音及影像的多媒體資訊逐漸取代靜態的文字資訊，如何有效率地多樣化形式的多媒體資訊，已成為一個刻不容緩的研究課題。此外，在社會逐步行動化的情況下，人手一機已是常態，且伴隨著科技不斷地創新，行動設備不再只能通話和傳遞文本訊息，多媒體訊息如語音及影像等亦能完好地傳遞，更甚於我們能透過聲音及手勢等指令操作設備。在眾多的研究方法中，自動摘要（Automatic summarization）被視為是一項關鍵的技術，其在自然語言處理（Natural language processing, NLP）領域中一直都是熱門的研究議題，因其具有能擷取文件重要資訊的特性，在許多應用上更是不可或缺的一項技術，如問答系統（Question answering）、資訊檢索（Information retrieval）等。另一方面，語音是多媒體文件中最具語意的主要成份之一，如何透過語音（文件）摘要技術有效率地處理時序資料，更是顯得非常重要。其關鍵在於影音文件往往長達數分鐘或數小時，使用者不易於瀏覽與查詢，而必須耗費許多時間閱讀或聆聽整份文件，才能理解其內容，不符合人們想要快速地獲取資訊之目的。對於含有語音訊號的多媒體資訊，我們可先經由自動語音辨識（Automatic speech recognition, ASR）技術將文件轉成易於瀏覽的文字內容，再透過文字文件摘要的技術作處理，以達到摘要語音文件之目的。但因現階段的語音辨識技術仍存在辨識錯誤的問題，也缺乏章節與標點符號，使得語句邊界定義模糊而失去文件的結構資訊；此外，語音文件通常含有一些口語助詞、遲疑、重複等內容，進而使得語音摘要技術的發展更為艱鉅。. 1.

(10) 1.2.. 研究內容與成果. 本論文探討節錄式語音文件摘要任務，即是研究如何從語音文件中依特定比例選取語句作為摘要，同時保留原文之重要資訊。而常見的摘要任務，可分為節錄式（Extractive）摘要與重寫式（Abstractive）摘要，其中節錄式摘要是本論文主要研究的方向；重寫式摘要方法與前者不同之處在於，需先理解文章意涵後，依文章的主旨重新撰寫摘要，其所使用的詞彙與文法不全然從原文中複製，與人們日常撰寫的摘要較為相似。 Automatic Speech Recognition. Transcript. Extractive Text Summarization. Speech signal. 圖 1.1 節錄式語音文件摘要系統示意圖圖 1.1 為節錄式語音文件摘要系統之示意圖，由圖可知常見的語音文件摘要任務主要是分為兩階段，自動語音辨識（Automatic speech recognition, ASR）和自動文件摘要（Automatic document summarization）。當我們得到一語音文件，自動語音辨識系統會先對語音訊號進行特徵抽取，進而透過預先訓練完成之聲學模型（Acoustic model）和語言模型（Language model）進行語音辨識得到其轉寫文件（Transcription）。本論文中所使用的語音辨識系統，是採用國立臺灣師範大學資訊工程學系研究所語音暨機器智能實驗室所發展之大詞彙語音辨識器（Large vocabulary continuous speech recognition system, LVCSR）[Chen et al., 2004; Chen et al., 2005] 進行自動語音辨識。之後我們將辨識後的轉寫文件作為自動文件摘要系統的輸入，並產生其摘要結果。本論文採用之摘要方法為節錄式，因此系統會從語音文件中選取出固定比例的詞彙（Word）、片語（Phrase）、語句（Sentence）或段落（Paragraph）等片段資訊，組合成文件摘要。常見的節錄式摘要多以語句為單位進行擷取，相對於詞彙或片語，語句中表達的含義和文法架構較為完整，也不會像段落一樣包含過多 2.

(11) 的資訊，因此在組成摘要時，文法上不會有太多錯誤及不易閱讀的情況發生。目前的節錄式摘要方法大多是以資料驅動（Data-driven）方法為主。其中，又以深度學習（Deep learning）方法發展出的序列對序列（Sequence-to-sequence）架構 [Bahdanau et al., 2015; Sutskever et al., 2014]在摘要任務上獲得較多學者的青睞。節錄式摘要一般被視為一種序列標記（Sequence labeling）的問題，對文章中每個語句作標記，標示出其是否為摘要後，將被標註為摘要的候選句依固定的摘要比例組合成最後的摘要結果[Cheng and Lapata, 2016; Nallapati et al., 2017]。然而現今的語音文件摘要系統仍有所不足，因其兩階段的特性，在語音辨識的過程中，可能會因人類口語上的習慣而導致辨識上的困難，進而影響到摘要結果的成效。以下列出幾項可能影響語音摘要結果的問題： •. 語句邊界定義模糊：在純文字文件中，我們可以很簡單地透過標點符號. 和換行等等資訊判斷每個語句的邊界；然而在語音文件中，無法知道是否有標點符號的存在，因而很難界定語句的邊界。在語音辨識任務，較常見的方式是將語音中的「停頓」視為其邊界來斷句。過去亦有許多方法被應用於判定語句邊界上，如隱式馬可夫模型（Hidden markov model, HMM）和條件隨機域（Conditional random field, CRF）[Liu et al., 2006]，但直到現今定義邊界仍是一個待解的問題。 •. 詞彙辨識錯誤：由於語音文件摘要大多是先透過自動語音辨識將文件轉. 寫成文字文本後，再經由文件摘要技術得到其摘要。因此自動轉寫文件對於語音文件摘要任務是相當重要的，然而語音辨識系統有可能會發生詞彙辨識錯誤，常見的有插入錯誤（ Insertion errors ）、代換錯誤（Substitution errors）和刪除錯誤（Deletion errors）。這些辨識錯誤都可能使得文件中的結構和表面特徵（Surface features）如命名實體（Named entities）及詞性標記（POS taggings）等受到影響，甚至有可能偏離原本的文件語意，影響摘要的成效。 3.

(12) •. 口語助詞、遲疑或重複：人類在說話時，常常會因當時的情緒及習慣等. 要素影響到其說話方式及內容，因此語音文件中可能會出現口語助詞、停頓或重複的詞句，而這些多餘的資訊都可能影響到語音辨識系統的轉寫。前人亦提出一些解決方案能夠將無關資訊過濾，如背景語言模型或 TF-IDF（Term frequency-inverse document frequency）等方法。然而如何有效率地解決此困難，仍需更深入地探討。除了上述這三項較為常見以外，仍有許多問題會影響到語音辨識的結果。此外，文件規範化（Text normalization）和標註偏移（Label bias）等問題亦存在於語音（文字）文件中[Liu and Hakkani-Tür, 2011]。雖然語音辨識的錯誤對於語音文件摘要任務上會有一定的影響，其主要的影響在於自動轉寫文件中的內文會與人工轉寫結果有差異，進而導致文件摘要系統無法完全準確地理解文件含義，因此導致摘要成效不佳；此外，摘要的呈現亦是一項重要的課題，如何呈現出易於閱讀的摘要，是文件摘要系統中必須學會的重點。而一個好的摘要表達應該著重於以下四個要素： •. 資訊性（Informativity）：摘要結果所包含原文件中的資訊程度，摘要應. 盡可能涵蓋所有重要資訊。 •. 文法性（Grammaticality）：摘要中的語句應符合語言的文法，所得之摘. 要才易於閱讀；若不符合文法，則會被視為關鍵詞擷取（Keyword Extraction）。此要素於重寫式摘要任務上較受關注。 •. 連貫性（Coherency）：此要素所指的是摘要中上下文間的連貫程度，若. 前後句不存在連貫性，則會類似於畫重點的方式條列出重點，而非根據文件主旨所生成之摘要。此要素於節錄式摘要任務上常被提及。 •. 非重複性（Non-Redundancy）：為了能簡化描述，應避免出現過多重複. 的詞句或相似的資訊，若重複的資訊太多會影響使用者閱讀。. 4.

(13) 因此本論文主要會針對上述之資訊性及連貫性兩項要素討論，並嘗試以不同方法避免受到語音辨識錯誤的影響。首先於摘要資訊性部分，本論文發展並改進一個階層式類神經網路架構，其受益於摺積式類神經網路（Convolutional neural networks, CNNs）之語言模型應用以及遞迴式類神經網路（ Recurrent neural networks, RNNs）於自然語言處理領域的優秀表現，使得我們能夠階段式（先語句後全文）地閱讀文件並快速地理解語意；另外我們亦嘗試應用注意力機制（Attention mechanism）更進一步提升模型對於文章的理解度，進而提升摘要資訊性。其次對於摘要連貫性，由於節錄式摘要往往是挑選較符合摘要語句的結果，因此其通常沒有根據語意進行排序，因此本論文亦嘗試將摘要語句的排序及摘要評估指標應用於強化學習（Reinforcement learning, RL）輔助模型訓練。最後為了避免語音辨識錯誤，我們在模型預測摘要的過程中參考語句的聲學特徵（Acoustic features）及次詞資訊（Subword information），其中前者包含原語音文件中的語音特性，可改善兩階段語音文件摘要系統上，進行摘要時無法參考之原語音特性；而後者則是為了改善前述之詞彙辨識錯誤，因辨識錯誤可能發生在詞彙中的部分區塊，而導致斷詞時無法辨別正確的詞彙，若使用次詞資訊則可以使用周邊資訊推測錯誤的部分其正確的語意。. 1.3.. 論文架構. 本論文之章節安排如下所述：第二章回顧過去於文件摘要上具代表性的相關研究。包含文件摘要的歷史沿革、應用類神經網路的各種摘要方法及文件摘要的評估方式。第三章闡述本論文所提出的方法架構。介紹本論文提出的階層式類神經網路架構，同時亦會介紹針對不同面向（摘要資訊性、連貫性和避免語音辨識錯誤）的假設及改良方法。第四章說明本論文的實驗設定與結果。包括實驗語料及實驗結果，並探討各種方法的差異及與過去的研究之效能比較。第五章本論文之總結及未來發展方向。 5.

(14) 2. 文獻探討 2.1.. 自動文件摘要背景概述. 自動文件摘要起源於 1950 後期，第一個研究是[Luhn, 1958]，提出利用詞彙和片語頻率作為特徵來擷取文件中的重要資訊，其主要是利用高頻詞彙將語句加權，進而擷取出摘要。而從 1961 年起，有學者開始提出實體層次方法（Entity-level Approach）[Climeson et al., 1961]，嘗試將句法分析應用於文件摘要上。直到 1969 年，才開始有學者將一些指標性的特徵應用於文件摘要[Edmundson, 1969]上，其構想主要是用不同指標特徵對語句進行加權： •. 線索慣用詞（Cue phrases）：利用語句中是否具有特定的線索慣用詞來決定語句的相關程度。. •. 文件標題（Title）：將語句中所有出現在文件標題的詞彙加總作為語句的分數。. •. 語句位置（Location）：此方法假設在文件開頭的語句相對重要，因此可按照語句在文件中的位置評分。. 隨著技術的逐步演進，在 1975 年出現第一個文件摘要的商業應用[Pollock et al., 1975]。而 1980 年開始，對話摘要（Discourse-based Approach）[vanDijk, 1980]及各種不同方法的應用亦開始有學者深入探討。然而到 1990 年以前，自動文件摘要的研究並不活躍，之後隨著網際網路蓬勃發展、商業價值提高進而有政府的關注下，才使得自動文件摘要任務復甦。與此同時，文件摘要的研究大多著重於節錄式摘要，自然語言處理相關研究也漸漸重視文件摘要任務。此外，由於多媒體技術的提升，各種形式的文件摘要也慢慢現於學者眼前，如多文件摘要（Multi-document summarization）[Salton et al., 1997]、多語言摘要（ Multilingual summarization ）以及多媒體摘要（ Multimedia summarization）[Takeshita et al., 1997]。 6.

(15) 由於多媒體技術的不斷發展與進步，文件內容早已不侷限於文字形式，而是漸漸地出現影像、聲音甚至是影片形式。其中，語音是多媒體文件最具語意的元素之一，因此我們可以透過語音得到很多資訊，而語音文件相關的研究也漸漸受到重視，如語音文件檢索與摘要。然而，語音是一種具有大量時序性的資料，也因此導致傳統文字文件上不曾出現過的問題，如辨識錯誤、語句邊界定義模糊、口語停頓或是重複的無意義詞彙等問題，使得我們無法直接使用傳統的摘要方法。除此之外，如何有效應用語音中蘊含的大量資訊（音高、強度、重音及停頓時間等），來提升摘要系統的準確率，亦是一個相當具有意義的研究題目。直至現今，語音文件摘要仍是一項相當具有挑戰性的課題。. 2.2.. 自動文件摘要分類. 圖 2.1 自動文件摘要的分類自動文件摘要方法主要可依照四個面向分類（如圖 2.1），可依照來源、目的、功能及方法等細分為不同類型： •. 來源：主要分為單文件與多文件，前者指針對單一文件擷取摘要，後者. 則是統整歸納多篇主題相近的文件重點產生摘要。多文件摘要通常會與查詢共同進行為以查詢為主之多文件摘要，同時進行檢索與摘要。. 7.

(16) •. 目的：可分為一般性和查詢導向，一般性的摘要主要專注在文件中的主. 要重點；而查詢導向則會根據查詢字串決定其摘要內容，而查詢導向的摘要通常會與多文件摘要同時出現。 •. 功能：大多數摘要是資訊性的，主要專注在產生原文件的簡短版本，能. 保留其重要資訊；而較少數為指示性和批判性，此二者給予的摘要皆不包含原文的重要內容，前者會指出文件的題目或領域等詮釋資料（Metadata）；而後者則是會判斷整份文件是正面的還是負面的。 •. 方法：此分類方式最為常見，可概分為三種：節錄式摘要（Summarization. by extraction）、重寫式摘要（Summarization by abstraction）及語句壓縮式摘要（Summarization by sentence compression）。節錄式摘要與重寫式摘要之差異在於其產生摘要的原理不同。節錄式摘要是依據固定之摘要比例(Summarization ratio)，從原文件中選出重要性高的語句、段落或章節簡單組合成摘要。摘要比例是指摘要長度與原文件長度的比例，一般我們通常選用 10%的摘要比例，也就是摘要長度為原文件長度的 10%。而重寫式摘要主要會依原文件中的完整概念，重新撰寫出摘要，因此摘要內容中可能還有非原文件中所使用但不影響其語意的詞語。綜上所述，我們可以[Torres-Moreno, 2014]之示例簡單描述節錄式摘要與重寫式摘要的優缺，以學習者為例，一個好的學習者在撰寫摘要時會先閱讀過整篇文章，再以自己的方式撰寫，而得之摘要內容能前後通順且符合文章旨意；而不好的學習者在撰寫摘要時，只會大略看過文章，並且挑選出「可能」重要的語句，組合在一起作為摘要。但此方法得到之摘要可能包含某些不相關的內容，且語句間的銜接可能會有內容不連貫或不通順的情況發生。除了較常見的節錄式摘要及重寫式摘要外，語句壓縮式摘要比較特別一點，主要用於將語句長度縮減，此方法可與節錄式摘要共同使用，而目前通常會將此方法歸類為重寫式摘要的一部分。. 8.

(17) 本論文主要專注於一般性單文件節錄式摘要的研究。此外摘要亦可針對文件形式分類，如常見的文字文件（Text documents）及包含語音資訊的語音文件（Spoken documents），針對不同文件形式，所使用的摘要模型細節也應有所變化。文字文件摘要係指一般以文字內容為主的文件產生之摘要，大部分的摘要研究都屬於文字文件摘要；而語音文件摘要則是使用含有語音資訊的文件，通常是透過語音辨識後得到的轉寫文件，其中可能會含有一些語音辨識產生之錯誤，以及口語上無意義的資訊。因此，語音文件摘要會比文字文件摘要更為困難，反之，語音文件包含語音資訊，可以提供摘要方法更多有意義的資訊，能有效地抵銷其辨識錯誤。. 2.3.. 傳統自動文件摘要方法. 節錄式摘要技術如前述之，常見的方法為從原文件中選取一語句之子集作為其摘要，而摘要中必須包含文件中的重要內容。為了能更簡潔地理解節錄式摘要系統的運作，可以將其細分為三個步驟[Allahyari et al., 2017; Nenkova and McKeown, 2012]（如圖 2.2）：. 建構語意表示. 語句評分. 選取摘要. 圖 2.2 節錄式摘要系統流程 1.. 建構語意表示：摘要系統中首要的部分就是需要建構一個語意表示，此. 表示能夠包含原文件中所有的重要資訊，讓系統能夠根據其內容去判定後續的摘要結果。常見的語意表示可分為三種：主題表示（ Topic representations）、指標表示（Indicator representations）和分散式表示（Distributed representations）；其中主題表示法是將文件中的主題相關內容編譯成一向量表示，可依其複雜度和表示模型的不同分為頻率驅動方法（Frequency-driven approaches）、主題詞彙方法（Topic-word approaches）、 9.

(18) 潛在語意分析（Latent semantic analysis）和貝氏主題模型（Bayesian topic models）等；而指標表示方法則是將語句的各項指標組成其特徵向量，如語句長度及文件中的位置等指標；最後分散式表示則是利用類神經網路方法訓練而得的特徵表示。 2.. 語句評分：當我們得到特徵表示後，需要為每個語句指定一個分數。在. 不同的表示方法上，這個分數代表不同的意義，在主題表示方法中，此分數代表該語句對於重要主題內容的解釋程度；而在指標表示方法中，則是將其指標用不同的方式（權重）組合而得；分散式表示法則可經由類神經網路自動預測，亦可將其表示用其他機器學習方法估算。 3.. 選取摘要：最後，摘要系統需要根據摘要比例篩選出前幾名的語句作為. 文件摘要。而選擇的方法可以大致上分為貪婪法（Greedy algorithm）和最佳化問題（Optimization problem），前者是每次只選取分數最高的語句，後者則是會定義一個目標，每次選取的語句都需盡可能符合該目標，如最大化資訊性或最小化重複性等等。後續之傳統方法介紹，我們將依語意表示方法分為兩小節進行細部的介紹：主題表示和指標表示，分散式表示方法則在下一章節會有詳細探討。. 2.3.1. 基於主題表示之摘要方法在此小節我們將針對常見的主題表示方法類型作簡單的介紹。 A.. 主題詞彙（Topic words）. 主題詞彙技術是過去的摘要方法中較為常見的方式，主要是為了辨識出文件中最能表示主題的詞彙。[Luhn, 1958]是最早將此方式應用於摘要任務上，其以頻率設置一個閾值（Threshold）找出文件中最具代表性的詞彙並用於呈現文件主題。之後亦有研究使用對數似然性比率檢驗（Log-likelihood ratio test）作為辨識主題詞彙的依據[Dunning, 1993]，被稱為主題簽名（Topic signature），此方法對於新聞主 10.

(19) 題的文件較有效率。此外，在主題詞彙方法中，其評分語句的方法亦可分為兩種，第一種方法是長度越長的語句，分數也越高，因其包含的詞彙較多；第二種則是會計算語句中主題詞彙的密度作為其評分的標準。 B.. 頻率驅動方法（Frequency-driven approaches）. 當我們要找到文件中的主題時，需要計算詞彙的權重分數，可以使用二元值或實數作為其權重來判定該詞彙與主題的相關程度。較多人使用的方法是詞彙機率（Word probability）或詞頻與逆文件頻乘積（Term frequency-inverse document frequency, TF-IDF）。 B.1 詞彙機率（Word probability）詞彙出現的頻率是最基本判斷詞彙重要程度的指標，而詞彙的機率可以透過其出現次數𝑓(𝑤)除以文件總字數𝑁來得到，如下式：. 𝑃 (𝑤 ) =. 𝑓 (𝑤 ) 𝑁. (2-1). [Vanderwende et al., 2007] 提出的 SumBasic 方法辨識以詞彙機率為基礎，來判定其語句之重要性分數。首先對於文件中的每個語句𝑆𝑖 ，會將語句中的平均詞彙機率作為其權重分數：. 𝑊(𝑆+ ) =. ∑./∈12 𝑃(𝑤𝑘 ). |{𝑤𝑘 |𝑤𝑘 ∈ 𝑆𝑖 }|. (2-2). 其中𝑊(𝑆+ )是指語句𝑆𝑖 的權重分數。之後會選取具有最高機率詞彙的高分語句作為摘要句之一，此動作是為了保證摘要一定能符合文件主題。接下來會對於已選取之語句中的各個詞彙更新其權重分數，使其之後不會被重複選取：. 𝑃𝑛𝑒𝑤 (𝑤9 ) = 𝑃:;< (𝑤9 )𝑃:;< (𝑤9 ). 11. (2-3).

(20) 以上式更新詞彙機率會使得該詞會之分數比只出現一次的詞彙權重更低，進而減少選取到相似語句的機率。最後會一直重複前述之動作直到選取到固定長度的摘要為止。此方法的摘要選取策略主要是貪婪法，亦有學者將其改為最佳化問題[Yih et al., 2007]，為了最大化每個重要詞彙在整個摘要中的出現頻率。 B.2 詞頻與逆文件頻乘積（TF-IDF）一份文件中的詞彙可以大致上分為內容詞（Content words）和功能詞（Function words），其中與文件主題習習相關的部分為內容詞，而功能詞大多用來判斷一篇文章的寫作風格等與內容主題無相關的任務，因此功能詞亦被視為停用詞（Stop words）。若在判定重要詞彙時僅使用詞彙機率作為依據時，很可能會受到功能詞的影響，因為相同功能詞出現於文件中的頻率往往比內容詞還要多，所以後續的研究大多在建立語意表示時會過濾停用詞，使得語意表示能更專注於文件主題。為了過濾停用詞，需要事先建立一個停用詞表，但這步驟對於非該專業領域的學者而言，是一項耗費資源的事情。因此有學者提出 TF-IDF 的方法，此方法之特色在於其可以保留高頻的內容詞，同時也會過濾大多數的功能詞，因此使得語意表示更加符合文件主題。對於文件中每個詞彙的權重計算方式如下：. 𝑡𝑓+<>(.) = 𝑡𝑓(𝑤) ∗ log. |𝐷| 𝑑𝑓(𝑤). (2-4). 可將上式拆解成兩個部分，乘號前項是計算詞彙頻率，主要是認為在文件中具有高頻率的詞彙便是該文件中的重要內容詞；而後項是計算逆文件頻率，其主要是為了使在許多文件都出現過的詞彙之權重降低，因其很可能為功能詞，對於文件主題是沒有意義的。一般詞彙頻率的計算方式如(2-5). 及(2-6)，其中𝑓(𝑤)為詞彙. 在文件中的出現次數：. 𝑡𝑓 (𝑤) = 1 + log (𝑓(𝑤)). 12. (2-5).

(21) 𝑓 (𝑤 ) max 𝑓(𝑤). (2-6). |𝐷| 𝑑𝑓(𝑤). (2-7). 𝑑𝑓 (𝑤) = |{𝑖|𝑤 ∈ 𝐷+ }|. (2-8). 𝑡𝑓 (𝑤) =. 𝑖𝑑𝑓 (𝑤) = log. 而逆文件頻率的計算方式如(2-7)，其中文件頻率的計算方式為(2-8)，主要是計算詞彙𝑤在幾份文件中出現，通常此項會加 1，避免分母為零的情況發生。計算逆文件頻率的用處在於判定此詞彙對於文件是否具有鑑別力，若其為高文件頻率，則此詞彙對於單一文件而言便不具有鑑別力，應降低其權重；反之，則代表其可能是重要的詞彙，能夠代表文件主題或意涵。 TF-IDF 方法在判定語句重要性的部分上是相當簡潔又快速的，因此有許多研究皆以此方法為基礎[Alguliev et al., 2011; Alguliev et al., 2013; Erkan and Radev, 2004]。此外，基於質心（Centroid）的摘要方法[Radev et al., 2004]亦使用 TF-IDF 表示，此方法首先需找到文件質心，因此我們會先將文件表示由其代表詞彙之 TF-IDF 分數組成的向量表示，之後會使用分群演算法將文件分群並重新計算其質心：. 𝒄K =. ∑<∈LM 𝑑 |𝐶𝑗 |. (2-9). 其中𝒄K 是第𝑗群的質心，而𝐶𝑗則是在該群中的文件集合。質心可以被視為一個虛擬文件其具有高 TF-IDF 值詞彙，並能夠代表該群集。最後我們會將每個語句與質心向量比對，計算其重要分數，而此步驟亦有許多不同方法可以實現，詳細討論可參考[Wan and Yang, 2008]。 C.. 潛在語意分析（Latent semantic analysis, LSA）. 潛在語意分析的整體概念是由[Deerwester et al., 1990] 提出，為一非監督式（Unsupervised）方法，主要目的在於從文件整體用詞遣字上擷取出符合文章語意 13.

(22) 的表示。由於語言特性，大多會有同義詞或是一詞有多種語意的情況出現，而這樣的情況若單只考慮詞彙本身，可能無法正確地理解文件意涵，因而導致文件語意表示的內容不精準，而影響到後續的運作。. topics. sentences. Σ. VT. topics. U. topics. A. topics. words. words. sentences. 圖 2.3 潛在語意分析圖示 [Gong and Liu, 2001]是最早將 LSA 應用於文件摘要任務上的研究，其提出的方法是利用潛在語意分析去選擇高分語句作為作為摘要，並應用於新聞領域的文件。首先 LSA 會先建立一個「詞彙－語句」矩陣（圖 2.3 的 A），矩陣中的每一直行代表文件中的每一語句，而語句中每一欄則代表某個詞彙在語句中的權重，此權重可使用前述之詞彙機率或 TF-IDF 計算得到，若該詞彙沒有出現在該語句中，則其權重為零。之後透過奇異值分解（Singular value decomposition, SVD）來計算，將矩陣 A 投影到低維度的潛在語意空間中，可利用下式將矩陣 A 拆解為圖 2.3 中等號右邊的三個矩陣：. 𝐴 = 𝑈Σ𝑉 T. (2-10). 其中矩陣 U 代表一「詞彙－主題」矩陣，其中的每一欄具有對應的權重；而 Σ 則代表一對角矩陣，其中每一列代表主題對應的權重值；最後的 VT 則是「主題－語句」矩陣。利用下式可以找出每個語句對於文件主題的解釋程度：. 𝐷 = Σ𝑉 T. 14. (2-11).

(23) [Gong and Liu, 2001]的方法會針對每個主題選取一個語句作為最後的文件摘要，因此主題的數量是依據摘要長度所決定。但是此方法仍有缺點，因為對於一個主題而言，可能需要不只一個語句才能完整地表達。為了改善這項缺點，後來亦出現許多研究來增進 LSA 於文件摘要上的發展，其中便有學者調整每個主題的權重用以決定其對應的摘要長度，使得摘要內容可根據主題變化；另外亦有學者提出一個更優異的 LSA 摘要方法[Steinberger et al., 2007]，其概念是認為涵蓋多個重要主題的語句都有可能是摘要句，因而重新定義語句的權重。除了上述二者改進外，亦有許多 LSA 的不同變化應用於文件摘要上。 D.. 貝氏主題模型（Bayesian topic models）. 貝氏主題模型是一個機率模型，其對於擷取和呈現文件中重要資訊相當擅長，主要優點在於能夠細部地描述及呈現主題，使得摘要系統能有效地分辨文件語句中的相似及差異。相對於增強文件或主題的語意表示，主題模型的核心概念在於其具有一個距離公式，用於評分每個語句，而較常用的距離公式為庫爾貝克-萊伯勒（Kullbak-Liebler, KL），其為一種計算兩個機率分佈之間的差異（散度）的公式 []，亦稱為 KL 散度。在文件摘要應用上，我們會計算詞彙 𝑤 在機率分佈 𝑃 和機率分佈 𝑄 之間的 KL 散度：. 𝐷VW (𝑃||𝑄) = X 𝑃 (𝑤) log .. 𝑃 (𝑤 ) 𝑄 (𝑤 ). (2-12). KL 散度應用於文件摘要上，可以很明顯地看出好的摘要內容，其與文件的相似程度是相當高的。此方法能夠發現在摘要和文件中的詞彙重要程度，舉例而言，優秀的摘要其 KL 散度應該是較低的。近幾年，機率主題模型在許多領域的研究 [Allahyari and Kochut, 2015; Allahyari and Kochut, 2016a; Allahyari and Kochut, 2016b; Allayari and Kochut, 2016c; Chua and Asur, 2013; Hannon et al., 2011; Na et al., 2014; Ren et al., 2013]上都有相當的影響力，其中的隱含迪利克雷分佈（Latent Dirichlet allocation, LDA）模型是 15.

(24) 相當新穎的非監督式方法，其主要想法是認為每篇文件都是由數個主題構成，而每個主題都能用數個重要的詞彙表示，且相同詞彙可同時出現在不同主題。LDA 大多應用於多文件摘要任務[Daume and Marcu, 2006; Wang et al., 2009; Celikyilmaz and Hakkani-Tur, 2010]，因其特性使得其在文件數量足夠的情況下能有效地快速理解文件的主題分佈，使其在多文件摘要任務上有相當優異的效果。. 2.3.2. 基於指標表示之摘要方法指標表示方法是為了將文字內容轉換成一組特徵，並將其直接用於排序語句。其中圖形方法和機器學習技術大多使用此類型的語意表示。 A.. 圖形方法（Graph methods）. 應用於文件摘要上的圖形方法主要是從對網頁作排名的 PageRank 演算法 [Mihalcea and Tarau, 2004]演變而來，而主要的想法是讓文件表示成一個連結圖（Connected Graph），每個語句就是圖上的一個節點（Vertex），節點與節點間的邊（Edge）則是代表語句間的相似度。在決定節點與節點間是否具有邊的時候，常見的方法是設定一個相似度的閾值，超過的才會成為一個邊。而通常計算語句相似度時會先使用 TF-IDF 找到語句的權重，並以餘弦相似度來計算。此圖形方法得到的結果主要會有兩個面向，首先是找到圖形中的子圖，子圖代表著文件中各種不同的主題；其次是辨識重要的語句，當一個語句在子圖中與其他多個語句具有連結，則該語句很有可能為該子圖的中心，也就表示該語句很有可能是摘要的一部分，因此可以簡單表示為下式，𝑊𝑆 (𝑉+ ) 為語句節點 𝑖 的分數： 𝑊𝑆 (𝑉+ ) = (1 − 𝑑 ) + 𝑑 ∙. 𝑤K+. X [M ∈ab([2 ). ∑[/∈\]^_[M ` 𝑤K9. 𝑊𝑆_𝑉K `. (2-13). 其中 𝑑 為阻尼係數（Damping factor），在此定義為若該句為摘要則下一句亦為摘要的機率，則反之 (1 − 𝑑 ) 則是指任選一句剛好為摘要的機率；而 𝐼𝑛(𝑉+ ) 和 𝑂𝑢𝑡_𝑉K ` 主要為連到節點 𝑖 的節點們和從節點 𝑗 連出的節點們，對於摘要任務上， 16.

(25) 節點與節點間不具有方向性，因此此二函式可視為相同的。因此我們便可從節點 𝑖 有關聯的節點來判定該節點是否中心，進而再從關聯節點找到更多的連結來判定此節點是否剛好為一個子圖的中心節點，若是，則代表該節點語句是摘要之一。圖形方法可以很方便快速地應用在單文件和多文件摘要任務上[Erkan and Radev, 2004]，因為此方法除了定義語句和詞彙的邊界外，不需要過多的語言相關知識輔助，而且還能應用到多種不同的語言上[Mihalcea and Tarau, 2005]。然而，此方法應用 TF-IDF 權重計算相似度的部分仍有些侷限，因為 TF-IDF 只具有詞彙頻率等資訊而不包含語句結構和語意等，因此若在計算相似度時能考慮結構和語意等資訊，便能有效地提升摘要系統的成效[Chali and Joty, 2008]。直至現今，因圖形方法其快速且準確度不低的特性，仍有許多學者將其不斷改良於各種研究。 B.. 機器學習（Machine learning）. 機器學習技術與前面提到的方法相當不同，其將摘要任務視為一個分類問題，可以將語句給予類別，判定其是否為摘要，而非僅僅只是計算分數。[Kupiec et al., 1995]是最早將機器學習技術應用於文件摘要上的研究，提出單純貝氏分類器（Naïve Bayes classifier）將語句分類成摘要或非摘要，由於此方法屬於監督式學習，所以會需要訓練資料及其對應的正確摘要結果。此方法會利用貝氏定理來學習分類機率：. 𝑃(𝑠 ∈ 𝑆|𝑓g , 𝑓i , … , 𝑓9 ) =. 𝑃(𝑓g , 𝑓i , … , 𝑓9 |𝑠 ∈ 𝑆)𝑃(𝑠 ∈ 𝑆) 𝑃(𝑓g , 𝑓i , … , 𝑓9 ). (2-14). 其中 𝑠 代表文件中的語句，𝑆 則是產生的摘要，而 𝑓g , 𝑓i , … , 𝑓9 是分類用的特徵組合。每個特徵皆為一種指標函式（長度、位置及頻率等），因此可以假設特徵之間皆為彼此獨立的情況，可以將(2-14)改為下式：. 𝑃(𝑠 ∈ 𝑆|𝑓g , 𝑓i , … , 𝑓9 ) =. ∏9+lg 𝑃 (𝑓+ |𝑠 ∈ 𝑆) 𝑃(𝑠 ∈ 𝑆) ∏9+lg 𝑃(𝑓+ ) 17. (2-15).

(26) 使用單純貝氏分類器計算出語句是摘要的機率值可視為語句的分數，而此方法便是語句的評分機制。其中常用以分類摘要的特徵包含語句長度、語句在文件中的位置、命名實體（Named entities）數量及語句和文件標題相似度等等。除了單純貝氏分類器外，決策樹（Decision tree）、支援向量機（Support vector machine, SVM）、隱式馬可夫模型（Hidden Markov model, HMM）和條件隨機場域（Conditional random fields, CRF）等機器學習方法亦被應用於文件摘要，其中以 HMM[Conroy and O’leary, 2001]和 CRF[Shen et al., 2007]在文件摘要研究上的效果較為顯著。然而應用監督式學習於文件摘要時需要注意一個重要的課題，因為訓練分類器需要一組已經標記好正確類別的訓練樣本，但取得正確標記是一項有挑戰性的問題。因此學者們便提出幾種替代方案嘗試解決這項問題，較常見的有以下兩種： •. 製作有標記的語料（Annotated corpora）：製作有標記的語料能夠造福. 學者，因為具有越多基準可以參考，更能比較出不同摘要方法的優劣，而且也能降低過度學習（Overfitting）的風險。然而要幫語料標記其實是一項相當耗時且複雜的工作，因為沒有一項標準能遵循，會導致不同人選擇的摘要語句會不同，不一定正確。 •. 半監督式學習（Semi-supervised learning）：另一種方法則是利用半監督. 式學習來訓練分類器。在半監督式學習中，訓練樣本不需全部都具有標記，通常都是以少量的標記資料配合大量無標記資料。因此[]提出一種半監督式方法應用在節錄式摘要任務上，同時使用無標記資料訓練兩個分類器，當特定無標記資料得到較高的分數時，則可被加入標記資料中，之後便可以使用新的訓練資料集訓練了。機器學習技術在文件摘要任務上的表現相較於前述的方法，得到相當優秀的成果。此章節討論的傳統摘要方法大多是以手工建構的特徵作為輸入，下一章節會討論應用深層學習技術同時學習特徵跟分類的摘要應用。 18.

(27) 2.4.. 深層學習摘要技術. 有鑒於深層學習的蓬勃發展，現今的技術大多是以深層類神經網路架構為主。深層學習主要是模擬人類之學習模式，將深層類神經網路架構視為人類大腦神經系統，並輔以大量資料進行訓練，使其能夠學習如何解決該研究問題。其架構中主要學習的是輸入與輸出之間的關係，藉由將不同的輸入樣本投影至相同的空間中，我們即可在該空間中將每個輸入樣本對應至正確的輸出，進而得到正確的結果。因此後續之文獻探討將以深層學習方法為主。. 2.4.1. 節錄式摘要方法在節錄式文件摘要任務中，我們通常可以將其視為分類問題，因為我們要判斷文件中的語句「是否」為摘要。而分類問題在深層學習技術中是最基本的問題，但是節錄式摘要任務還是有相當的難度，因為除了簡單的分類外，我們還需理解並解析出文件的重要資訊，才能知道哪些語句有機會成為摘要。 [Cheng and Lapata, 2016] 將節錄式摘要任務視為一種序列標記及排序問題，其方法主要的特色在於使用一階層式編碼器和含有注意力機制 (Attention mechanism)的解碼器。階層式的編碼器有兩層，第一層為摺積式類神經網路 (Convolutional neural networks, CNNs)，是參考[Kim, 2014]的方法，使用 CNN 計算語句的向量表示；第二層為遞迴式類神經網路(Recurrent neural networks, RNNs)，將語句向量做為每個時間點的輸入，而將最後一個時間點的輸出視為文件的向量表示。此作法對於較長的文章而言是相當有效的，因為文章過長時，若單使用一個 RNN，則有可能會遺失掉許多重要的資訊。最後透過另一個 RNN 對每個語句進行標記，並使用預測出的分數進行排序，進而得到最後的摘要成果。此外， [Cheng and Lapata, 2016]還嘗試用節錄式的方法模擬出重寫式摘要，與前述標記語句的不同，主要是從原文件中挑選單詞後組合成摘要句，而生成之摘要相當不符合文法性也不通順，不過關鍵詞彙基本上都能涵蓋。以此得知，[Cheng and 19.

(28) Lapata] 的方法在語言理解 (Language understanding) 及資訊擷取 (Information extraction)有不錯的成效。除了[Cheng and Lapata, 2016]同時進行節錄式摘要與重寫式摘要的研究外， [Nallapati et al., 2017]提出的 SummaRuNNer 亦嘗試生成重寫式摘要。與[Cheng and Lapata, 2016]不同之處在於 SummaRuNNer 在節錄式摘要任務上，並非使用編碼解碼器架構，僅是單純地建立兩層雙向 RNN 後便判斷語句標記為何。相似之處在於其 RNN 也是階層式的架構，第一層輸入為詞彙向量，第二層則是第一層輸出所得之語句向量。此種作法中使用的參數量較少，因此收斂速度也較為快速。除了節錄式摘要任務外，[Nallapati et al., 2017]也嘗試將最後一層預測標記，改為一個簡易解碼器用於重寫式摘要任務。此外，由於摘要任務使用之資料集一般是沒有摘要標記的，[Nallapati et al., 2017]提出一種貪婪法對每個語句標記摘要，這個方法能夠找到較好的摘要組合而非只是找單獨比對每句的重要性，亦有許多學者嘗試將此方法用於自身的任務上。隨著近幾年強化學習(Reinforcement learning)的熱潮，亦有學者將強化學習應用於節錄式摘要任務上，[Narayan et al., 2018a]為了解決前述之節錄式摘要沒有正確摘要標記的情況，因此加入強化學習。其主要架構是改良自[Cheng and Lapata, 2016]，不同之處在於其在第二層編碼器的語句輸入是以倒序方式輸入，因為大多數文件通常會將主旨置於較前面的段落，再加上 RNN 比較容易記得後面時間點資訊的特性，此方式能夠將重要資訊更清楚記得。[Narayan et al., 2018a]所使用的強化學習方法，是最基礎的策略梯度(Policy gradient)，也就是透過計算得之獎勵 (Reward)分數與模型訓練梯度加成，使其能夠往我們期待的方向進行訓練。 [Narayan et al., 2018a]所使用的獎勵分數是使用預測摘要與標準摘要的評估分數，而此方法讓模型收斂速度增加，同時也提升準確度，是一項跳躍性地成長。然而，對於節錄式摘要任務來說，模型對文件的理解應該要能達到支撐後續分類摘要語句的程度，意即模型所得之文件向量表示應完整涵蓋文件主旨。根據不同的撰寫方式，文件主旨可能分散於文件的不同部分，除去文件主旨的段落， 20.

(29) 文件的其他部分應為支持主旨的相關論述。如何讓模型可以準確地理解文件主題呢？[Ren et al., 2017]針對此議題提出一個有效的方法，其在產生語句向量表示時，亦將前面的語句以及後面的語句與該句的相關性串接，同時放入一些與該句相關的人工特徵（語句長度、位置等），使得分類時能使用更具語意的語句向量。此方法之架構相當大，但得到之摘要效果也相當不錯。不過從實驗分析可以發現對於摘要結果有較多貢獻的部分大多在於人工特徵上，以此我們可以推論，類神經網路的學習仍需人工特徵輔助方可更加提升成效。單單只讓類神經網路架構自動學習語句或文件向量表示的效果仍有限，若能加入一些相關的額外資訊輔助訓練，可以讓我們的方法更深入地學習到文件重要資訊。[Narayan et al., 2018b]提出在摘要方法中參考文件的標題資訊，可以讓我們的方法更快速地找到文件的主旨，而以此得到的文件向量表示也較能涵蓋文件主旨，因而能提升摘要的成效。而[Narayan et al., 2018b]主要用的基本架構是由 [Narayan et al., 2018a]變化而成，差異在於其將額外資訊向量與語句向量共同用於判斷是否為摘要。此方法更是驗證類神經網路架構有額外資訊輔助能學習更好。. 2.4.2. 重寫式摘要方法 [Rush et al., 2015] 是最早將類神經網路架構應用於重寫式摘要的研究，其主要的架構是改良至 [Bahdanau et al., 2014] 提出的編碼解碼器 (Encoder-Decoder) 與注意力機制，亦稱之為序列對序列模型，並應用於重寫式摘要任務。注意力機制能讓輸入文件內容與輸出摘要中的文字作一個對應，能找到文件與摘要中詞彙間的關係。[Rush et al., 2015] 的架構與 [Bahdanau et al., 2014] 不同之處在於其並非使用遞迴式類神經網路作為編碼器與解碼器，而是使用最基本的前向式類神經網路 (Feed-forward Neural Networks) 結合注意力機制作為其編碼器，而解碼器則是基於 [Bengio et al., 2013] 提出的 NNLM 變化。此方法在語句摘要 (Sentence Summarization) 任務上得到相當優異的成效，因此也證實類神經網路能夠適用於重寫式摘要任務上。 21.

(30) 隨著深層學習的快速發展，遞迴式類神經網路在序列相關任務上的成功亦漸漸廣為人知，因此[Chopra et al., 2016] 則提出一個遞迴式類神經網路的編碼解碼器架構，應用於語句摘要任務上。此方法主要是 [Rush et al., 2015] 的延伸，其編碼器使用摺積式類神經網路，而解碼器則使用長短期記憶 (Long Short-Term Memory, LSTM) [Hochreiter and Schmidhuber, 1997] 單元作為遞迴式類神經網路的基本單元。LSTM 是遞迴式類神經網路演變的架構，因其具有三個閘門: 輸入閘 (input gate)、遺忘閘 (forget gate) 及輸出閘 (output gate)，以及一個記憶單元 (memory cell)，所以可以改善消失的梯度(Vanishing Gradient)問題，同時透過不斷更新記憶單元，能保留更多重要資訊，不會隨著時間太長而遺忘以前的資訊。與此同時，[Nallapati et al., 2016] 從 [Rush et al., 2015] 和 [Chopra et al., 2016] 發想出許多架構，同時也解決許多重寫式摘要潛在的問題。基本的架構是跟 [Bahdanau et al., 2014] 提出的序列對序列模型相似，同時也加入注意力機制，而與 [Chopra et al., 2016] 不同之處則是在於其編碼器與解碼器皆使用遞迴式類神經網路，且使用 [Cho et al., 2014] 提出的 Gated Recurrent Unit (GRU) 而非 LSTM， GRU 同樣具有閘門，但是僅有兩個，且沒有額外的記憶單元，但是整體的記憶效果是一樣的，訓練參數量減少很多，可以比 LSTM 更快速地建構和訓練。[Nallapati et al., 2016] 中提到在語言生成時會遇到未知詞 (Out-of-vocabulary, OOV) 問題，為了解決此問題，加入 Large Vocabulary Trick (LVT)[Jean et al., 2014]，此技術是對每小批 (mini-batch) 訓練資料建立單獨的解碼用詞典，因此能夠讓詞典不會太大，同時又能在訓練的時候減少發生未知詞問題。除了基本架構外，還提出三種改良的版本，第一種是在輸入時加入一些額外的特徵，如：詞性、詞頻等；第二種則是在解碼器生成詞彙之前，加入一個控制器，控制解碼器是否要生成新詞或從輸入文件複製，此一機制是參考 [Vinyals et al., 2015] 提出的 Pointer Network 架構，當文件中有專有名詞出現時，但解碼器的詞典中可能沒有該詞彙，就需要從輸入資料中複製使用；最後則是將編碼器改成階層式的編碼器，一般的編碼器輸入都是整篇文章的每個詞彙，不考慮語句的分界，而階層式編碼器第一層的輸入 22.

(31) 一樣是整篇文章的每個詞彙，當遇到每個語句的結尾詞時，就會將此時的輸出向量視為語句的向量表示，並作為第二層的輸入，也就是說，第二層的輸入是文章中的語句，這種方法能夠得到更細部的文件資訊，也使得產生之摘要內容較符合文章主旨。雖然在 [Nallapati et al., 2016] 已經有嘗試將 Pointer Network 的想法結合進模型中，但是此種方法過於強硬，因為此控制器得到的結果僅能二選一。因此 [See et al., 2017] 提出的架構能有效的解決此狀況，此篇研究提出的方法是以同時進行產生新詞與選取原有詞彙的動作，最後利用一機率值簡單線性結合兩者所得到的機率分佈，以此得到最終的詞典機率分佈，詞典中包含解碼詞典與輸入文件的詞彙。此外，[See et al., 2017]亦提出一種 Coverage 機制，此機制主要是為了解決在語言生成任務上容易出現 OOV 和重複詞的問題，其在每個時間點會將以前時間點得到的注意力分佈加總後作為一 coverage 向量，維度大小為編碼器的時間點數量，而後在當前時間點會參考此向量計算注意力分佈，同時也會將此向量和注意力分佈進行比較，找出每個維度最小值後加總便得到一 coverage 損失，之後會做為訓練時使用的懲罰值，讓模型可以將重複詞的機率降低。此研究所得到的摘要效果比以往的重寫式摘要優異許多，而實驗結果亦顯示摘要成果比較偏向於節錄式摘要，因為複製的比例比生成的比例高出許多，與此同時我們也發現節錄式摘要的成效仍比重寫式摘要更為顯著。. 2.5.. 自動文件摘要的評估方式. 近幾年來，隨著自動文件摘要任務被廣泛地探討，為了提升摘要的準確率，許許多多創新的方法被提出。如何有意義地評估摘要結果是一項重要的議題，一個好的摘要應該具有易讀性且能概括原文中的重點資訊，使人可以一目瞭然；那怎麼才算是好摘要？如何判斷摘要內容足夠簡單明瞭？又該如何得知摘要內容有擷取到原文的核心概念呢？然而上述的評估問題都相對主觀，人對於語言的理解度 23.

(32) 都不盡相同，因此閱讀文章的面向也截然不同，如何找到一個客觀且適合多數人閱讀的摘要是一個相當具有挑戰性的問題。直至目前，對於摘要結果的評估仍沒有一套明確的指標。對於自動摘要的評估方法，從 1990 年底開始有研究組織提出一系列針對自動摘要評估的會議 [Saggion and Poibeau, 2013]，如 SUMMAC [Mani et al., 2002], DUC (the Document Understanding Conference) [Over et al., 2007] 以及 TAC (the Text Analysis Conference) [Dang, 2008]。這些會議對於摘要的評估標準有關鍵性地影響，亦訂定後來摘要研究中常使用的評估標準。一般來說，在自動化評估方法中有三個主要的問題需要解決，首先評估方法必須知道哪些詞或句是原文中重要的內容，在評估的過程中才能知道摘要內容是否包含原文的重要片段；其次摘要內容有時可能會經過重新描述，原文的重要片段在摘要中因而會有不同的呈現方式，所以評估方法應能自動辨識；最後評估方法也需判斷摘要的可讀性，可讀性不佳的摘要縱使有擷取到重要片段，頂多只能算是關鍵字擷取而非一個完整的摘要。在本節中，我們將會探討目前常用於節錄式摘要任務的評估方法。節錄式摘要主要是透過標註或選取原文中的重要片段所生成的摘要，因此可以用自動評估方法，將其內容與對應文件的參考摘要進行評估；反之，若是遇上重寫式摘要，其中可能會將詞彙進行代換，則不太適用自動化評估，因為自動評估通常都是以比較詞彙覆蓋率為主。所謂的參考摘要為經由人工標註或重新撰寫的文件摘要，通常我們會以此作為正確摘要，用於評估摘要成效時參考。參考摘要可能包含一些主觀的因素，因為參考摘要通常是請幾位領域專家針對文本進行摘要標註。標註的方式亦可分為節錄式與重寫式，節錄式是指標註者從原文件中標註或選取重要的片段作為摘要，而重寫式則是讓標註者根據原文件的內容，撰寫一份簡短的描述。然而因標註者在閱讀文件時關注的重點可能有所不同，所得到的摘要也會包含其主觀想法。因而在進行摘要評估的時候，為了能. 24.

(33) 更全面性地評估摘要結果，我們會採用多種版本的參考摘要計算摘要成效，並使用其平均值作為最終的摘要正確率。現今摘要任務中所廣泛使用之評估方法，主要可分為主觀評估及客觀評估，其中主觀評估是以人的主觀判斷及評估摘要結果，亦可稱之為人工評估；而客觀評估通常是與參考摘要進行比較，並根據特定公式自動地計算摘要的正確率作為評估結果，亦被稱之為自動評估。後續我們將詳述主觀評估和客觀評估的方法。. 2.5.1. 主觀評估主觀評估是由評估者對自動摘要結果進行評估。舉例而言，DUC 在評估摘要的時候，通常會以摘要內容是否涵蓋文件資訊為目標給定分數；而 TAC 的評估方式亦有所不同，其主要是查詢導向的摘要，因此需要評估摘要內容是否有符合查詢問題要求的。而一般情況下，主觀評估通常會評估摘要的品質和可讀性，常見的評估依據有四個： •. 正確的語句結構. •. 通順的語意. •. 具有邏輯的文意組織. •. 沒有冗余資訊. 但上述之評估依據在完全自動化評分上其實是比較難以實現的，尤其是語意通順和邏輯組織方面更難以評分。因此為了能從各個面向得到可信的評分，請人進行評估是相當必要的事。在 DUC 和 TAC 中，通常會給予專家幾個評估面向以利於對摘要進行評分，主要是以下幾種： •. 資訊性(Informativity). •. 語法性(Grammaticality). •. 連貫性(Coherency). •. 非重複性(Non-redundancy) 25.

(34) 專家必須根據上述之面向給予 0 到 10 的分數，0 為最差，而 10 為最好的。為了避免單一專家的評估結果之可信度和客觀度不足，因此通常會由多位專家同時進行評估，最後以大多數評估者的結果作為最終評估結果。. 2.5.2. 客觀評估從 21 世紀初開始，逐漸出現一系列客觀評估的方法，大多數皆是直接比較產生的摘要和參考摘要。因此以下簡單介紹幾個比較常見的評估方式：摘要準確率（Summarization accuracy）[Hori et al., 2004; Hirohata et al., 2005]、語句召回率/精準率（Recall/Precision）[Hirohata et al., 2005]、ROUGE 評估[Lin, 2004]和 BLEU 評估[Papineni et al., 2005]。 A.. 摘要準確率. 基本概念是計算自動摘要和參考摘要之間的準確率。主要計算方式是將自動摘要和參考摘要分別以詞序列表示，然後依下式計算準確率：. 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =. 𝐿𝑒𝑛𝑔𝑡ℎ − (𝑆𝑢𝑏𝑠𝑡𝑖𝑡𝑢𝑡𝑖𝑜𝑛 + 𝐼𝑛𝑠𝑒𝑟𝑡𝑖𝑜𝑛 + 𝐷𝑒𝑙𝑒𝑡𝑖𝑜𝑛) 𝐿𝑒𝑛𝑔𝑡ℎ. (2-16). 首先需要知道參考摘要的長度（Length），即為詞的數量，之後將自動摘要與參考摘要對齊後比較，並計算出詞的替換（Substitution）個數、插入（Insertion）個數和刪除（Deletion）個數。如果有多份參考摘要，則只需選定一份與自動摘要最為相近的計算其準確率，亦可以計算每一份的準確率之後以其平均值或最大值作為評估結果。 B.. 語句召回率/精準率. 此方法主要是計算自動摘要中正確的摘要語句佔參考摘要中語句的比例（召回率），以及自動摘要中正確的摘要語句佔其的比例（精準率）。評估時通常以召回率、精準率和 F 評估（F-measure）為主。計算公式如下： 26.

(35) 𝑅𝑒𝑐𝑎𝑙𝑙 =. |𝑆x:<y; ∩ 𝑆{y>y{yb|y | |𝑆{y>y{yb|y |. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =. 𝐹_𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =. (2-17). |𝑆x:<y; ∩ 𝑆{y>y{yb|y | |𝑆x:<y; |. (2-18). 2 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛. (2-19). 其中 𝑆x:<y; 代表自動摘要，而 𝑆{y>y{yb|y 則代表參考摘要。此方法比較適用於節錄式文字文件摘要，因語音文件具有語句邊界定義的問題，無法正確定義出語句間的斷點，而且語音文件的語句邊界可能與參考摘要中的有所出入，所以不適用於語音文件摘要的評估。 C.. ROUGE. ROUGE 是一種召回導向（Recall-Oriented）的評估指標，主要作法是基於比較自動摘要和一或多個參考摘要之間之間重疊的元素數量。一般都會使用多個參考摘要來達到評估的公平性。ROUGE 具有多種評估方式，以下列出幾種常見的： •. ROUGE-n：最基本的一種，主要是比較自動摘要和參考摘要之間 n 連詞（n-gram）的重疊率。計算方式是先找出自動摘要和參考摘要中的所有 n 連詞後，計算相同的 n 連詞數量和參考摘要的 n 連詞總數的比率。. •. ROUGE-L：因為 N 連詞沒辦法找到太長的序列，因此可改用最長相同子序列（The longest common sequence）。主要作法是先計算自動摘要和參考摘要之間的最長相同子序列，之後計算最長相同子序列和參考摘要的詞數量比率。. 目前大多數摘要方法都使用此方法進行評估，因其比較能評估到摘要的語意。. 27.

(36) D.. BLEU. BLEU 大多是用於翻譯任務的評估，但也有少數會將其用於評估摘要結果。其核心概念是「越近似於人類翻譯的機器翻譯結果越佳」，因此也相當適用於摘要結果評估。其計算方式與 ROUGE 不太相同，是以精準率為主的計算。不過 BLEU 亦有缺點，當自動摘要內容都是相同的詞時且剛好該詞也出現在參考摘要中，則會將每個詞都算一次正確詞，因而導致最後的精準率超高，但實際結果卻很差，因此 BLEU 亦有各種不同的計算方式可以使用。. 除了上述的評估方式外，其他還有許多應用於摘要評估的方法。由於評估方法很多，適用的對象也不盡相同，因此可以選擇較為適用的方法，也可選擇多種方法得到更準確的評估。本論文主要採用 ROUGE-1、ROUGE-2 和 ROUGE-L 等方法進行摘要評估，也較好與過去的實驗結果進行分析比較。. 28.

(37) 3. 研究方法本論文探討階層式語意及聲學特徵表示於節錄式語音文件摘要之研究，並提出以類神經網路為基礎之模型架構。此外，為了避免摘要結果受到語音辨識錯誤之影響，我們嘗試結合聲學特徵及次詞向量；同時，我們也加入注意力機制與強化學習於模型訓練中，以增加摘要的資訊性。. 3.1.. 問題定義與假設. 首先，我們將語音文件摘要任務定義為一序列標記問題，主要是針對文件中的語句進行摘要的標註。其中摘要類別可分為摘要和非摘要，分別以 1 和 0 表示，因此我們將任務目標定義為最大化類別機率，亦為最大化似然性，並可將目標函式定義為下式：. „. 𝑙𝑜𝑔 𝑝(𝒚|𝐷, 𝜃) = X 𝑝(𝑦+ |𝑠+ , 𝐷, 𝜃). (3-1). +lg. 對於每個語音文件，我們定義以下幾點假設： •. 語音資訊可透過額外的聲學特徵參考進模型訓練. •. 使用字向量可有效改善語句表示的成效並抵銷語音辨識錯誤. •. 摘要句可被其他非摘要句解釋. •. 強化學習技術可訓練摘要之排序. 下一節我們會針對上述之假設對模型架構進行不同的改進，且會詳細闡述其動機。. 29.

(38) 3.2.. 階層式類神經摘要模型. 我們將語音摘要問題視為一語句分類暨排序問題，以期能依文件主旨選出可能為摘要的語句，且同時能學習到摘要語句間有意義的排序，使得摘要內容能更流暢地表達文件主題及概念。當給定一文件 𝐷 時，其為一語句序列 (𝑠g , … , 𝑠b )，我們的方法會從 𝐷 中選取 𝑀個語句經由排序後作為其摘要。對於每個語句 𝑠+ ∈ 𝐷，我們會預測一分數 𝑝(𝑦+ |𝑠+ , 𝐷, 𝜃) ，作為判定是否為摘要的依據 𝑦+ ∈ (0, 1)。之後會依照語句被視為摘要的分數 𝑝(𝑦+ = 1|𝑠+ , 𝐷, 𝜃) 對所有語句進行排序，取前 𝑀 個語句作為此文件摘要。因此，我們提出一階層式類神經摘要模型，我們會先介紹基本模型架構，之後再介紹四個因應問題假設而提出的附屬架構。. 圖 3.1 階層式類神經摘要模型-基本架構. 3.2.1. 基本架構基本架構中包含一階層式編碼器及一解碼器，亦稱之為語句選取器。階層式編碼器中主要有兩個階層，我們會先針對文件中的語句找到對應的語句表示，再從語句表示中學習到文件中的重要概念，亦可稱為文件表示；最後會將語句表示及文件表示皆放置於語句選取器中，使其能夠根據文件表示及語句表示，辨別及排序摘要句。 30.

(39) 語句編碼器我們利用摺積式類神經網路 (Convolutional Neural Networks, CNNs) 將每個不同長度的語句投影至向量空間，能夠得到固定長度的向量表示 (Representation)。在過去的研究中顯示，CNNs 在 NLP 領域的任務中有相當不錯的成效[Cheng and Lapata, 2016; Collobort et al., 2011; Kalchbrenner et al., 2014; Kim et al., 2016, Lei et al., 2015; Zhang et al., 2015]。我們使用 1-D 摺積 (Convolution) 並給定寬度 ℎ 的摺積核 (Kernel) 𝐾，其定義為每次看 ℎ 個詞彙，類似於 N 元模型 (N-gram) 的概念，可得到特徵圖 (Feature map) 𝑓。之後，對每個特徵圖沿著時序使用最大池化 (Max Pooling)，將特徵圖中的最大值視為語句特徵。為了能找到更好的特徵，我們使用多種寬度的摺積核，且每種寬度有多個不同的摺積核，最後將所得到的特徵串接在一起，即為語句的向量表示。. 文件編碼器在文件編碼器中，我們使用遞迴式類神經網路 (Recurrent Neural Networks, RNNs)，將每個文件的語句序列轉換成一固定長度之向量表示，其能夠擷取到文件中的重要資訊。其中為了避免產生消失的梯度 (Vanishing Gradient) 問題，我們選擇使用 GRU (Gated Recurrent Unit) [Cho et al., 2014] 作為 RNN 的基本單元。此外，我們參考相關實作，將文件以倒序的方式作為輸入[Narayan et al., 2017; Narayan et al., 2018a; Narayan et al., 2018b; Sutskever et al., 2014]。由於我們使用的訓練語料是以新聞為主，而大多數新聞的主旨通常座落於開頭幾句，因此以倒序方式輸入文章，能使得 RNN 對重要資訊記憶更深，因此可定義下列算式：. 𝐡+ = 𝑓 y (𝐡+‰g , 𝐬+ ). (3-2). 𝐝 = 𝐡g. (3-3). 31.

(40) 其中 𝑓 y (∙) 為 RNN，𝐡+ 是序列中每個時間點經過 RNN 運算後得到的隱藏層輸出，而 𝐬+ 為語句向量。因輸入方式為倒序，所以每個時間點 𝐡+ 都會參考後一時間點的輸出 𝐡+‰g 及當前時間點的語句向量 𝐬+ 。最後為了能得到整篇文章的隱含資訊，我們將最後一個時間點的輸出 𝐡g 視為文件向量 𝐝 ，並供之後摘要擷取時使用。. 摘要選取器我們的摘要選取器主要會將文件中每個語句標示為 1 (摘要) 或 0 (非摘要)。在此部分，我們將會使用另外一個 RNN，其中輸入一樣以語句向量為主，而語句向量同樣是經由語句編碼器所產生。此處與文件編碼器不同之處在於，摘要選取時是以文件的正序輸入，因此可定義成下列方程式： 𝐨+ = 𝑓 < (𝐨+•g , 𝐬+ ). (3-4). 𝐨Ž = 𝐝. (3-5). 𝑦+ = softmax(MLP(𝐨+ )). (3-6). 其中 𝐨+ 為隱藏層輸出，𝑓 < (∙) 為一 RNN 架構，其輸入包含前一時間點的隱層層輸出 𝐨+•g 和當前時間點的語句輸入 𝐬+。為了在選取摘要時能參考到整篇文章的主旨，我們將初始的隱藏層 𝐨Ž 設定為文件向量 𝐝。此舉可以同時參考局部 (單一語句) 及整體 (文件) 的資訊，因此能更好的辨別語句。最後我們會透過 (3-6) 計算每個語句的類別 𝑦𝑖 ，其中 MLP(∙) 為一簡單的前向式類神經網路(Feedforward Neural Networks) 之後經由一個 softmax 函式得到語句類別的機率 𝑝(𝑦+ |𝐬+ , 𝐷, 𝜃) ，並依據 𝑝(𝑦+ = 1|𝐬+ , 𝐷, 𝜃) 將每個語句進行排序，依照固定的摘要比例選取排名高的語句作為完整的摘要結果。. 32.

(41) Document Encoder Convolution. Decoder. Max-Pooling. &". &#. &$. &%. '" '# '$. *%. *$. *#. *". '% '(. ,%. ,$. ,#. ,". +#. +". +%. +$ 12345" -(. ). ') *" !%. !$. !#. !". !". !#. ," !$. !%. Sentence Encoder. 圖 3.2 階層式類神經摘要模型-結合聲學特徵. 3.2.2. 聲學特徵為了能夠避免摘要結果受到辨識錯誤的影響，我們認為聲學特徵能夠保留每個文件的語音資訊且不受辨識錯誤之影響，因此提出三種方式將聲學特徵與上述架構結合，使得在判斷摘要的時候能夠參考，以得到更好的摘要成果。聲學特徵是以語句為單位，每個語句會有對應的聲學特徵，因此令聲學特徵向量為 𝐚，我們的方法可定義下列方程式：. 𝐡+ = 𝑓 y ′(𝐡+‰g , [𝐬+ ; 𝐚+ ]). (3-7). 𝐨+ = 𝑓 < ′(𝐨+•g , [𝐬+ ; 𝐚+ ]). (3-8). 𝐬𝐆𝐚𝐭𝐞+ = 𝑔(Wž [𝐡+ ; 𝑎+ ] + 𝐛ž ). (3-9). 𝐬+ = 𝐬+ ⊙ 𝐬𝐆𝐚𝐭𝐞+. (3-10). 𝐨+ = 𝑓 < ′′(𝐨+•g , 𝐬+ ). (3-11). 33.