文件自動化摘要方法之研究及其在中文文件的應用

全文

(1)A Study on Automated Text Summarization and Its Application on Chinese Documents Student: Jen- Yuan Yeh. Advisor: Dr. Hao-Ren Ke, Dr. Wei-Pang Yang.. Institute of Computer and Information Science National Chiao Tung University. ABSTRACT In this thesis, two novel approaches are proposed to extract important sentences from a document to create its summary. The first is a corpus-based approach using feature analysis. It brings up three new ideas: 1) to employ ranked position to emphasize the significance of sent ence position, 2) to reshape word unit to achieve higher accuracy of keyword importance, and 3) to train a score function by the genetic algorithm for obtaining a suitable combination of feature weights. The second approach combines the ideas of latent semantic analysis and text relationship maps to interpret conceptual structures of a document. Both approaches are applied to Chinese text summarization. The two approaches were evaluated by using a data corpus composed of 100 articles about politics from New Taiwan Weekly, and when the compression ra tio was 30%, average recalls of 52.0% and 45.6% were achieved respectively.. Keywords: Chinese Text Summarization; Corpus-based Approach; Latent Semantic Analysis; Text Relationship Map. I.

(2) 文件自動化摘要方法之研究及其在中文文件的應用研究生: 葉鎮源. 指導教授: 柯皓仁博士，楊維邦博士. 國立交通大學資訊科學研究所. 摘要本論文提出了兩種新的文件摘要方法來摘錄原始文件中的重要語句。第一個方法屬於以文件集為基礎的摘要技術(Corpus-based Approach)，此方法基於統計模型，利用特徵的分析來計算語句重要性。我們提出三個新的想法：1) 利用語句位置重要性的分級以提高不同語句位置的重要性；2)利用詞彙相關程度(Word Co-occurrence)計算找出文件中的新詞，並將新詞加入關鍵詞重要性的計算，以得到更精確的關鍵詞權重特徵值；3) 利用基因演算法訓練計算語句權重的 Score Function，以期了解訓練文件集的特性。第二個方法，我們結合潛在語意分析 (Latent Semantic Analysis)與主題相關地圖(Text Relationship Map)的概念，用來擷取文件中的概念結構(Conceptual Structure)以期得到語意層面的分析。實驗中，我們收集 100 篇新台灣週刊中關於政治類的文章，並將上述的兩種方法應用於中文文件的摘要實驗上。效益評估結果顯示，我們所提的方法都有不錯的表現，在壓縮比為 30%的情況下，平均來說，召回率分別為 52.0%及 45.6%。關鍵字：中文文件摘要、以文件集為基礎的摘要技術、潛在語意分析、主題關係地圖. II.

(3) 致謝本論文的完成，首先感謝指導教授柯皓仁老師及楊維邦老師。他們的指導，啟發我對於研究的興趣，並督導我學習研究的學問，更帶領我進入自然語言的研究中。除了課業與研究的寶貴指點，生活與做人處事上，也給我不少的影響。感謝實驗室的夥伴們，由於你們對我的關懷與照顧，讓我的研究生活變為一種樂趣；並且感謝你們提供我寶貴的意見，讓我獲得許多新的想法。謝謝圖書館計畫室的夥伴們在定期的報告討論時給我許多意見。另外，特別感謝何佳欣及鄭怡君幫忙作實驗評估的部分，使得我論文得以順利的完成。最後，感謝我親愛的家人與朋友們長久以來的支持與鼓勵，使我能專心致力於研究，並得以順利完成學業。願以這篇論文與你們分享。. June 22, 2002. III.

(4) 目錄英文摘要........................................................................................................................ I 中文摘要.......................................................................................................................II 致謝............................................................................................................................. III 目錄..............................................................................................................................IV 圖目錄..........................................................................................................................VI 表目錄........................................................................................................................ VII 方程式目錄...............................................................................................................VIII 第一章第一節第二節第三節第四節. 簡介................................................................................................................1. 第二章. 自動化資訊摘要........................................................................................1 研究動機....................................................................................................4 研究目的....................................................................................................5 論文架構....................................................................................................5. 第一節第二節第三節第四節. 相關研究工作................................................................................................7. 第三章. 文件摘要相關研究....................................................................................7 以文件集為基礎的摘要技術..................................................................12 以主題關係地圖(Text Relationship Map)為基礎的摘要技術 ..............18 以語段模型(Discourse Model)為基礎的摘要技術 ...............................23. 第一節第二節. 改良型語句權重摘要..................................................................................26. 第四章. 基本特徵值分析......................................................................................26 語句權重的計算與摘要生成..................................................................30. 第一節第二節第三節. 以潛在語意分析為基礎的語句摘要..........................................................34. 第五章. 潛在語意分析(Latent Semantic Analysis) ..............................................34 系統架構..................................................................................................39 語句分群與摘要生成..............................................................................41. 第一節第二節第三節第四節. 實驗結果分析與評估..................................................................................46. 第六章. 實驗資料說明..........................................................................................46 評估方法..................................................................................................46 改良型語句權重摘要之效益評估..........................................................47 潛在語意分析語句摘要之可行性評估..................................................53 結論與未來研究方向..................................................................................59. IV.

(5) 第一節第二節. 結論與討論..............................................................................................59 未來研究方向..........................................................................................60. 附錄一：實作系統展示..............................................................................................62 附錄二：範例文件......................................................................................................63 參考文獻......................................................................................................................67. V.

(6) 圖目錄圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖. 1：文件摘要系統架構概觀....................................................................................2 2：文件摘錄的範例................................................................................................8 3：相關研究工作..................................................................................................10 4：「以文件集為基礎的自動摘要技術」系統概觀............................................13 5：壓縮比對摘要系統正確率的影響..................................................................16 6：Text Relationship Map 的範例 ........................................................................19 7：Paragraph Relationship Map 與其對應的 Text Segmentation........................21 8：計算 Aggregate Similarity 的概念圖示 ..........................................................22 11：m-n 基因交配方法 ........................................................................................31 12：個體的基因組(M1,1, M1,2, M1,3 , M1,4, M1,5 )與其突變 ..................................32 13：Corpus-based 文件摘要生成演算法.............................................................32 14：LSA 工作原理示意圖 ...................................................................................35 15：LSA 文件摘要系統架構 ...............................................................................40 16：Word-by-Sentence 矩陣範例.........................................................................41 17：LSA 文件摘要生成演算法 ...........................................................................45 18：Modified Corpus-based Approach.................................................................62 19：LSA-based T.R.M. Approach.........................................................................62. VI.

(7) 表目錄表格表格表格表格表格表格表格表格表格表格表格表格表格表格表格表格. 1：以文件集為基礎的摘要方法研究的比較..................................................17 2：Global Bushy Path, Depth- first Path 與 Segmented Bushy Path 的比較....22 3：Characteristics of Discourse Model Approach ............................................25 4：Lexical Chain 與 Co-reference Chain 的相異之處.....................................25 5：實驗文件集的統計特性..............................................................................46 6：考慮語句位置特徵時語句摘錄的召回率..................................................49 7：考慮正面關鍵詞特徵時語句摘錄的召回率..............................................49 8：考慮負面關鍵詞特徵時語句摘錄的召回率..............................................50 9：考慮與標題的相似度特徵時語句摘錄的召回率......................................50 10：考慮向心性特徵時語句摘錄的召回率....................................................51 11：利用詞彙相關程度所找到的部分新詞....................................................51 12：Original 與 Modified 的實驗數據比較(考慮所有的特徵)......................52 13：Original 與 Modified 的實驗數據比較(不考慮負面關鍵詞)..................52 14：利用基因演算法所得到的特徵權重組(不考慮負面關鍵詞) .................53 15：Modified 與 Modified+GA 的實驗數據比較(不考慮負面關鍵詞) ........53 16：以 LSA 與 Keyword 向量表示法來實作 Global Bushy Path 摘要方法的比較......................................................................................................................54 表格 17：不同的維度約化比例對摘要結果的影響................................................55 表格 18：LSA-based T.R.M.及 Keyword-based T.R.M.得到的主題相關地圖.......57 表格 19：各種摘要方法的綜合比較........................................................................58. VII.

(8) 方程式目錄方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式. 1：給予 F1 , … ,Fk 個特徵，語句 s 屬於摘要的機率 ..................................14 2：化簡後語句 s 屬於摘要的條件機率 ......................................................14 3：當 s 屬於摘要的情形下，Fj 出現在摘要中的條件機率 ......................14 4：訓練文件集中，特徵 Fj 的分佈機率.....................................................14 5：訓練文件集中，摘要語句的分佈機率..................................................14 6：Si, Sj 相似度的計算方式 .........................................................................22 7：Si 的 Aggregate Similarity 的計算方式...................................................23 8：s 的語句位置特徵值 ...............................................................................27 9：A, B 關鍵詞的詞彙相關程度 .................................................................28 10：s 的正面關鍵詞特徵值 .........................................................................28 11：給予負面關鍵詞 Keyword i 的條件下，s 不屬於摘要的機率 ............28 12：s 的負面關鍵詞特徵值 .........................................................................29 13：s 與標題的相似度特徵值 .....................................................................29 14：s 的向心性特徵值 .................................................................................30 15：計算語句權重值的 Score Function ......................................................30 16：Kij 的計算公式.......................................................................................42 17：Wi 於 Si 中的相對頻率 f ij.......................................................................43 18：Wi 於 D 中的資訊分佈值 ......................................................................43 19：Wi 於 Sj 中的總體權重 Gi......................................................................43 20：Wi 於 Sj 中的權重 Lij..............................................................................44 21：自動摘要系統的精確率評估................................................................47 22：自動摘要系統的召回率評估................................................................47. VIII.

(9) 第一章. 簡介. 第一節自動化資訊摘要隨著電腦科技的進步與數位資訊技術的蓬勃發展，網際網路的存在儼然成為現代人生活中不可或缺的重要角色，並且帶動了人類文明往新的資訊紀元推進。拜科技之賜，大量的數位資訊在網路流通，網際網路無形中成為一個儲存各種資訊的大型倉儲；資訊的傳播不再完全藉由傳統平面媒體，人們漸漸地習慣在網路上找尋所要的資料，資訊的取得變成非常容易的事情。隨手可得的資訊相對地也衍生許多問題，其中最大的問題是面對如此龐大的資訊時，人們無法快速且有效地得到真正符合自己需求的資料。究其原因，乃是因為大量的資訊使得搜尋及分辨是否為相關資訊的困難度大幅提昇。為了解決上述問題，人們需要藉助外在工具以便於在短時間內理解所取得資料中隱含的意義，迅速且正確地判斷真正符合自身需求的資料。前述常用的工具主要分為兩大類：(1)搜尋引擎(Search Engine)，(2)自動資訊摘要(Automated Information Summarization)。[Gong01]對於上述二種工具做了以下詮釋：搜尋引擎所扮演的角色是『資訊過濾器(Information Filter)』，它的功能是分析使用者所下的檢索條件(Query)，並從資料倉儲中篩選出與檢索條件相關的資料；自動資訊摘要則是扮演『資訊監察者(Information Spotter) 』的角色，它的功能是將相關的資訊作統整，幫助使用者在最短時間內得知資訊內容的意義。自動資訊摘要是由電腦自動地從原始資料中精練出最重要資訊的過程。根據原始資料的性質，自動資訊摘要大致上可分為以下三種： l. 文件摘要(Text Summarization)— 原始資料為純文字；. l. 多媒體摘要(Multimedia Summarization)— 原始資料為影音等多媒體；. 1.

(10) l. 複合性摘要(Hybrid Summarization)— 原始資料綜合了純文字與多媒體。. [Mani99]為文件摘要作了以下的定義：文件摘要是從原始文件中精練出最重要資訊的過程；其結果為足以代表該原始文件的精簡化版本，且可作為人們或其他資訊系統的判斷與決策依據。 Text summarization is the process of distilling the most important information from a source (or sources) to produce an abridged version for a particular user (or users) and task (or tasks). 圖 1 是文件摘要系統架構與流程圖，自動化文件摘要的過程可分為三個階段：首先是「分析原始文件(Analyze the input text)」與「選取重要特徵(Select salient features)」；接著將分析的結果轉換為系統內部的摘要表示法(Transform the input text into a summary representation)；最後是評估內部摘要表示法的重要性，並挑選候選的表示法來合成摘要的輸出格式(Synthesis an appropriate output form)。. Documents. Audience Generic User-focused. Compression Function Indicative Informative Evaluative. Fluency Fragments Connectedtext. Synthesis. Analysis. Transformation. Summaries. 圖 1：文件摘要系統架構概觀 [Mani99]. 2.

(11) 整個過程中有幾項重要的因素需要考慮，如使用者對於摘要內容的需求、摘要內容的形式、摘要內容的流暢程度、可閱讀性以及文件摘要間的壓縮比 (Compression Ratio)等等，都會影響所產出摘要結果的好壞 [Mani99]。文件摘要的壓縮比是評估文件摘要系統優劣的重要指標之一，所謂的壓縮比係指摘要文件長度與原始文件長度的比例。壓縮比愈低的話，產出的文件摘要愈精練，但相對地也遺漏了愈多原始文件的資訊。相反地，壓縮比愈高，產出的文件摘要愈冗長，雖然包含的資訊愈多，但是相對地也包含愈多不重要的資訊。一般而言，壓縮比約在 1%— 30%左右，便可以提供足夠的資訊給使用者作為決策判斷的依據 [Habn00] [Kupiec95] [Mani99]。文件摘要系統最後所產生的摘要，可能是經過自然語言處理 (Natural Language Processing, NLP)所潤飾過的文字(Connected-text)，也可能是原始文件的摘錄(Extract)— 即直接由原始文件中節錄出足以提供該文件提及之事實或資訊的文句與段落片段(Fragments)。文件摘要依其原始文件數量的多寡，可分為單文件摘要(Singular Document Summarization) [Aone99] [Edmundson68] [Hovy99] [Gong01] [Kim00] [Kupiec95] [Luhn59] [Myaeng99] [Salton97] [陳鈺瑾 00] 與多文件摘要(Multiple Documents Summarization) [黃聖傑 99] [翁鴻加 01] [蘇哲君 01]。單文件摘要把單篇文件的內容精簡化與重點化，注重的是能否有效地刪減沒有必要的資訊，並留下真正能代表文件內涵的資料；多文件摘要則是把多篇探討類似主題或事件的文件融合在一起，除了刪減無用的資料外，尚需有效率地過濾重複在多篇文章中所出現的資訊。根據文件摘要所要達到的目的，產出的摘要結果可分為指示性摘要 (Indicative Summary) [Aone99] [Edmundson68] [Gong01] [Kim00] [Kupiec95] [Luhn59] [Myaeng99] [Salton97] [陳鈺瑾 00] [黃聖傑 99] [翁鴻加 01] [蘇哲君 01]、. 3.

(12) 資訊性摘要(Informative Summary) [Hovy99]與評論性摘要(Evaluative Summary) 三種。指示性摘要提供閱讀者足夠的資訊，使其能夠根據這些資訊判斷並決定是否閱讀原始文件；資訊性摘要提供豐富的資訊內容，有時甚至可以取代原始文件；評論性摘要以摘要形式對原始文件作評論，可提供閱讀者不同角度的論斷。. 依照讀者需求的不同，文件摘要的結果可分為一般性摘要(Generic Summary) [Aone99] [Edmundson68] [Gong01] [Hovy99] [Kim00] [Kupiec95] [Luhn59] [Myaeng99] [Salton97] [陳鈺瑾 00] [黃聖傑 99] [翁鴻加 01] [蘇哲君 01] 及特定使用者導向(User-oriented Summary)的摘要等。前者針對較廣大的讀者群，摘要系統所產生的摘要以寫作者的角度出發，期能提供一般性的摘要給所有讀者閱覽；後者根據特定使用者的需求— 如使用者感興趣的主題或是使用者所下的檢索條件— 所產生的專屬摘要。隨著資訊爆炸時代的來臨，如何針對使用者的特定需求來產生摘要已經變得越來越重要。由語言的角度來看，摘要可分為單語言摘要(Mono-lingual Summarization) [Aone99] [Edmundson68] [Gong01] [Hovy99]. [Kim00] [Kupiec95] [Luhn59]. [Myaeng99] [Salton97] [黃聖傑 99] [翁鴻加 01] 與多語言摘要 (Multi- lingual Summarization) [陳鈺瑾 00] [蘇哲君 01]。多語言摘要係指原始文件包含多國語言。這類研究，最大困難在於多國語言間字詞的用法、語句的表達方式及字義間了解與轉換所造成的語意模糊和誤解，若沒有領域知識(Domain Knowledge)與人工適時的介入，可能導致產出的摘要與原文件所要表達的意思南轅北轍。. 第二節研究動機好的文件摘要必須滿足以下兩個條件： l. 文件摘要必須要在真正了解文件內容之後而產生；. l. 文件摘要必須涵蓋原始文件所要表達的意涵； 4.

(13) 為了滿足上述的兩個要求，我們認為較佳的文件摘要系統必須要能夠理解文件的內容，並建構足以代表該原始文件意涵的知識模型，以便透過該知識模型來生成最後的摘要結果。過去文件摘要的技術主要都是著重於英文文件摘要方面的研究，有鑑於英文文件與中文文件特性— 比如關鍵詞的斷詞、語句切割、特徵值計算方式等— 的不同，如果要將英文文件摘要的方法套用到中文文件摘要上，勢必要有所修正。本論文研究的動機便是希望針對中文文件與英文文件特性的不同，修改過去文件摘要的技術應用於中文文件上，並提出一套知識模型來表達原始文件的意義，最後我們將以該知識模型為基礎提出一個文件摘要的演算法，並將其應用於中文文件。. 第三節研究目的綜合上述的說明，本論文主要的研究在於單文件的自動摘要產生，且所著重的是如何產生具指示性、一般性與單文件的摘錄 (Indicative and generic single-document extract)。本研究擬達到以下三個目標：首先，將英文文件摘要的技術移植到中文文件摘要上；第二，採用潛在語意分析(Latent Semantic Analysis)來建構文件中內隱的知識模型，並以此知識模型做為摘要生成的表示法；最後，針對上述兩個目標設計適當的實驗，以比較過去文件摘要技術與本論文所提出方法間的差異性，並討論潛在語意分析(Latent Semantic Analysis)模型應用在文件摘要上的可能性。. 第四節論文架構. 5.

(14) 本論文共分為六章，第二章介紹自動化文件摘要的相關研究工作；第三章及第四章分別描述我們提出的兩種自動摘要方法：(1)以文件集為基礎的改良型摘要技術(Modified Corpus-based Approach)，(2)以潛在語意分析(Latent Semantic Analysis)為知識模型的摘要技術(Proposed LSA-based Approach)。第五章說明系統實作與實驗結果的分析討論，藉以驗證本論文所提研究方法的可行性。最後，第六章是結論與未來可行的研究方向。. 6.

(15) 第二章. 相關研究工作. 本章說明相關的研究工作。[Habn00]依照輔助資訊(Auxiliary Information)介入的多寡將自動文件摘要技術分為兩大類，一類為 Knowledge-rich approaches，例如[Mckeown95] [Barzilay97] [Aone99] [Azzam99] [Hovy99] [Silber00]，這類的論文著重於建構文件內容的表達模型；另一類則是 Knowledge-poor approaches，例如 [Luhn59] [Edmundson68] [Kupiec95] [Myaeng95] [Salton97] [Aone99] [Hovy99] [Lin99] [Kim00] [Gong01]，這類論文討論直接評估文件中語句的重要性。本章首先介紹文件摘要的相關研究，接著分別介紹三種不同觀點的研究技術：(1)以文件集為基礎的摘要方法(Corpus-based Approaches)、(2)以主題關係地圖為基礎的摘要方法(Text Relationship Map-based Approaches)與(3)以語段模型為基礎的摘要方法(Discourse-based Approaches)。. 第一節文件摘要相關研究自動化文件摘要的研究起源於 1950 年代。受限於過去電腦技術的不發達，以及自然語言處理的高困難度，先前的研究方法僅僅著眼於計算文件中每個語句所提供的資訊量多寡或是判斷每個語句的重要性；此外，亦研究如何根據語句的重要性摘錄出足以代替原始文件的語句或段落，也就是所謂的語句(段落)摘錄1 (Sentence/Paragraph Extraction) [Aone99] [Gong01] [Kim00] [Kupiec95] [Myaeng99] [Salton97]。圖 2 舉例說明語句摘錄的範例，圖中的陰影部分即是範例文件的摘錄結果。摘錄類型的摘要作法是由原始文件計算每個語句的資訊量，並依照重要性的不同賦予每個語句權重；接著考慮使用者的需求(如壓縮比)，並依照語句權重挑 1. 以下所提的文件自動摘要，所指的皆是語句或段落的摘錄。 7.

(16) 選出候選的重要語句；最後再經過語句的排序與重組後即可作為該原始文件的摘錄。. 三月四日一大早約九點出頭，前總統夫人曾文惠在女兒李安妮與隨扈的護送下，出現在台北地方法庭。在出發之前，前總統李登輝才對曾文惠表示了精神上的完全支持，但是她還是抵擋不住硬吞下眼淚的那種心情。台灣有史以來，第一次出現前第一夫人到法院出庭的情況，曾文惠臉上沒有面對群眾時慣有的那種溫暖笑容，而是勉強擠出淺淺的笑，低著頭快速地進入法庭。只有在步出法庭時，看到熱情的支持群眾，她才露出親切溫柔的笑臉。許多人都還記得，當然，李登輝一家人也都深深地記得。兩年前總統大選後的那幾天，許多「國民黨人士」包圍國民黨中央黨部，在民眾情緒激憤，要求李登輝下台的時候，謝啟大在宣傳車上，對著底下的群眾喊著「曾文惠帶了八千五百萬美金逃到美國」。接下來，前立委馮滬祥以及前僑務委員戴錡更召開記者會，提出洋洋灑灑的「證據」，公開指稱曾文惠搭乘長榮航空，私運八千五百萬美元到美國，被美方拒絕入境，又緊急搭華航班機運回美元，於是引來了所謂的「八千五百萬元美金運送風波」。小女兒李安妮不甘曾文惠被如此惡意誹謗，建議曾文會自訴謝啟大等三人涉嫌誹謗，並求償三億元賠償。但是，法官出身的謝啟大深闇司法，第一次出庭就採取反擊，反控曾文惠誣告，也要求三億元賠償，並且要求曾文惠出庭，也使得曾文惠必須在三月四日出庭應訊。當天，曾文惠進入台北地院的北大門時，離開庭時間還有約半個小時，她快速地走上樓梯進入休息室，並準時出現在位於二樓的第七法庭。經過冗長的庭訊過程，從上午九點四十分開庭到中午一點休息，曾文惠完全沒有發言。經過短暫的休息之後，曾文惠才站在法庭前接受法官的詢問，否認運美金赴美。在經過身體與精神的雙重煎熬之下，下午三點多，曾文惠終於承受不住心裡的委屈，趴在桌上偷偷地落淚，並在李安妮的攙扶下暫時離開法庭。在庭訊的過程中，曾文惠也不禁用紙張寫下她的心情，「上帝創造人的眼淚是流下來的，我的眼淚卻是吞進去的」。實際上，基於對司法的尊重，曾文惠與家人也完全不願意對這件官司發表談話。而儘管曾文惠的高中校友鄭玉麗，曾經在二○○○年三月二十二日下午打了通電話給她，並聊了將近半個小時，但基於自己沒有舉證責任的原則之下，曾文惠也不願鄭玉麗出面作證。對曾文惠而言，這場官司是一種捍衛自己尊嚴的官司。看著老妻受到這麼大的委屈，李登輝心底絕對是相當心疼的。圖 2：文件摘錄的範例. 自動化文件摘要技術的發展. 2.1.1. 接下來介紹文件自動摘要技術的發展歷程。1950 年代到 1960 年代是文件摘要研究的開始，這個時期的研究重點著重於文件類型(Document Genre)的分析，例如：每一個段落的第一句話，通常都會直接點出接下來所要敘述的主題大綱；或是語句中出現某些常用的提示片語 (Cue Phrase)— “in summary”、 ”in 8.

(17) conclusion”— 等等，這些具有提示片語的語句通常是總結內容主題的說明，因此也具有高重要性。文件摘要初期的研究，絕大多數都以分析文件類型與寫作風格的方式，以達到自動化摘要的目的。這類摘要技術的優點在於簡單容易，但這也是它最大的致命傷：摘要的方法和文件的類型與風格息息相關，導致同一技術在不同類型文件中的重複利用性不高。 1970 年代到 1980 年代初期，人工智慧的研究成果開始應用在文件自動摘要。這個時期的研究，重點在於如何建構知識的表達模型，用以辨析文件內容的主題與涵義，所使用的知識表達模型不外乎框架(Frame)及模板(Template)等。此類方法係利用自然語言的處理技巧來辨認出文件內容中人物、地點以及時間等基本要素(Entity)，並將之套用在事先定義好的模板或框架以取代原始文件中的語句，接著經由這些知識模型的推演來得知文件內容的主題並由模板來生成摘要。此類技術的最大缺點在於模板的定義必須由專家進行，且因為模板的廣泛度不夠，使得有限數量的模板影響到文件涵義辨析的不正確性，導致產出的摘要內容在意義上的扭曲。. 資訊擷取(Information Retrieval, IR)研究的議題在於如何從一文件集(Corpus) 裡尋找與檢索條件有關聯的文件；若將資訊擷取的範圍縮小到單篇文件中，則文件摘要可以定義成如何在單篇文件中擷取出與內容主題相關的重要語句。資訊擷取的技術從 1990 年代初期起大量地應用在文件摘要上，因為資訊擷取的分析著重於字層面(Word- Level)的分析，並未考慮到同義詞(Synonymy)與一詞多義(Polysemy)的詞義辨析、字詞與片語(Phrase)的辨析以及如何衡量字詞與字詞間的依屬(Term Dependency)程度等語意層面的分析，因而不能提供正確的摘要資訊。 9.

(18) 除了上述幾種研究方法外，文件自動摘要的研究還有兩類不同的方法：以語言學(Linguistic s)分析為主的摘要技術以及由認知心理學(Cognitive Psychology) 來理解文件的摘要技術。它們的發展時期分別是 1960 年代到 1970 年代，以及 1970 年代到 1980 年代左右。相關研究工作. 2.1.2. 第一章中曾經提到，自動化文件摘要系統的第一階段是分析原始文件，並擷取文件的特徵。究竟如何判斷所擷取特徵的重要性呢？[Habn00]根據詮釋知識 (Meta-Knowledge)在特徵擷取過程中參與的程度，將使用的方法歸為以下三類： l. Knowledge-poor Approaches： [Luhn59] [Edmundson68] [Kupiec95] [Myaeng95] [Salton97] [Aone99] [Hovy99] [Lin99] [Kim00] [Gong01]. l. Knowledge-rich Approaches： [Mckeown95] [Barzilay97] [Aone99] [Azzam99] [Hovy99] [Silber00]. l. Hybrid Approaches：[Aone99] [Hovy99]. 圖 3 中我們依年份及方法整理了這些相關的研究工作。. 圖 3：相關研究工作. Knowledge-poor approach 是一種通用性的方法，不會因為所處理資料的不同而有所改變。其方法是擷取文件的實體特徵(Physical Features)作為分析的依據。 10.

(19) 所謂的實體特徵可以是關鍵詞(Keyword)、語句位於文件中的位置或是提示詞語等等。這類方法通常是由資訊擷取的方法所衍生而來。它的作法說明如下，首先分析文件中每個語句的特徵，並利用這些特徵作為語句的表示法；接著考慮特徵的重要性賦予每個語句不同的權重值(亦即代表該語句的資訊量或重要程度)；最後將文件裡的所有語句依照權重值由大而小排序，並挑選出權重值較高的數個語句成為原始文件的摘錄結果。由上可知，利用實體特徵分析的方法，一般只著重於某些特定且較低層次的特徵分析，並沒有考慮到較高層次的語意，如知識概念(Knowledge Concepts)的分析。並且 Knowledge-poor 的方法用的是資訊擷取的技術，因此所擷取的特徵僅僅是建構在統計模型上的分析結果，並無法真正涵蓋到文件內容的意義。. 為了彌補 Knowledge-poor 方法的缺陷，近年來關於文件自動摘要技術的研究已逐漸朝向 Knowledge-rich 的方法發展。所謂 Knowledge-rich 的方法除了分析文件結構與文件特徵之外，還加入領域知識(Domain Knowledge)輔助，以了解並表現出文件中所隱藏的主題和概念(Concepts)，進而達到語意層面(Semantic Level) 的摘要目的。. 此類方法引入額外的知識來分析文件的結構及其代表意義，以發掘出文件中包含的基本要素(Text Entity)和各個基本要素間的關聯性，從而建立文件的知識表示模型(Knowledge Representation Model)，最後精簡此模型(亦即保留此模型中具代表性的部分)，並利用精簡過後的模型來擷取文件中的語句以達到摘要的目的。. [Mani99]提出基本要素間的關聯性可能包含： l. 相似度(Similarity)：例如語彙的重複性(Vocabulary Overlap)；. l. 鄰近度(Proximity)：二基本要素(如關鍵詞、人事時地物)在文件中的距 11.

(20) 離； l. 同時出現(Co-occurrence)：基本要素是否在同一上下文(Context)中出現；. l. 語彙在詞典中的關係(Thesaural Relationship)：如同義字(Synonym)、部分關係(Part-of relationship)等；. l. 共同參照(Co-reference)：參照到共同的要素或者超鏈結(Hyperlink)；. l. 邏輯上的相關性：如同義 (Agreement)、矛盾性(Contradiction)與一致 (Consistency)性等等；. 舉例來說，新聞文件中的基本要素不外乎就是『人』、『事』、『時』、『地』、『物』五個要素所構成的，因此只要利用足夠的輔助知識，如人名的表格、地點的表格或是語料辭典等等，便可以辨認出該新聞文件中所存在的事件關係的模型；有了知識模型後，更可以藉由邏輯推理來找出其中的隱性知識，最後挑選重要的知識概念用來當作文件中重要語句的擷取依據。然而此種方法最大的缺陷在於必須藉由外在知識的分析，因此可能導致字詞、語句、段落或文件層面的語意被誤解。. 第二節以文件集為基礎的摘要技術以文件集為基礎的摘要技術說明. 2.2.1. 不同類型的文件，因為寫作方式及用字用詞等特性的不同，最後所產生的摘要形式也該有所差異；比如說科技論文與新聞文件的摘要在本質上就不會相同，科技論文的摘要著重於簡介(Introduction)以及結論(Conclusion)的部分，而新聞文件著重的是給閱讀者概觀性的敘述。然而，屬於同類型文件的摘要，就有可能具有某些共通的特性。. 以文件集為基礎的自動摘要技術(Corpus-based Approaches)係利用機器學習 (Machine Learning)，從已經具備摘要的同類型文件集中，探索出該類型文件摘要. 12.

(21) 所必備的共同特性，並應用這些共同特性於該類型文件之摘要的自動生成。圖 4 是「以文件集為基礎的自動摘要技術」之系統概觀圖。. Domain Knowledge Learning Algorithm. Feature Extractor Source. Vectors Rules Source Labeler. Rule Application. Summary Training Corpus. Machine-generated Summary. Test Corpus. Test Phase. Training Phase. 圖 4：「以文件集為基礎的自動摘要技術」系統概觀 [Kupiec95]. 以文件集為基礎的自動學習摘要技術的流程分為兩個階段：(1)訓練階段 (Training Phase)，(2)測試階段(Test Phase)。在訓練階段中，輸入事先由人工標示好摘要的訓練文件集(Training Corpus)，具有學習能力的摘要系統會自動從每篇訓練文件及其對應的摘要中擷取出具有代表性的特徵(Feature Extraction)；接著參考相關的領域知識，並選擇適當的學習演算法(Learning Algorithm)來產生相對應的摘要規則(Rule)。在測試階段中，則是輸入同類型但不屬於訓練文件集的測試文件集(Test Corpus)，系統先根據學習得之摘要規則擷取出相關的特徵，並套用摘要規則產生屬於該測試文件的摘要。至於評估摘要系統優劣的方法，主要是比較系統產生的摘錄與人工標示的摘要間之準確率(Precision)和召回率(Recall)。 [Kupiec95]提出一個以貝式定理(Bayesian Rule)為基礎的 Corpus-Based 方法來計算每個語句的權重值。假設語句 s 是測試文件中的任一個語句，F1 到 Fk 則 13.

(22) 是系統中用來衡量語句重要性的 k 個不同的特徵，那麼語句 s 屬於摘要的機率如方程式 1： P(s ∈ S | F 1, F 2,..., Fk ) =. P (F 1, F 2,..., Fk | s ∈ S )P(s ∈ S ) P (F 1, F 2,..., Fk ). 方程式 1：給予 F1 , … ,Fk 個特徵，語句 s 屬於摘要的機率. 假設每個特徵都是獨立事件的話，則方程式 1 可化簡成方程式 2：. P(s ∈ S | F 1, F 2. ∏ ,..., F ) = k. k j =1. P (Fj | s ∈ S )P(s ∈ S ). ∏. k j =1. P( Fj ). 方程式 2：化簡後語句 s 屬於摘要的條件機率. P(s ∈ S ) 、 P( Fj | s ∈ S ) 、 P( Fj ) 是在訓練階段時由訓練文件集計算得知，其中 P(s ∈ S ) 代表訓練文件集中每個語句屬於摘要的機率，為一常數值；P( Fj | s ∈ S ) 代表當語句 s 屬於摘要的情形時，Fj 出現在摘要中的條件機率； P( Fj ) 代表訓練文件集中，特徵 Fj 的分佈機率。詳細的計算公式如方程式 3、方程式 4 和方程式 5： P( Fj | s ∈ S ) =. #(sentence in summary, and has feature Fj) #(sentence in summary). 方程式 3：當 s 屬於摘要的情形下，Fj 出現在摘要中的條件機率. P( Fj ) =. #(sentence in traini ng corpus, and has feature Fj) #(sentence in traini ng corpus) 方程式 4：訓練文件集中，特徵 Fj 的分佈機率. P(s ∈ S ) =. #(sentence in summary) #(sentence in traini ng corpus). 方程式 5：訓練文件集中，摘要語句的分佈機率. [Kupiec95]所實作的系統中，用來判斷語句重要性的特徵主要為下列幾項：. 14.

(23) l. 語句長度(Sentence Length). 語句的長度會影響到語句所涵蓋資訊量的多寡，較長的語句所包含的資訊通常比較短的語句所含的資訊量來得豐富。他們認為語句的長度至少必須要 5 個字才可能屬於摘要。 l. 提示片語(Fixed-Phrase). 文件中常用的提示片語，如”in summary”以及”in conclusion”等等，這些片語往往會出現在介紹或總結主題敘述的語句中。他們認為文件中的語句如果包含這些常用的提示性片語，那麼該語句便有極高的可能性是屬於摘要。 l. 段落位置(Paragraph). 他們將文件分為 paragraph- initial、paragraph-medial 以及 paragraph- final 等三個部分；並認為出現在 paragraph- initial 以及 paragraph- final 這兩個部份的語句，通常都是帶出主題或是總結主題的語句，所以，落於這兩個部份的語句具有較高的重要性。 l. 主題字詞(Thematic Words). 一篇文件中，如果某個關鍵字重複出現許多次，則這篇文件的主題極可能與此關鍵字有關。他們認為擁有愈多出現頻率越高的關鍵詞的語句，愈有可能是屬於文件的摘要中。 l. 大寫字詞(Uppercase Words). 他們認為文件中大寫 (Uppercase)的字詞或是特殊的專有名詞(Proper Nouns)具有較高的重要性，因此擁有愈多大寫字詞或專有名詞的語句便愈可能屬於文件摘要。. 15.

(24) 這篇論文中有兩個很重要的結論： 1.. 雖然使用上述五個特徵當作語句重要性的計算依據，但是，實驗的結果顯示，若只考慮 Paragraph、Fix-Phrase 以及 Sentence Length 的組合所得到的結果最佳。. 2.. 文件摘要的壓縮比會影響到自動摘要系統結果的正確率。從圖 5 中可知，當摘要系統所摘要出來的語句數目越多的話(代表壓縮比越高)，所得到的正確率就越高。. 圖 5：壓縮比對摘要系統正確率的影響 [Kupiec95]. 相關的研究成果比較. 2.2.2. [Kupiec95]提出一個以貝式定理為核心的自動摘要方法，之後的研究都以此為中心而衍生，例如[Myaeng99]、[Aone99]與[Hovy99]。以下針對這幾篇論文的不同之處加以詳述，這幾篇論文的重點比較則列於表格 1 中。. [Myaeng99]認為文件摘要必須考慮到文件內容的架構。他們認為具有代表性的語句會出現在文件中 Introduction 及 Conclusion 這兩部分，且這兩個部分可進一步分割成四個組成結構— background, main theme, explanation of the document structure 及 future work，屬於各個部分的語句其重要性會有所差異。實驗結果顯示 Cue Word, Sentence Location及 Resemblance to Title 最能夠代表語句的重要性。 16.

(25) [Aone99]從解決資訊擷取的共通弊病來著手— 語句的斷詞切字好壞會影響到摘要結果；亦即，文件中的特殊片語或是專有名詞，如果沒有正確地分辨的話，很有可能會誤解文章的涵義。他們提出兩個原則來解決前述問題。第一，斷詞切字時盡量將可能是片語的字詞結合在一起；第二，利用 NameTag 工具來擷取專有名詞，並將具有相同意義的字詞視為相同，如”IBM”與”International Business Machines”在計算關鍵詞的權重時，這兩個字詞的出現頻率必須要同時考慮。. [Hovy99]集先前研究之大成，提出了一個重要的概念：摘要 (Summarization) ＝主題辨認 (Topic Identification)+ 概念融合 (Concept Fusion)+ 摘要的生成 (Generation)。亦即，輸入文件先經過主題的辨認以擷取出文件內容中描述的主題，接著將具有相同涵義的主題融合，最後再將這些主題所要表達的概念經過語句重組(Sentence Planning)後產生新的摘要。. [Kupiec95]. [Myaeng99]. [Aone99]. [Hovy99]. Analysis Features. Improvement (Compared with [Kupiec95]). n Sentence Length n Cue Phrases n Paragraph n Thematic Words n Uppercase Words n Proper Nouns n Cue Words n Negative Words n Position n Theme Words n Centrality n Resemblance to Title. n A statistical model based on Bayes’ Rule. n Thematic Words n Sentence Length n Position n Paragraph. n To reshape the word unit n To acquire domain knowledge n To approximate text structure. n Thematic Structure Decomposition n Dempster-Shafer’s Combination Rule n Use “text component” as filter. No. of Training/ Testing Documents 187/1. 30/30. 100/100. Performance. Recall: 42%. The same number of sentences as in the corresponding manual summary.. 11-point average precision: 44%. 5 sentences regardless of the size of source document.. Recall: 56% Precision: 51.4%. n Propose a new idea: Summarizat ion = Topic Identification + Interpretation + Generation n A method combines robust NLP and symbolic knowledge by concept fusion. 表格 1：以文件集為基礎的摘要方法研究的比較. 17. Compression Rate.

(26) 綜合以上的說明，不難想像以文件集為基礎的摘要方法，它最大的問題在於只考慮到低層次(Low-Level)的特徵分析而已，其他較高層次的特徵，如語意索引(Semantic Index)、概念階層(Concept Hierarchy)等等語意層次的分析並沒有考慮在內。也就是說，利用這種技術來建構自動摘要系統可能導致所產生的文件摘要品質低劣，並且沒有辦法有效地涵蓋原始文件所要表達的意義。以文件集為基礎的摘要技術延伸討論. 2.2.3. 以文件集為基礎的摘要技術還有一些其他的缺失，比如說 Anaphora Link 的問題等等。所謂 Anaphora Link 指的是某個語句中出現代名詞用以取代先前所提過的名詞個體，如『(1)王老先生有塊地。(2)他在這塊地上種了很多農作物。』上述語句中的『他』便是 Anaphora Link；假若摘要系統挑選了(2)當摘要，如此一來，第二句中的他便失去了原有的意義。為了解決這個問題，通常都是(1)(2) 兩句一起挑選當作摘要，以保留原本 Anaphora Link 所代表的意思。除此之外，以文件集為基礎的摘要方法，仍需要注意到以下幾點：. 1.. 當套用到不同寫作格式的文件集時，摘要系統該如何自動且有效地學習並發掘新的可利用特徵？. 2.. 當使用關鍵詞當作特徵時，摘要系統該運用何種技巧將關鍵詞層面 (Term- Level)的涵義提昇到概念層面(Concept-Level)的涵義。. 3.. 如何利用輔助的資源如概念階層等來辨認各個關鍵詞所代表的語意。. 第三節以主題關係地圖(Text Relationship Map)為基礎的摘要技術主題關係地圖(Text Relationship Map)由自動主題連結(Automatic Text Link) 的研究延伸而來的。自動主題連結原本用在建構文件集中文件間的關聯，作法上將每篇文件以關鍵字詞的向量表示法表示，並計算所有文件兩兩間的相似度. 18.

(27) (Similarity)；如果相似度大於系統內定的臨界值時，表示這兩篇文件具有相似的連結關係(Semantic Related Link)。依此原則可以建構出所有文件間的關係地圖。. 17012. 11830. Links below 0.01 ignored 0.57. 0.54. 0.49. 0.50 17016. 22387— Thermonuclear Fusion 0.38 19199— Radioactive Fallout 17016— Nuclear Weapons 17012— Nuclear Energy 11830— Hydrogen Bomb 8907— Fission, Nuclear. 8907. 0.24. 0.23 0.33. 0.09. 19199. 22387. 圖 6：Text Relationship Map 的範例 [Salton97]. 舉例來說，圖 6 中編號 17012 及 17016 的文章，二者的相似程度約 0.57，大於臨界值 0.01，所以存在連結關係；而 8907 與 22387 這兩篇文章的相似度則因為低於臨界值，所以在 Text Relationship Map 中並沒有連結存在。具有連結的文章，可說是具有關聯性。. [Salton97]將 Text Relationship Map 的概念應用在文件摘要的研究上，並提出一個以段落(Paragraph)為摘錄單位的文件摘要系統。對於輸入的文件，以每個段落為單位計算兩兩段落間的相似度，建構 Paragraph Relationship Map。他們認為若某個段落與其他段落的連結數愈多，則代表該段落和整篇文章主題的相關性愈高。根據這個想法，連結數目愈多的段落則愈重要。至於根據 Paragraph Relationship Map 來產生摘要，作法上分為兩個步驟。第一是判斷 Text Relationship Map 中每個段落的重要性；第二，根據 Text Relationship Map 中的連結數目來決定摘錄段落的先後順序。他們提出以下三種方法：. 1.. Global Bushy Path. 19.

(28) 首先定義 Text Relationship Map 上任一節點的 Bushiness 為該節點與其他節點間的連結數目，擁有越多關聯連結的節點，表示該段落與其他段落的寫作與用字方式相似，並且討論的主題也相似，因此，該段落視為討論文件主題的段落。Global Bushy Path 乃是將段落依照原本出現在文件中的順序以及其連結個數由大而小的排列結果。. 定義 Global Bushy Path 之後，只要從 Global Bushy Path 中挑選排名最前面的 K 個段落(Top K)，即可當作該文件的摘要。此方法所摘錄出來的段落雖然涵蓋整篇文件所要表達的涵義，但是可能發生段落間語意不連續的問題，導致摘要的可閱讀性(Readability)降低；也就是說，所挑選出來的摘要中連續兩個段落雖然都是很重要的段落，但是所描述的事情可能截然不同。. 2.. Depth- first Path Depth- first Path 方法可避免 Global Bushy Path 的問題。首先選取一個節. 點— 可能是第一個節點或是具有最多連結的節點，接著每次選取在原始文件中順序與該節點最接近且與該節點相似度最高的節點當作下一個節點，依此原則選取出重要而且連續的段落以形成文件摘要。. 這個方法挑選重要段落的時候也一併考慮到原始文件中的段落順序與關聯，因此可以避免類似 Global Bushy Path 的問題，同時使摘要的一致性 (Coherence)與可閱讀性提高。然而，其最大的問題在於摘要內容的一致性提高，並不見得能夠涵蓋原始文件中所有主題與概念，原因乃是摘要的大小是固定的，為了要使摘要內容的連貫性提高，勢必要選取重複敘述的段落，如此便會造成篇幅的不足，而導致摘要內容的不完整。. 3.. Segmented Bushy Path. 20.

(29) 以上兩個方法共同的問題在於沒有考慮到文件的內容架構，舉例來說，根據文件的起承轉合，文件的內容可分為幾個不同的結構，如 Introduction、 Main Them 以及 Conclusion 等等；如果套用上述的方法來挑選段落，很容易忽略掉屬於不同結構，但是重要性同樣很高的段落，最後導致摘要內容的完整性不足。Segmented Bush Path 可用來解決上述的問題。 Segmented Bushy Path 分為兩個步驟，第一個步驟是文件結構的切割 (Text Segmentation)，也就是分析文件內容並將文件內容切割成幾個具有代表的結構。Text Segmentation 利用 Paragraph Relationship Map 來分析文章的結構，圖 7 的左半部很明顯地發現 Map 上幾個節點之連結數目近乎相同，而形成可以分割的區段，其分割的結果如圖右半部，共分割成 5 個結構。. 圖 7：Paragraph Relationship Map 與其對應的 Text Segmentation [Salton97]. 接下來的工作便是針對每個 Segmentation 個別利用 Global Bushy Path 來選取重要的段落。為了保留每個 Segmentation 的涵義，每個 Segmentation 至少要挑選出一個段落納入最後的摘要。這樣做的好處是摘要可以涵蓋不同的主題，並使其完整性提高。最後總結上述方法。第一，Global Bushy Path 所產生摘要的一致性最差，原因乃是挑選段落時沒有考慮到段落與段落間的連續性；第二，Depth- first Path 所. 21.

(30) 產生摘要一致性最好，對於內容的全盤涵蓋程度(Comprehension)最差，原因乃是因為所挑選到的段落集中於某幾個主題；第三，Segmented Bushy Path 的方法所產生的摘要考慮到文章內容的結構，因此對於內容的全盤涵蓋程度最好。表格 2 中整理上述三個方法的特性。. Global bushy path Segmented bushy path. Depth-first path. Importance of initial paragraph Usually starts with important early paragraph May lose important first paragraph because of need to include material from other segments Starts with important first paragraph. Coherence/comprehensiveness Not coherent because adjacent paragraphs may be unrelated Not coherent but more comprehensive than global central path Not comprehensive but more coherent than central paths, may be specialized to important subtopic. 表格 2：Global Bushy Path, Depth-first Path 與 Segmented Bushy Path 的比較 [Salton97]. 相對於[Salton97]只考慮到 Text Relationship Map 上每個節點的連結個數， [Kim00]認為若將每個連結的權重(語句的相似度 )納入考慮，可產生更好的摘要，因此，他們提出一個以 Aggregate Similarity 計算每個語句重要性的方法。. 圖 8：計算 Aggregate Similarity 的概念圖示 [Kim00]. 圖 8 是 Aggregate Similarity 的概念圖示。圖中的每個節點代表的是文件中某個語句的關鍵詞向量表示法，每個連結代表兩個語句間的相似度，任兩個語句的相似度即是計算相對應向量間的內積值，詳細的計算方法如方程式 6： n. sim (i, j ) = ∑ si, k * sj, k k =1. 方程式 6：S i , S j 相似度的計算方式 22.

(31) 其中 n 表示出現在整份文件中相異的名詞個數，Si 可以(si,1, si,2 , … , si,n)表示， si,k 是名詞 Nk 在語句 Si 中出現的頻率。Si 的 Aggregate Similarity 的計算方式如方程式 7： n. asim (i ) = ∑ sim (i , j ) j =1 j ≠i. 方程式 7：S i 的 Aggregate Similarity 的計算方式 [Kim00]. 對於某個節點而言，Aggregate Similarity 為此節點與其他節點之相似性的總和。計算每個語句的 Aggregate Similarity 的好處在於除了考慮到每個節點的連結個數，更考慮到每個連結的權重值。因此，Aggregate Similarity 的結果理論上會比 Global Bushy Path 的結果來得好。. 第四節以語段模型(Discourse Model)為基礎的摘要技術認知心理學假設文件的作者在進行寫作的過程時，乃是由他本身所認知的概念空間(Conceptual Space)中去定義某個用詞的涵義，接著再組合這些定義好的詞句而成為一篇文章。當讀者閱讀文件的時候，他所作的事情便是試著去重組並建構當初該文件的作者所認知的概念空間，藉此得到相同語意的理解與認知。. [Barzilay97]以此想法為基礎，他們認為文件中所描述的概念，其實是由擁有該概念意義的所有字詞組成的結果；於是他們提出語意鏈結(Lexical Chains)的想法。所謂 Lexical Chains 即是一篇文章中相同意義的字詞所組成的集合，每個 Lexical Chain 代表這篇文件所要描述的一個概念，也就是對於這篇文件的一個認知；基於 Lexical Chains 所得到的摘要最能涵蓋該文件所要表達的意義。作法上，首先將文件中的名詞詞彙都擷取出來，接著藉由 WordNet [24]來判斷每個字詞所代表的意義，並將具有相同詞義的字詞串接起來變成了 Lexical. 23.

(32) Chains。美中不足的是，藉助 WordNet 的分析來建構字詞間的相似關係，可能因為其中某個字詞的意義辨認錯誤而導致產生錯誤的 Lexical Chain；如此一來，所得到的認知模型便可能偏離原文所要表達的意思。. 圖 10 是圖 9 原始文件之 Lexical Chain 的視覺化示意圖。圖中清楚地看到 Mr.與 person被歸在同一個 Lexical Chain 中，這個 Lexical Chain 所表達的便是『人』這個概念；而 Machine，Micro-computer，Device 以及 Pump 則被歸屬於另外一個 Lexical Chain 中，這個 Lexical Chain 所要表達的是『機器』這個概念。我們可以發現，Lexical Chain 的確可以反映出文件中的知識概念。. Mr. Kenny is the person that invented an anesthetic machine which uses micro-computers to control the rate at which an anesthetic is pumped into the blood. Such machines are nothing new. But his device uses two micro-computers to achieve much closer monitoring of the pump feeding the anesthetic into the patient. 圖 9：原始文件範例. {PC, micro-computer, … } {machine4 } Machine. Mr.. Person. Micro-Computer. {Mr. Mister}. {person1 , individual, someone, … }. Device. {device2 }. Pump. {pump 3 }. 圖 10：語意鏈結的視覺化示意圖. [Azzam99]認為直接辨析文件內涵的一致性(Text Cohesion)可以更正確地認知文件。文件內涵依照[Halliday76]的定義可以由辨認下列四種關係來得到：(1). 24.

(33) 相互參照 (Co-reference) 、 (2) 取代與省略 (Substitution and Ellipsis)、 (3)關聯 (Conjunction)以及(4)語詞相關(Lexical Cohesion)。. [Azzam99]利用相互參照的關係來建構文件的認知模型。其中相互參照用來描述文件中所提及的基本要素間的關係，其與語詞相關最大的不同點在於它不像語詞相關必須藉由輔助的詮釋知識來建構關係，而是直接分析文件中的基本要素來達到建立關係的目的。此方法最大的缺點是計算複雜度太高，且必須要人工的介入才能正確地辨認出文件中基本要素間的關係。表格 3 說明 [Barzilay97]與[Azzam99]方法的特性；表格 4 則比較 Lexical 與 Co-reference Chain 的差異性。. [Barzilay97]. [Azzam99]. Representation Model Lexical Chain. Co-reference Chain. Performance. Comments. Recall: 64% Precision: 47%. The results indicate the strong potential of lexical chains as a knowledge source for sentence extraction. The novelty is to combine the idea of a document extract based on co-reference chains with the idea of chains of related expressions serving to indicate sentences for inclusion in a generic summary.. Recall: 30% Precision: 65%. 表格 3：Characteristics of Discourse Model Approach. Differences. Lexical Chains n Easy to compute n Not rely on full text processing n Not always convey real “aboutness” of a text because of being indicated by an external resource. Co-reference Chain n Require more complex techniques n Need to understand the meaning of texts n Hard to recognize relationships among objects correctly. 表格 4：Lexical Chain 與 Co -reference Chain 的相異之處. 總結以上描述，以外在知識輔助的方法所建構的知識模型並不能保證真正能夠包含文件中所敘述的意思，原因乃是一詞多義與同義詞等語意混淆的現象，導致了字詞的意義沒有辦法正確地被定義。此外，使用自然語言處理的技術來分析文件，如果沒有人工的適時介入，便無法正確地建立基本要素關係的模型。. 25.

(34) 第三章. 改良型語句權重摘要. 過去以文件集為基礎的摘要技術主要應用於英文文件，若將英文摘要的研究成果應用在中文文件上，必須針對中英文的差異性加以修正，其中最大的差異在於中文斷詞比英文更容易影響到摘要結果的好壞；另外，針對過去方法的弱點，我們亦提出幾點改進：第一，針對每個語句位置的不同，我們賦予不同的權重以加強語句位置的重要性；第二利用詞彙相關程度(Word Co-occurrence)建構新字詞，並加入關鍵詞權重的計算；第三，利用基因演算法(Genetic Algorithm)得知每個特徵的重要性。. 第一節基本特徵值分析先前提及以文件集為基礎的摘要技術，主要透過特徵來評估每個語句的重要性，本節說明我們所考慮的幾項特徵，分別為語句位置(Position)、正面關鍵詞 (Positive Keyword) 、負面關鍵詞 (Negative Keyword) 、與標題的相似度 (Resemblance to the Title)以及向心性(Centrality)，以下逐一說明。 1.. 語句位置(Position) 從文件內容結構的角度來看，文件中重要的語句通常出現於某幾個特定. 的位置；舉例來說，每一段落的第一句常常會點出該段落的主題，因此，它的重要性會比同段落中其他位置的語句還要高。此外，即使是同樣屬於摘要的語句，我們認為他們的重要性也會因為位在文件中不同位置而有所不同；亦即，語句位置的特徵值不只是屬於或不屬於摘要的機率差別而已，每個位置都應賦予其不同的重要性。為了加強語句位置的重要性，當人工挑選摘要語句的同時，我們也賦予每個屬於摘要的語句一個權重值；因此，概念上計算位置的特徵值，便相當 26.

(35) 於計算某位置出現於摘要的期望權重。在實作上，對於位置的權重總共分為 6 個等級，分別為 0 到 5；其中 0 代表不屬於摘要，1 到 5 則表示該語句屬於摘要，且其重要性的強度 1 最弱，而 5 最強。對於測試文件中的某個語句 s 來說，它的位置特徵值計算方式如方程式 8：. ScorePosition( s ) = P(s ∈ S | Positioni ) ×. Average weight of Position i 5.0. where s comes from Positioni 方程式 8：s 的語句位置特徵值. 2.. 正面關鍵詞(Positive Keyword) 資訊擷取(Information Retrieval)認為一份文件可由其含有的關鍵詞所組. 成的向量來表示；同樣地，對於每個語句而言，也可由其含有的關鍵詞向量來表示。基於這個想法，我們認為假若某個語句擁有越多重要的關鍵詞，那麼該語句便越可能屬於摘要。所謂的正面關鍵詞指的是常出現在摘要語句中的關鍵字詞。. 考慮到中文的斷詞切字的困難程度，中文斷詞的正確與否會影響到關鍵詞出現在摘要語句的機率值；針對利用字典(Dictionary)作中文斷詞的缺點— 新字詞無法辨認出來，我們應用詞彙相關程度 (Word Co-occurrence) [Kowalski97]的技術來尋找文件中出現的新詞，並將找到的新詞加入計算以得到更正確的機率值。. 假設 A, B, C 是三個關鍵詞組，且 C 是由 A, B 所組成的(亦即，C 為新詞)， freqa 表示 A 出現在文件集中的頻率，freqb 表示 B 出現在文件集中的頻率，. 27.

(36) freqc 則表示 C 出現在文件集中的頻率，則 A, B 兩關鍵詞間的詞彙相關程度計算公式如方程式 9： WC ( A, B) =. freqc freqa * freqb. 方程式 9：A, B 關鍵詞的詞彙相關程度 [Kowalski97]. 當 WC (A, B)的值大於某個臨界值時，我們認為 C 是具有意義的新詞，因而以 C 這個新詞來取代 A, B。對於測試文件中某個語句 s 而言，假若它是由 Keyword1 , Keyword2 , … ,Keywordn 所組成的，它的正面關鍵詞特徵值的計算方式如方程式 10： ScorePositiveKeyword (s ) =. ∑ c ⋅ P( s ∈ S | Keyword ) k. k. k =1 , 2 ,..., n. where ck is the no. of Keywordk in s. 方程式 10：s 的正面關鍵詞特徵值. 3.. 負面關鍵詞(Negative Keyword) 相對於正面關鍵詞而言，在文件集中常出現但不屬於摘要中的關鍵詞，. 我們稱作負面關鍵詞。考慮這個特徵的原因，主要是希望將負面的關鍵詞特性也一併考慮，以期能夠得到更正確的結果。對於某個負面關鍵詞 Keywordi 而言，擁有 Keywordi 的語句 s 不屬於摘要的機率，計算方式如方程式 11： P(s ∉ S | Keywordi ) =. P( Keywordi | s ∉ S )P(s ∉ S ) P( Keywordi). 方程式 11：給予負面關鍵詞 Keyword i 的條件下，s 不屬於摘要的機率. 28.

(37) 對於測試文件中某個語句 s 而言，假若它是由 Keyword1 , Keyword2 , … ,Keywordn 所組成的，它的負面關鍵詞特徵值的計算方式如方程式 12： ScoreNegativeKeyword (s ) =. ∑c. k. k =1, 2 ,..., n. ⋅ P(s ∉ S | Keywordk ). where ck is the no. of Keywordk in s. 方程式 12：s 的負面關鍵詞特徵值. 4.. 與標題的相似度(Resemblance to the Title) 這個特徵主要考慮每個語句與文件標題的相似程度。一般來說，標題通. 常可以代表文件中所要描述的主題，因此，假若文件中的語句包含越多標題中所出現的詞彙，則該語句與文件主題的相關程度便會越高。對於測試文件中的某個語句 s 來說，與標題相似度的特徵值的計算方式如方程式 13：. ScoreResemblance to Title(s ) =. keywords in s I keywords in the title keywords in s U keywords in the title. 方程式 13：s 與標題的相似度特徵值. 5.. 向心性(Centrality) 文件中的語句如果越能代表該文件所要表達的意思的話，那麼該語句的. 重要性便會越高，這就是所謂向心性的概念。計算某個語句的向心性即是計算語句的向量表示法與整份文件扣除該語句的向量表示法兩者間的相似度。具有最大向心性的語句越能代表該文件的中心(Centroid )，換句話說，便是最具代表性的語句。. 29.

(38) 對於測試文件中的某個語句 s 而言，向心性特徵值計算方式如方程式 14：. ScoreCentrality(s ) =. keywords in s I keywords in other sentences keywords in s U keywords in other sentences. 方程式 14：s 的向心性特徵值. 第二節語句權重的計算與摘要生成第一節中說明如何從訓練文件集(Training Corpus)中計算單一語句每個特徵值。在本節中我們介紹如何將單一語句的所有特徵值結合以得到該語句的真正權重值。首先就每個特徵來討論，我們認為每個特徵的重要程度有所不同。針對這點，我們假設語句位置(Position)的權重是 w1，正面關鍵詞(Positive Keyword)的權重是 w2 ，負面關鍵詞 (Negative Keyword) 的權重是 w3 ，與標題的相似度 (Resemblance to the Title)的權重是 w4，而向心性(Centrality)的權重是 w5，最後設計了如方程式 15 的 Score Function 來計算每個語句的權重值。對於測試文件中的某個語句 s 而言，它的整體權重值的計算方式如方程式 15： ScoreOverall(s ) = w1 ⋅ Score Position(s ) + w2 ⋅ ScorePositiveKeyword (s ) − w3 ⋅ ScoreNegativeKeyword (s ) + w4 ⋅ ScoreResemblance to the Title(s ) + w5 ⋅ ScoreCentrality(s ) 方程式 15：計算語句權重值的 Score Function. 其中 w1 , w2 , w3 , w4 , w5 的數值大小，我們利用基因演算法(Genetic Algorithm)來訓練以得到適合該訓練文件集的最佳 Score Function。. 30.

(39) 訓練 Score Function 的做法，我們將每組 w1 , w2 , w3 , w4 , w5 視為基因組 (genome)。每次產生 1000 個個體(Element)當作一個世代(Generation)，接著計算每個個體對於該訓練文件集的摘要正確率— 以召回率(Recall)為參考標準，並保留摘要召回率最高的 10 個個體當作下一世代的母體；每一個世代評估完後，依照保留下來的 10 個個體來交配產生下一個世代的部分個體，並隨機產生其他個體以補足每個世代的個體數目。個體交配的時候，我們以下面兩個原則來產生下一世代的個體。. 1.. 以圖 11 為例。E1, E2 分別代表母代的基因組，產生下一世代的時候，將 E1 的基因組(M1,1, M1,2 )與 E2 的基因組(M2,3, M2,4 , M2,5)組合成為 E3，將 E2 的基因組(M2,1, M2,2)與 E1 的基因組(M1,3, M1,4, M1,5)組合成為 E4，這樣的交配方法我們將之稱為”2-3 基因交換”。依照這個原則，我們實作了 1-4, 2-3, 3-2, 4-1 四種交配的方法。. 圖 11： m-n 基因交配方法. 2.. 為了增加基因的突變能力，以圖 12 為例，以隨機的方式保留下 E1 中的 M1,2 , M1,4 , M1,5 作為 E2 的基因(每次所保留的基因不同)，另外，E2 中的 M1,1 與 M1,3 則由系統隨機產生，便可以保留下部分優良的基因，以增加世代的突變能力。. 31.

(40) 圖 12：個體的基因組(M1,1 , M 1,2 , M 1,3 , M1,4 , M 1,5 )與其突變. 利用基因演算法的訓練方式，我們可以找到一組最適合該訓練文件集的特徵權重值。這樣的作法乃是因為對於不同的訓練文件集，很難有效地找到最適合的特徵權重值，然而，套用基因演算法的方式可以幫助找到一組適當的解，做為系統設計者調整系統好壞的依據。值得一提的是，我們將基因演算法套用於訓練文件集上，因此對於測試文件集(Test Corpus )並不能保證所得到的權重值組也能得到相同的好結果。但是，假如測試文件集與訓練文件集的性質非常接近的話，此方法的結果與實際上真正適合該測試文件集的權重值組所計算出來的正確率並不會相差太多。生成文件摘要的部份，以一篇測試文件而言，首先根據方程式 15 計算每個語句的整體權重值，當成是每個語句的分數(Score)，接著依據語句的分數將文件中的語句依分數由大至小的方式作排名(Ranking)，最後將 Top N 個語句擷取出來當作該文件的摘要結果。綜合上述，我們將此摘要的方法加以整理於圖 13。 Corpus-based 文件摘要生成演算法 1. 2 3 4. 針對測試文件中的每個語句依下列步驟計算它的權重值。 1.1 利用方程式 8、方程式 10、方程式 12、方程式 13、方程式 14 計算每個特徵值的大小。 1.2 利用方程式 15 計算該語句的整體權重大小。將文件中的所有語句，依照語句的分數由大排到小形成一份語句重要性排名清單(Sentence Importance List)。根據壓縮比(Compression Rate)計算欲摘要的語句個數 N。從語句重要性排名清單中挑選出前面的 N 個語句即為該文件的摘要。. 圖 13： Corpus-based 文件摘要生成演算法 32.

(41) 總結來說，我們以[Kupiec95]為本，提出了三項改進的方法：. 1.. 引入權重的概念應用在語句位置的重要性計算上，以期得到更正確的語句位置特徵值的計算。. 2.. 根據中文斷詞切字的問題，利用詞彙相關程度的技術來找到文件集中的新詞，以期能夠改進與關鍵詞相關的特徵值(正面關鍵詞、負面關鍵詞、與標題的相似度及向心性)的計算結果。. 3.. 使用基因演算法來訓練 Score Function 中的 w1 , w2 , w3 , w4 以及 w5，以期能夠提供系統設計者調整 Score Function 的依據。. 33.

(42) 第四章. 以潛在語意分析為基礎的語句摘要. 受到資訊擷取中潛在語意分析(Latent Semantic Analysis, LSA)與潛在語意索引(Latent Semantic Indexing, LSI)研究成果的影響，我們認為 LSA 可以正確地描述文件中字詞、語句與文件意義的整體關聯性；因此，本論文將 LSA 應用在自動摘要的研究上，並提出一套以 LSA 為知識核心的摘要方法。本章中，首先介紹何謂 LSA 及其工作原理，接著說明本論文所提的以 LSA 為基礎的語句摘要技術的系統架構，最後描述我們的方法與相關討論。. 第一節潛在語意分析(Latent Semantic Analysis) LSA 工作原理. 4.1.1. [Landauer98]認為 LSA 除可作為文件的知識表示(Knowledge Representation) 外，並可用來推演隱性的知識關聯；此外，LSA 的知識模型與知識推演過程接近於人腦用來理解文件知識的推演與認知機制模型。. LSA是以數學統計為基礎的知識模型，其運作方式跟類神經網路(Neural Net) 的極為相似，不同的是類神經網路以權重的傳遞與回饋來修正本身的學習，LSA 則以奇異值分解 (Singular Value Decomposition, SVD) 與維度約化 (Dimension Reduction)為核心作為邏輯推演的方式。 LSA 的應用非常廣泛，主要集中在資訊擷取、同義詞建構、字詞與文句的相關性判斷標準、文件品質優劣的判別標準及文件理解與預測等各方面的研究。. LSA 的工作原理如圖 14 所示：利用 SVD 及維度約化將輸入的知識模型抽象化，整個過程除可以將隱含的語意顯現出來外，更能將原本輸入的知識模型提升到較高層次的語意層面。. 34.

(43) 圖 14： LSA 工作原理示意圖. 實際運作的過程中，首先將文件集 (Corpus)中所有文件的 Context 2 用 Word-by-Context 矩陣 M 來表示，矩陣中的每個元素即是某關鍵詞在某 Context 中的重要性或出現頻率。接著，將矩陣 M 經過 SVD 分解轉換得成新的矩陣乘積 LSUT，亦即 M=LSUT，其中 S 代表語意空間(Semantic Space)，L 代表關鍵詞在此語意空間中的表示法，UT 則代表 Context 在此語意空間中的表示法。LSA 利用維度約化可更精確地描述語意空間的維度，並重建矩陣 M∼M’=L’S’U’T，更明確地探究出 Word-Word、Word-Context 或 Context-Context 間的關聯性。總結上述說明：. 1.. LSA 假設經過 SVD 後所得到的對角線矩陣(即上述中的 S 與 S’)所代表的意義是整份文件的語意空間。所謂的語意空間就是文件中每個字詞的定義空間，也就是說，每個字詞可以透過這個語意空間的定位來得到真正代表的意思。. 2.. 為了要將語意空間的真正維度定義出來，LSA 需要經過維度約化來重建最後的 Word-by-Sentence 矩陣。. 3.. M 經過 SVD 分解與維度約化後重建得到的新矩陣 M’中，S’代表語意空間，此語意空間比 S 可以更正確地定義且描述關鍵詞與 Context 所代表. 2. 所謂 Context 可視需求定義為 Sentence, Paragraph, Chapter, 或 Document 的層面來考量。 35.

(44) 的意義。 4.. 相較於使用外在資源以達到文件模型建構的方法，LSA 提供直接的分析方式，更精確地建構文件的知識模型，且避免使用輔助知識可能發生的語意混淆的問題。. 5.. LSA 與資訊擷取的不同在於 LSA 可以涵蓋字詞間關聯程度 (Co-occurrence)，更可藉由維度約化將原 Context 中潛在的語意表現出來。. 6.. LSA 具有知識推演的能力，如果將最原始矩陣中的任一個數值改變後，其結果會影響到最後重建的矩陣，且影響的範圍不只是原先經過改變的數值，更可能影響到矩陣中的其他數值。 LSA 實例說明. 4.1.2. 接下來，我們以實例說明 LSA 的運作方式 [Landauer98]。這個例子中共包含 9 個 Context，分別為 c1、c2、c3、c4、c5、m1、m2、m3 與 m4，其中 c1 至 c5 是 Human-Computer Interface 領域的相關文件標題，而 m1 至 m4 則來自於 Mathematical Graph Theory 領域的相關文件標題。 Exampl of text data: Titles of Some Technical Memos [Human-Computer Interface] c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement [Mathematical Graph Theory] m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey 36.

(45) 我們挑選至少出現兩次的關鍵詞來建構 Word-by-Title 的矩陣{X}，{X}中的每一列(Row)代表在兩個或兩個以上的 Context 中出現過的關鍵詞，而每一行 (Column)則代表一個 Context ；此外， {X}中每個元素代表特定關鍵詞在特定 Context 中出現的次數。{X}經過 SVD 分解後得到三個矩陣，分別為{W},{S}以及 {P}T。其中{X}即是先前所說的 M，另外{W}、{S}與{P}T 分別為前面所說的的 L、 S 與 UT。. {X’}則是維度約化過程中取維度(Dimension)為 2，亦即取{W}、{S}與{P}的前二 Column( 相當於把其他 Column 的值均設為 0) 後所重建回來的矩陣 — {X’}={W’}{S’}{P’}T({W’}, {S’}, {P’}為將{W}, {S}, {P}取前二 Column 值，其餘 Column 值設為 0 的結果)。   human   interface   computer  user   system {X } =  response   time  EPS   survey   trees  graph   minors. c1 c2 c3 c4 c5 m1 m2 m3 m4 1 0 0 1 0 0 0 0 0  1 0 1 0 0 0 0 0 0   1 1 0 0 0 0 0 0 0  0 1 1 0 1 0 0 0 0   0 1 1 2 0 0 0 0 0  0 1 0 0 1 0 0 0 0  = {W }{S }{P}T  0 1 0 0 1 0 0 0 0  0 0 1 1 0 0 0 0 0  0 1 0 0 0 0 0 0 1   0 0 0 0 0 1 1 1 0  0 0 0 0 0 0 1 1 1   0 0 0 0 0 0 0 1 1 . 37.