第二章 相關研究工作
第一節 文件摘要相關研究
本章首先介紹文件摘要的相關研究,接著分別介紹三種不同觀點的研究技 術:(1)以文件集為基礎的摘要方法(Corpus-based Approaches)、(2)以主題關係地 圖為基礎的摘要方法(Text Relationship Map-based Approaches)與(3)以語段模型為 基礎的摘要方法(Discourse-based Approaches)。
第一節 文件摘要相關研究
自動化文件摘要的研究起源於 1950 年代。受限於過去電腦技術的不發達,
以及自然語言處理的高困難度,先前的研究方法僅僅著眼於計算文件中每個語句 所提供的資訊量多寡或是判斷每個語句的重要性;此外,亦研究如何根據語句的 重要性摘錄出足以代替原始文件的語句或段落,也就是所謂的語句(段落)摘錄1 (Sentence/Paragraph Extraction) [Aone99] [Gong01] [Kim00] [Kupiec95] [Myaeng99]
[Salton97]。
圖 2 舉例說明語句摘錄的範例,圖中的陰影部分即是範例文件的摘錄結 果。摘錄類型的摘要作法是由原始文件計算每個語句的資訊量,並依照重要性的 不同賦予每個語句權重;接著考慮使用者的需求(如壓縮比),並依照語句權重挑
1 以下所提的文件自動摘要 ,所指的皆是語句或段落的摘錄 。
選出候選的重要語句;最後再經過語句的排序與重組後即可作為該原始文件的摘 錄。
三月四日一大早約九點出頭 ,前總統夫人曾文惠在女兒李安妮與隨扈的護送下 ,出現在 台北地方法庭。在出發之前,前總統李登輝才對曾文惠表示了精神上的完全支持,但是她還是 抵擋不住硬吞下眼淚的那種心情。
台灣有史以來,第一次出現前第一夫人到法院出庭的情況 ,曾文惠臉上沒有面對群眾時 慣有的那種溫暖笑容,而是勉強擠出淺淺的笑,低著頭快速地進入法庭。只有在步出法庭時,
看到熱情的支持群眾,她才露出親切溫柔的笑臉。
許多人都還記得 ,當然,李登輝一家人也都深深地記得。兩年前總統大選後的那幾天,
許多「國民黨人士」包圍國民黨中央黨部,在民眾情緒激憤,要求李登輝下台的時候,謝啟大 在宣傳車上,對著底下的群眾喊著「曾文惠帶了八千五百萬美金逃到美國 」。
接下來 ,前立委馮滬祥以及前僑務委員戴錡更召開記者會 ,提出洋洋灑灑的「證據」,公 開指稱曾文惠搭乘長榮航空,私運八千五百萬美元到美國,被美方拒絕入境,又緊急搭華航班 機運回美元,於是引來了所謂的「八千五百萬元美金運送風波 」。
小女兒李安妮不甘曾文惠被如此惡意誹謗 ,建議曾文會自訴謝啟大等三人涉嫌誹謗 ,並 求償三億元賠償。但是,法官出身的謝啟大深闇司法,第一次出庭就採取反擊,反控曾文惠誣 告,也要求三億元賠償,並且要求曾文惠出庭,也使得曾文惠必須在三月四日出庭應訊。
當天,曾文惠進入台北地院的北大門時,離開庭時間還有約半個小時,她快速地走上樓 梯進入休息室,並準時出現在位於二樓的第七法庭。經過冗長的庭訊過程,從上午九點四十分 開庭到中午一點休息,曾文惠完全沒有發言。經過短暫的休息之後,曾文惠才站在法庭前接受 法官的詢問,否認運美金赴美。
在經過身體與精神的雙重煎熬之下,下午三點多,曾文惠終於承受不住心裡的委屈 ,趴 在桌上偷偷地落淚,並在李安妮的攙扶下暫時離開法庭。在庭訊的過程中,曾文惠也不禁用紙 張寫下她的心情,「上帝創造人的眼淚是流下來的,我的眼淚卻是吞進去的」。
實際上 ,基於對司法的尊重 ,曾文惠與家人也完全不願意對這件官司發表談話 。而儘管 曾文惠的高中校友鄭玉麗,曾經在二○○○年三月二十二日下午打了通電話給她,並聊了將近 半個小時,但基於自己沒有舉證責任的原則之下,曾文惠也不願鄭玉麗出面作證。
對曾文惠而言,這場官司是一種捍衛自己尊嚴的官司 。看著老妻受到這麼大的委屈 ,李 登輝心底絕對是相當心疼的。
圖 2:文件摘錄的範例
2.1.1 自動化文件摘要技術的發展
接下來介紹文件自動摘要技術的發展歷程。1950 年代到 1960 年代是文件摘 要研究的開始,這個時期的研究重點著重於文件類型(Document Genre)的分析,
例如:每一個段落的第一句話,通常都會直接點出接下來所要敘述的主題大綱;
或 是 語 句 中 出 現 某 些 常 用 的 提 示 片 語 (Cue Phrase)— “in summary”、 ”in
conclusion”— 等等,這些具有提示片語的語句通常是總結內容主題的說明,因此 也具有高重要性。
文件摘要初期的研究,絕大多數都以分析文件類型與寫作風格的方式,以達 到自動化摘要的目的。這類摘要技術的優點在於簡單容易,但這也是它最大的致 命傷:摘要的方法和文件的類型與風格息息相關,導致同一技術在不同類型文件 中的重複利用性不高。
1970 年代到 1980 年代初期,人工智慧的研究成果開始應用在文件自動摘 要。這個時期的研究,重點在於如何建構知識的表達模型,用以辨析文件內容的 主題與涵義,所使用的知識表達模型不外乎框架(Frame)及模板(Template)等。此 類方法係利用自然語言的處理技巧來辨認出文件內容中人物、地點以及時間等基 本要素(Entity),並將之套用在事先定義好的模板或框架以取代原始文件中的語 句,接著經由這些知識模型的推演來得知文件內容的主題並由模板來生成摘要。
此類技術的最大缺點在於模板的定義必須由專家進行,且因為模板的廣泛度 不夠,使得有限數量的模板影響到文件涵義辨析的不正確性,導致產出的摘要內 容在意義上的扭曲。
資訊擷取(Information Retrieval, IR)研究的議題在於如何從一文件集(Corpus) 裡尋找與檢索條件有關聯的文件;若將資訊擷取的範圍縮小到單篇文件中,則文 件摘要可以定義成如何在單篇文件中擷取出與內容主題相關的重要語句。
資訊擷取的技術從 1990 年代初期起大量地應用在文件摘要上,因為資訊擷 取的分析著重於字層面(Word- Level)的分析,並未考慮到同義詞(Synonymy)與一 詞多義(Polysemy)的詞義辨析、字詞與片語(Phrase)的辨析以及如何衡量字詞與字 詞間的依屬(Term Dependency)程度等語意層面的分析,因而不能提供正確的摘要 資訊。
除了上述幾種研究方法外,文件自動摘要的研究還有兩類不同的方法:以語 言學(Linguistic s)分析為主的摘要技術以及由認知心理學(Cognitive Psychology) 來理解文件的摘要技術。它們的發展時期分別是 1960 年代到 1970 年代,以及 1970 年代到 1980 年代左右。
2.1.2 相關研究工作
第一章中曾經提到,自動化文件摘要系統的第一階段是分析原始文件,並擷 取文件的特徵。究竟如何判斷所擷取特徵的重要性呢?[Habn00]根據詮釋知識 (Meta-Knowledge)在特徵擷取過程中參與的程度,將使用的方法歸為以下三類:
l Knowledge-poor Approaches:
[Luhn59] [Edmundson68] [Kupiec95] [Myaeng95] [Salton97] [Aone99]
[Hovy99] [Lin99] [Kim00] [Gong01]
l Knowledge-rich Approaches:
[Mckeown95] [Barzilay97] [Aone99] [Azzam99] [Hovy99] [Silber00]
l Hybrid Approaches:[Aone99] [Hovy99]
圖 3 中我們依年份及方法整理了這些相關的研究工作。
圖 3:相關研究工作
Knowledge-poor approach 是一種通用性的方法,不會因為所處理資料的不同
所謂的實體特徵可以是關鍵詞(Keyword)、語句位於文件中的位置或是提示詞語 等等。這類方法通常是由資訊擷取的方法所衍生而來。
它的作法說明如下,首先分析文件中每個語句的特徵,並利用這些特徵作為 語句的表示法;接著考慮特徵的重要性賦予每個語句不同的權重值(亦即代表該 語句的資訊量或重要程度);最後將文件裡的所有語句依照權重值由大而小排 序,並挑選出權重值較高的數個語句成為原始文件的摘錄結果。
由上可知,利用實體特徵分析的方法,一般只著重於某些特定且較低層次的 特徵分析,並沒有考慮到較高層次的語意,如知識概念(Knowledge Concepts)的 分析。並且 Knowledge-poor 的方法用的是資訊擷取的技術,因此所擷取的特徵 僅僅是建構在統計模型上的分析結果,並無法真正涵蓋到文件內容的意義。
為了彌補 Knowledge-poor 方法的缺陷,近年來關於文件自動摘要技術的研 究已逐漸朝向 Knowledge-rich 的方法發展。所謂 Knowledge-rich 的方法除了分析 文件結構與文件特徵之外,還加入領域知識(Domain Knowledge)輔助,以了解並 表現出文件中所隱藏的主題和概念(Concepts),進而達到語意層面(Semantic Level) 的摘要目的。
此類方法引入額外的知識來分析文件的結構及其代表意義,以發掘出文件中 包含的基本要素(Text Entity)和各個基本要素間的關聯性,從而建立文件的知識 表示模型(Knowledge Representation Model),最後精簡此模型(亦即保留此模型中 具代表性的部分),並利用精簡過後的模型來擷取文件中的語句以達到摘要的目 的。
[Mani99]提出基本要素間的關聯性可能包含:
l 相似度(Similarity):例如語彙的重複性(Vocabulary Overlap);
l 鄰近度(Proximity):二基本要素(如關鍵詞、人事時地物)在文件中的距
離;
l 同時出現(Co-occurrence):基本要素是否在同一上下文(Context)中出現;
l 語彙在詞典中的關係(Thesaural Relationship):如同義字(Synonym)、部 分關係(Part-of relationship)等;
l 共同參照(Co-reference):參照到共同的要素或者超鏈結(Hyperlink);
l 邏輯上的相關性:如同義 (Agreement)、 矛盾性(Contradiction)與一致 (Consistency)性等等;
舉例來說,新聞文件中的基本要素不外乎就是『人』、『事』、『時』、『地』、『物』
五個要素所構成的,因此只要利用足夠的輔助知識,如人名的表格、地點的表格 或是語料辭典等等,便可以辨認出該新聞文件中所存在的事件關係的模型;
有了知識模型後,更可以藉由邏輯推理來找出其中的隱性知識,最後挑選重 要的知識概念用來當作文件中重要語句的擷取依據。然而此種方法最大的缺陷在 於必須藉由外在知識的分析,因此可能導致字詞、語句、段落或文件層面的語意 被誤解。