以文件集為基礎的摘要技術

第二章相關研究工作

第二節以文件集為基礎的摘要技術

l 同時出現(Co-occurrence)：基本要素是否在同一上下文(Context)中出現；

l 語彙在詞典中的關係(Thesaural Relationship)：如同義字(Synonym)、部分關係(Part-of relationship)等；

l 共同參照(Co-reference)：參照到共同的要素或者超鏈結(Hyperlink)；

l 邏輯上的相關性：如同義 (Agreement)、矛盾性(Contradiction)與一致 (Consistency)性等等；

舉例來說，新聞文件中的基本要素不外乎就是『人』、『事』、『時』、『地』、『物』

五個要素所構成的，因此只要利用足夠的輔助知識，如人名的表格、地點的表格或是語料辭典等等，便可以辨認出該新聞文件中所存在的事件關係的模型；

有了知識模型後，更可以藉由邏輯推理來找出其中的隱性知識，最後挑選重要的知識概念用來當作文件中重要語句的擷取依據。然而此種方法最大的缺陷在於必須藉由外在知識的分析，因此可能導致字詞、語句、段落或文件層面的語意被誤解。

第二節以文件集為基礎的摘要技術

2.2.1 以文件集為基礎的摘要技術說明

不同類型的文件，因為寫作方式及用字用詞等特性的不同，最後所產生的摘要形式也該有所差異；比如說科技論文與新聞文件的摘要在本質上就不會相同，

科技論文的摘要著重於簡介(Introduction)以及結論(Conclusion)的部分，而新聞文件著重的是給閱讀者概觀性的敘述。然而，屬於同類型文件的摘要，就有可能具有某些共通的特性。

以文件集為基礎的自動摘要技術(Corpus-based Approaches)係利用機器學習 (Machine Learning)，從已經具備摘要的同類型文件集中，探索出該類型文件摘要

所必備的共同特性，並應用這些共同特性於該類型文件之摘要的自動生成。圖 4 是「以文件集為基礎的自動摘要技術」之系統概觀圖。

Feature Extractor

Labeler

Learning Algorithm

Rule Application Source

Summary Training Corpus

Source

Test Corpus Rules

Vectors

Machine-generated Summary Domain Knowledge

圖 4：「以文件集為基礎的自動摘要技術」系統概觀 [Kupiec95]

以文件集為基礎的自動學習摘要技術的流程分為兩個階段：(1)訓練階段 (Training Phase)，(2)測試階段(Test Phase)。在訓練階段中，輸入事先由人工標示好摘要的訓練文件集(Training Corpus)，具有學習能力的摘要系統會自動從每篇訓練文件及其對應的摘要中擷取出具有代表性的特徵(Feature Extraction)；接著參考相關的領域知識，並選擇適當的學習演算法(Learning Algorithm)來產生相對應的摘要規則(Rule)。

在測試階段中，則是輸入同類型但不屬於訓練文件集的測試文件集(Test Corpus)，系統先根據學習得之摘要規則擷取出相關的特徵，並套用摘要規則產生屬於該測試文件的摘要。至於評估摘要系統優劣的方法，主要是比較系統產生的摘錄與人工標示的摘要間之準確率(Precision)和召回率(Recall)。

[Kupiec95]提出一個以貝式定理(Bayesian Rule)為基礎的 Corpus-Based 方法 來計算每個語句的權重值。假設語句 s 是測試文件中的任一個語句，F1到 Fk則

Training Phase Test Phase

是系統中用來衡量語句重要性的 k 個不同的特徵，那麼語句 s 屬於摘要的機率如

( )

#(sentence in training corpus)

) eature F and has f

ng corpus, in traini

ng corpus) in traini

[Kupiec95]所實作的系統中，用來判斷語句重要性的特徵主要為下列幾項：

l 語句長度(Sentence Length)

語句的長度會影響到語句所涵蓋資訊量的多寡，較長的語句所包含的資訊通常比較短的語句所含的資訊量來得豐富。他們認為語句的長度至少必須要 5 個字才可能屬於摘要。

l 提示片語(Fixed-Phrase)

文件中常用的提示片語，如”in summary”以及”in conclusion”等等，這些片語往往會出現在介紹或總結主題敘述的語句中。他們認為文件中的語句如果包含這些常用的提示性片語，那麼該語句便有極高的可能性是屬於摘要。

l 段落位置(Paragraph)

他們將文件分為 paragraph- initial、paragraph-medial 以及 paragraph- final 等三個部分；並認為出現在 paragraph- initial 以及 paragraph- final 這兩個部份的語句，通常都是帶出主題或是總結主題的語句，所以，落於這兩個部份的語句具有較高的重要性。

l 主題字詞(Thematic Words)

一篇文件中，如果某個關鍵字重複出現許多次，則這篇文件的主題極可能與此關鍵字有關。他們認為擁有愈多出現頻率越高的關鍵詞的語句，愈有可能是屬於文件的摘要中。

l 大寫字詞(Uppercase Words)

他們認為文件中大寫 (Uppercase)的字詞或是特殊的專有名詞(Proper Nouns)具有較高的重要性，因此擁有愈多大寫字詞或專有名詞的語句便愈可能屬於文件摘要。

這篇論文中有兩個很重要的結論：

1. 雖然使用上述五個特徵當作語句重要性的計算依據，但是，實驗的結果顯示，若只考慮 Paragraph、Fix-Phrase 以及 Sentence Length 的組合所得到的結果最佳。

2. 文件摘要的壓縮比會影響到自動摘要系統結果的正確率。從圖 5 中可知，當摘要系統所摘要出來的語句數目越多的話(代表壓縮比越高)，所得到的正確率就越高。

圖 5：壓縮比對摘要系統正確率的影響 [Kupiec95]

2.2.2 相關的研究成果比較

[Kupiec95]提出一個以貝式定理為核心的自動摘要方法，之後的研究都以此為中心而衍生，例如[Myaeng99]、[Aone99]與[Hovy99]。以下針對這幾篇論文的不同之處加以詳述，這幾篇論文的重點比較則列於表格 1 中。

[Myaeng99]認為文件摘要必須考慮到文件內容的架構。他們認為具有代表性的語句會出現在文件中 Introduction 及 Conclusion 這兩部分，且這兩個部分可進一步分割成四個組成結構— background, main theme, explanation of the document structure 及 future work，屬於各個部分的語句其重要性會有所差異。實驗結果顯示 Cue Word, Sentence Location及 Resemblance to Title 最能夠代表語句的重要性。

[Aone99]從解決資訊擷取的共通弊病來著手— 語句的斷詞切字好壞會影響到摘要結果；亦即，文件中的特殊片語或是專有名詞，如果沒有正確地分辨的話，

很有可能會誤解文章的涵義。他們提出兩個原則來解決前述問題。第一，斷詞切字時盡量將可能是片語的字詞結合在一起；第二，利用 NameTag 工具來擷取專有名詞，並將具有相同意義的字詞視為相同，如”IBM”與”International Business Machines”在計算關鍵詞的權重時，這兩個字詞的出現頻率必須要同時考慮。

[Hovy99]集先前研究之大成，提出了一個重要的概念：摘要 (Summarization)

＝主題辨認 (Topic Identification)+ 概念融合 (Concept Fusion)+ 摘要的生成 (Generation)。亦即，輸入文件先經過主題的辨認以擷取出文件內容中描述的主 題，接著將具有相同涵義的主題融合，最後再將這些主題所要表達的概念經過語句重組(Sentence Planning)後產生新的摘要。

Analysis Features Improvement (Compared with

[Kupiec95])

No. of Training/

Testing Documents

Performance Compression Rate

[Kupiec95] n Sentence Length n Cue Phrases n Paragraph n Thematic Words n Uppercase Words n Proper Nouns

n A statistical model based on Bayes’ Rule

187/1 Recall: 42% The same number of sentences as in the corresponding manual summary.

[Myaeng99] n Cue Words n Negative Words n Position n Theme Words n Centrality n Resemblance to

Title

n Thematic Structure Decomposition n Dempster-Shafer’s

Combination Rule n Use “text component”

as filter

30/30 11-point average precision: 44%

5 sentences regardless of the size of source document.

[Aone99] n Thematic Words n Sentence Length n Position n Paragraph

n To reshape the word unit

n To acquire domain knowledge n To approximate text

structure

100/100 Recall: 56%

Precision:

51.4%

[Hovy99] n Propose a new idea:

Summarizat ion = Topic Identification + Interpretation + Generation n A method combines

robust NLP and symbolic knowledge by concept fusion

表格 1：以文件集為基礎的摘要方法研究的比較

綜合以上的說明，不難想像以文件集為基礎的摘要方法，它最大的問題在於只考慮到低層次(Low-Level)的特徵分析而已，其他較高層次的特徵，如語意索引(Semantic Index)、概念階層(Concept Hierarchy)等等語意層次的分析並沒有考慮在內。也就是說，利用這種技術來建構自動摘要系統可能導致所產生的文件摘要品質低劣，並且沒有辦法有效地涵蓋原始文件所要表達的意義。

2.2.3 以文件集為基礎的摘要技術延伸討論

以文件集為基礎的摘要技術還有一些其他的缺失，比如說 Anaphora Link 的問題等等。所謂 Anaphora Link 指的是某個語句中出現代名詞用以取代先前所提 過的名詞個體，如『(1)王老先生有塊地。(2)他在這塊地上種了很多農作物。』

上述語句中的『他』便是 Anaphora Link；假若摘要系統挑選了(2)當摘要，如此一來，第二句中的他便失去了原有的意義。為了解決這個問題，通常都是(1)(2) 兩句一起挑選當作摘要，以保留原本 Anaphora Link 所代表的意思。

除此之外，以文件集為基礎的摘要方法，仍需要注意到以下幾點：

1. 當套用到不同寫作格式的文件集時，摘要系統該如何自動且有效地學習並發掘新的可利用特徵？

2. 當使用關鍵詞當作特徵時，摘要系統該運用何種技巧將關鍵詞層面 (Term- Leve l)的涵義提昇到概念層面(Concept-Level)的涵義。

3. 如何利用輔助的資源如概念階層等來辨認各個關鍵詞所代表的語意。

在文檔中文件自動化摘要方法之研究及其在中文文件的應用 (頁 20-26)

第二章 相關研究工作

第二節 以文件集為基礎的摘要技術

第二節 以文件集為基礎的摘要技術

( )

第二章相關研究工作

第二節以文件集為基礎的摘要技術

第二節以文件集為基礎的摘要技術