• 沒有找到結果。

以文件集為基礎的摘要技術

第二章 相關研究工作

第二節 以文件集為基礎的摘要技術

l 同時出現(Co-occurrence):基本要素是否在同一上下文(Context)中出現;

l 語彙在詞典中的關係(Thesaural Relationship):如同義字(Synonym)、部 分關係(Part-of relationship)等;

l 共同參照(Co-reference):參照到共同的要素或者超鏈結(Hyperlink);

l 邏輯上的相關性:如同義 (Agreement)、 矛盾性(Contradiction)與一致 (Consistency)性等等;

舉例來說,新聞文件中的基本要素不外乎就是『人』、『事』、『時』、『地』、『物』

五個要素所構成的,因此只要利用足夠的輔助知識,如人名的表格、地點的表格 或是語料辭典等等,便可以辨認出該新聞文件中所存在的事件關係的模型;

有了知識模型後,更可以藉由邏輯推理來找出其中的隱性知識,最後挑選重 要的知識概念用來當作文件中重要語句的擷取依據。然而此種方法最大的缺陷在 於必須藉由外在知識的分析,因此可能導致字詞、語句、段落或文件層面的語意 被誤解。

第二節 以文件集為基礎的摘要技術

2.2.1 以文件集為基礎的摘要技術說明

不同類型的文件,因為寫作方式及用字用詞等特性的不同,最後所產生的摘 要形式也該有所差異;比如說科技論文與新聞文件的摘要在本質上就不會相同,

科技論文的摘要著重於簡介(Introduction)以及結論(Conclusion)的部分,而新聞文 件著重的是給閱讀者概觀性的敘述。然而,屬於同類型文件的摘要,就有可能具 有某些共通的特性。

以文件集為基礎的自動摘要技術(Corpus-based Approaches)係利用機器學習 (Machine Learning),從已經具備摘要的同類型文件集中,探索出該類型文件摘要

所必備的共同特性,並應用這些共同特性於該類型文件之摘要的自動生成。圖 4 是「以文件集為基礎的自動摘要技術」之系統概觀圖。

Feature Extractor

Labeler

Learning Algorithm

Rule Application Source

Summary Training Corpus

Source

Test Corpus Rules

Vectors

Machine-generated Summary Domain Knowledge

圖 4:「以文件集為基礎的自動摘要技術」系統概觀 [Kupiec95]

以文件集為基礎的自動學習摘要技術的流程分為兩個階段:(1)訓練階段 (Training Phase),(2)測試階段(Test Phase)。在訓練階段中,輸入事先由人工標示 好摘要的訓練文件集(Training Corpus),具有學習能力的摘要系統會自動從每篇 訓練文件及其對應的摘要中擷取出具有代表性的特徵(Feature Extraction);接著參 考相關的領域知識,並選擇適當的學習演算法(Learning Algorithm)來產生相對應 的摘要規則(Rule)。

在測試階段中,則是輸入同類型但不屬於訓練文件集的測試文件集(Test Corpus),系統先根據學習得之摘要規則擷取出相關的特徵,並套用摘要規則產 生屬於該測試文件的摘要。至於評估摘要系統優劣的方法,主要是比較系統產生 的摘錄與人工標示的摘要間之準確率(Precision)和召回率(Recall)。

[Kupiec95]提出一個以貝式定理(Bayesian Rule)為基礎的 Corpus-Based 方法 來計算每個語句的權重值。假設語句 s 是測試文件中的任一個語句,F1到 Fk

Training Phase Test Phase

是系統中用來衡量語句重要性的 k 個不同的特徵,那麼語句 s 屬於摘要的機率如

( )

#(sentence in training corpus)

) eature F and has f

ng corpus, in traini

ng corpus) in traini

[Kupiec95]所實作的系統中,用來判斷語句重要性的特徵主要為下列幾項:

l 語句長度(Sentence Length)

語句的長度會影響到語句所涵蓋資訊量的多寡,較長的語句所包含的資 訊通常比較短的語句所含的資訊量來得豐富。他們認為語句的長度至少必須 要 5 個字才可能屬於摘要。

l 提示片語(Fixed-Phrase)

文件中常用的提示片語,如”in summary”以及”in conclusion”等等,這些 片語往往會出現在介紹或總結主題敘述的語句中。他們認為文件中的語句如 果包含這些常用的提示性片語,那麼該語句便有極高的可能性是屬於摘要。

l 段落位置(Paragraph)

他們將文件分為 paragraph- initial、paragraph-medial 以及 paragraph- final 等三個部分;並認為出現在 paragraph- initial 以及 paragraph- final 這兩個部份 的語句,通常都是帶出主題或是總結主題的語句,所以,落於這兩個部份的 語句具有較高的重要性。

l 主題字詞(Thematic Words)

一篇文件中,如果某個關鍵字重複出現許多次,則這篇文件的主題極可 能與此關鍵字有關。他們認為擁有愈多出現頻率越高的關鍵詞的語句,愈有 可能是屬於文件的摘要中。

l 大寫字詞(Uppercase Words)

他們認為文件中大寫 (Uppercase)的 字 詞或是特殊的專有名詞(Proper Nouns)具有較高的重要性,因此擁有愈多大寫字詞或專有名詞的語句便愈可 能屬於文件摘要。

這篇論文中有兩個很重要的結論:

1. 雖然使用上述五個特徵當作語句重要性的計算依據,但是,實驗的結果 顯示,若只考慮 Paragraph、Fix-Phrase 以及 Sentence Length 的組合所得 到的結果最佳。

2. 文件摘要的壓縮比會影響到自動摘要系統結果的正確率。從圖 5 中可 知,當摘要系統所摘要出來的語句數目越多的話(代表壓縮比越高),所 得到的正確率就越高。

圖 5:壓縮比對摘要系統正確率的影響 [Kupiec95]

2.2.2 相關的研究成果比較

[Kupiec95]提出一個以貝式定理為核心的自動摘要方法,之後的研究都以此 為中心而衍生,例如[Myaeng99]、[Aone99]與[Hovy99]。以下針對這幾篇論文的 不同之處加以詳述,這幾篇論文的重點比較則列於表格 1 中。

[Myaeng99]認為文件摘要必須考慮到文件內容的架構。他們認為具有代表性 的語句會出現在文件中 Introduction 及 Conclusion 這兩部分,且這兩個部分可進 一步分割成四個組成結構— background, main theme, explanation of the document structure 及 future work,屬於各個部分的語句其重要性會有所差異。實驗結果顯 示 Cue Word, Sentence Location及 Resemblance to Title 最能夠代表語句的重要性。

[Aone99]從解決資訊擷取的共通弊病來著手— 語句的斷詞切字好壞會影響 到摘要結果;亦即,文件中的特殊片語或是專有名詞,如果沒有正確地分辨的話,

很有可能會誤解文章的涵義。他們提出兩個原則來解決前述問題。第一,斷詞切 字時盡量將可能是片語的字詞結合在一起;第二,利用 NameTag 工具來擷取專 有名詞,並將具有相同意義的字詞視為相同,如”IBM”與”International Business Machines”在計算關鍵詞的權重時,這兩個字詞的出現頻率必須要同時考慮。

[Hovy99]集先前研究之大成,提出了一個重要的概念:摘要 (Summarization)

= 主 題 辨 認 (Topic Identification)+ 概 念 融 合 (Concept Fusion)+ 摘 要 的 生 成 (Generation)。亦即,輸入文件先經過主題的辨認以擷取出文件內容中描述的主 題,接著將具有相同涵義的主題融合,最後再將這些主題所要表達的概念經過語 句重組(Sentence Planning)後產生新的摘要。

Analysis Features Improvement (Compared with

[Kupiec95])

No. of Training/

Testing Documents

Performance Compression Rate

[Kupiec95] n Sentence Length n Cue Phrases n Paragraph n Thematic Words n Uppercase Words n Proper Nouns

n A statistical model based on Bayes’ Rule

187/1 Recall: 42% The same number of sentences as in the corresponding manual summary.

[Myaeng99] n Cue Words n Negative Words n Position n Theme Words n Centrality n Resemblance to

Title

n Thematic Structure Decomposition n Dempster-Shafer’s

Combination Rule n Use “text component”

as filter

30/30 11-point average precision: 44%

5 sentences regardless of the size of source document.

[Aone99] n Thematic Words n Sentence Length n Position n Paragraph

n To reshape the word unit

n To acquire domain knowledge n To approximate text

structure

100/100 Recall: 56%

Precision:

51.4%

[Hovy99] n Propose a new idea:

Summarizat ion = Topic Identification + Interpretation + Generation n A method combines

robust NLP and symbolic knowledge by concept fusion

表格 1:以文件集為基礎的摘要方法研究的比較

綜合以上的說明,不難想像以文件集為基礎的摘要方法,它最大的問題在於 只考慮到低層次(Low-Level)的特徵分析而已,其他較高層次的特徵,如語意索 引(Semantic Index)、概念階層(Concept Hierarchy)等等語意層次的分析並沒有考 慮在內。也就是說,利用這種技術來建構自動摘要系統可能導致所產生的文件摘 要品質低劣,並且沒有辦法有效地涵蓋原始文件所要表達的意義。

2.2.3 以文件集為基礎的摘要技術延伸討論

以文件集為基礎的摘要技術還有一些其他的缺失,比如說 Anaphora Link 的 問題等等。所謂 Anaphora Link 指的是某個語句中出現代名詞用以取代先前所提 過的名詞個體,如『(1)王老先生有塊地。(2)他在這塊地上種了很多農作物。』

上述語句中的『他』便是 Anaphora Link;假若摘要系統挑選了(2)當摘要,如此 一來,第二句中的他便失去了原有的意義。為了解決這個問題,通常都是(1)(2) 兩句一起挑選當作摘要,以保留原本 Anaphora Link 所代表的意思。

除此之外,以文件集為基礎的摘要方法,仍需要注意到以下幾點:

1. 當套用到不同寫作格式的文件集時,摘要系統該如何自動且有效地學習 並發掘新的可利用特徵?

2. 當使用關鍵詞當作特徵時,摘要系統該運用何種技巧將關鍵詞層面 (Term- Leve l)的涵義提昇到概念層面(Concept-Level)的涵義。

3. 如何利用輔助的資源如概念階層等來辨認各個關鍵詞所代表的語意。