以語段模型(Discourse Model)為基礎的摘要技術

第二章相關研究工作

第四節以語段模型(Discourse Model)為基礎的摘要技術

≠=

= ⁿ

i j j

j i sim i

asim

方程式 7：Si的 Aggregate Similarity 的計算方式 [Kim00]

對於某個節點而言，Aggregate Similarity 為此節點與其他節點之相似性的總和。計算每個語句的 Aggregate Similarity 的好處在於除了考慮到每個節點的連結個數，更考慮到每個連結的權重值。因此，Aggregate Similarity 的結果理論上會比 Global Bushy Path 的結果來得好。

第四節以語段模型(Discourse Model)為基礎的摘要技術

認知心理學假設文件的作者在進行寫作的過程時，乃是由他本身所認知的概念空間(Conceptual Space)中去定義某個用詞的涵義，接著再組合這些定義好的詞句而成為一篇文章。當讀者閱讀文件的時候，他所作的事情便是試著去重組並建構當初該文件的作者所認知的概念空間，藉此得到相同語意的理解與認知。

[Barzilay97]以此想法為基礎，他們認為文件中所描述的概念，其實是由擁有該概念意義的所有字詞組成的結果；於是他們提出語意鏈結(Lexical Chains)的想法。所謂 Lexical Chains 即是一篇文章中相同意義的字詞所組成的集合，每個 Lexical Chain 代表這篇文件所要描述的一個概念，也就是對於這篇文件的一個認知；基於 Lexical Chains 所得到的摘要最能涵蓋該文件所要表達的意義。

作法上，首先將文件中的名詞詞彙都擷取出來，接著藉由 WordNet [24]來判斷每個字詞所代表的意義，並將具有相同詞義的字詞串接起來變成了 Lexical

Chains。美中不足的是，藉助 WordNet 的分析來建構字詞間的相似關係，可能因為其中某個字詞的意義辨認錯誤而導致產生錯誤的 Lexical Chain；如此一來，所得到的認知模型便可能偏離原文所要表達的意思。

圖 10 是圖 9 原始文件之 Lexical Chain 的視覺化示意圖。圖中清楚地看到 Mr.與 person被歸在同一個 Lexical Chain 中，這個 Lexical Chain 所表達的便是『人』

這個概念；而 Machine，Micro-computer，Device 以及 Pump 則被歸屬於另外一個 Lexical Chain 中，這個 Lexical Chain 所要表達的是『機器』這個概念。我們可以發現，Lexical Chain 的確可以反映出文件中的知識概念。

[Azzam99]認為直接辨析文件內涵的一致性(Text Cohesion)可以更正確地認知文件。文件內涵依照[Halliday76]的定義可以由辨認下列四種關係來得到：(1)

Mr. Kenny is the person that invented an anesthetic machine which uses micro-computers to control the rate at which an anesthetic is pumped into the blood. Such machines are nothing new. But his device uses two

micro-computers to achieve much closer monitoring of the pump feeding the anesthetic into the patient.

Mr.

Person

{Mr. Mister}

{person1, individual, someone, … }

Machine Micro-Computer

Device

Pump {machine4}

{PC, micro-computer, … }

{device2}

{pump3}

圖 9：原始文件範例

圖 10：語意鏈結的視覺化示意圖

相互參照 (Co-reference) 、 (2) 取代與省略 (Substitution and Ellipsis)、 (3)關聯 (Conjunction)以及(4)語詞相關(Lexical Cohesion)。

[Azzam99]利用相互參照的關係來建構文件的認知模型。其中相互參照用來描述文件中所提及的基本要素間的關係，其與語詞相關最大的不同點在於它不像語詞相關必須藉由輔助的詮釋知識來建構關係，而是直接分析文件中的基本要素來達到建立關係的目的。此方法最大的缺點是計算複雜度太高，且必須要人工的介入才能正確地辨認出文件中基本要素間的關係。

表格 3 說明 [Barzilay97]與[Azzam99]方法的特性；表格 4 則比較 Lexical 與 Co-reference Chain 的差異性。

Representation Model

Performance Comments [Barzilay97] Lexical Chain Recall: 64%

Precision: 47%

The results indicate the strong potential of lexical chains as a knowledge source for sentence extraction.

[Azzam99] Co-reference Chain

Recall: 30%

Precision: 65%

The novelty is to combine the idea of a document extract based on co-reference chains with the idea of chains of related expressions serving to indicate sentences for inclusion in a generic summary.

表格 3：Characteristics of Discourse Model Approach

Lexical Chains Co-reference Chain Differences n Easy to compute

n Not rely on full text processing n Not always convey real “aboutness”

of a text because of being indicated by an external resource

n Require more complex techniques n Need to understand the meaning of

texts

n Hard to recognize relationships among objects correctly

表格 4：Lexical Chain 與 Co -reference Chain 的相異之處

總結以上描述，以外在知識輔助的方法所建構的知識模型並不能保證真正能夠包含文件中所敘述的意思，原因乃是一詞多義與同義詞等語意混淆的現象，導致了字詞的意義沒有辦法正確地被定義。此外，使用自然語言處理的技術來分析文件，如果沒有人工的適時介入，便無法正確地建立基本要素關係的模型。

在文檔中文件自動化摘要方法之研究及其在中文文件的應用 (頁 31-34)

第二章 相關研究工作

第四節 以語段模型(Discourse Model)為基礎的摘要技術

第四節 以語段模型(Discourse Model)為基礎的摘要技術

第二章相關研究工作

第四節以語段模型(Discourse Model)為基礎的摘要技術

第四節以語段模型(Discourse Model)為基礎的摘要技術