• 沒有找到結果。

以語段模型(Discourse Model)為基礎的摘要技術

第二章 相關研究工作

第四節 以語段模型(Discourse Model)為基礎的摘要技術

=

= n

i j j

j i sim i

asim

1

,

方程式 7:Si的 Aggregate Similarity 的計算方式 [Kim00]

對於某個節點而言,Aggregate Similarity 為此節點與其他節點之相似性的總 和。計算每個語句的 Aggregate Similarity 的好處在於除了考慮到每個節點的連結 個數,更考慮到每個連結的權重值。因此,Aggregate Similarity 的結果理論上會 比 Global Bushy Path 的結果來得好。

第四節 以語段模型(Discourse Model)為基礎的摘要技術

認知心理學假設文件的作者在進行寫作的過程時,乃是由他本身所認知的概 念空間(Conceptual Space)中去定義某個用詞的涵義,接著再組合這些定義好的詞 句而成為一篇文章。當讀者閱讀文件的時候,他所作的事情便是試著去重組並建 構當初該文件的作者所認知的概念空間,藉此得到相同語意的理解與認知。

[Barzilay97]以此想法為基礎,他們認為文件中所描述的概念,其實是由擁 有該概念意義的所有字詞組成的結果;於是他們提出語意鏈結(Lexical Chains)的 想法。所謂 Lexical Chains 即是一篇文章中相同意義的字詞所組成的集合,每個 Lexical Chain 代表這篇文件所要描述的一個概念,也就是對於這篇文件的一個認 知;基於 Lexical Chains 所得到的摘要最能涵蓋該文件所要表達的意義。

作法上,首先將文件中的名詞詞彙都擷取出來,接著藉由 WordNet [24]來判 斷每個字詞所代表的意義,並將具有相同詞義的字詞串接起來變成了 Lexical

Chains。美中不足的是,藉助 WordNet 的分析來建構字詞間的相似關係,可能因 為其中某個字詞的意義辨認錯誤而導致產生錯誤的 Lexical Chain;如此一來,所 得到的認知模型便可能偏離原文所要表達的意思。

圖 10 是圖 9 原始文件之 Lexical Chain 的視覺化示意圖。圖中清楚地看到 Mr.與 person被歸在同一個 Lexical Chain 中,這個 Lexical Chain 所表達的便是『人』

這個概念;而 Machine,Micro-computer,Device 以及 Pump 則被歸屬於另外一 個 Lexical Chain 中,這個 Lexical Chain 所要表達的是『機器』這個概念。我們 可以發現,Lexical Chain 的確可以反映出文件中的知識概念。

[Azzam99]認為直接辨析文件內涵的一致性(Text Cohesion)可以更正確地認 知文件。文件內涵依照[Halliday76]的定義可以由辨認下列四種關係來得到:(1)

Mr. Kenny is the person that invented an anesthetic machine which uses micro-computers to control the rate at which an anesthetic is pumped into the blood. Such machines are nothing new. But his device uses two

micro-computers to achieve much closer monitoring of the pump feeding the anesthetic into the patient.

Mr.

Person

{Mr. Mister}

{person1, individual, someone, … }

Machine Micro-Computer

Device

Pump {machine4}

{PC, micro-computer, … }

{device2}

{pump3}

圖 9:原始文件範例

圖 10:語意鏈結的視覺化示意圖

相 互 參 照 (Co-reference) 、 (2) 取 代 與 省 略 (Substitution and Ellipsis)、 (3)關 聯 (Conjunction)以及(4)語詞相關(Lexical Cohesion)。

[Azzam99]利用相互參照的關係來建構文件的認知模型。其中相互參照用來 描述文件中所提及的基本要素間的關係,其與語詞相關最大的不同點在於它不像 語詞相關必須藉由輔助的詮釋知識來建構關係,而是直接分析文件中的基本要素 來達到建立關係的目的。此方法最大的缺點是計算複雜度太高,且必須要人工的 介入才能正確地辨認出文件中基本要素間的關係。

表格 3 說明 [Barzilay97]與[Azzam99]方法的特性;表格 4 則比較 Lexical 與 Co-reference Chain 的差異性。

Representation Model

Performance Comments [Barzilay97] Lexical Chain Recall: 64%

Precision: 47%

The results indicate the strong potential of lexical chains as a knowledge source for sentence extraction.

[Azzam99] Co-reference Chain

Recall: 30%

Precision: 65%

The novelty is to combine the idea of a document extract based on co-reference chains with the idea of chains of related expressions serving to indicate sentences for inclusion in a generic summary.

表格 3:Characteristics of Discourse Model Approach

Lexical Chains Co-reference Chain Differences n Easy to compute

n Not rely on full text processing n Not always convey real “aboutness”

of a text because of being indicated by an external resource

n Require more complex techniques n Need to understand the meaning of

texts

n Hard to recognize relationships among objects correctly

表格 4:Lexical Chain 與 Co -reference Chain 的相異之處

總結以上描述,以外在知識輔助的方法所建構的知識模型並不能保證真正能 夠包含文件中所敘述的意思,原因乃是一詞多義與同義詞等語意混淆的現象,導 致了字詞的意義沒有辦法正確地被定義。此外,使用自然語言處理的技術來分析 文件,如果沒有人工的適時介入,便無法正確地建立基本要素關係的模型。