• 沒有找到結果。

以主題關係地圖(Text Relationship Map)為基礎的摘要技術

第二章 相關研究工作

第三節 以主題關係地圖(Text Relationship Map)為基礎的摘要技術

主題關係地圖(Text Relationship Map)由自動主題連結(Automatic Text Link) 的研究延伸而來的。自動主題連結原本用在建構文件集中文件間的關聯,作法上 將每篇文件以關鍵字詞的向量表示法表示,並計算所有文件兩兩間的相似度

(Similarity);如果相似度大於系統內定的臨界值時,表示這兩篇文件具有相似的 連結關係(Semantic Related Link)。依此原則可以建構出所有文件間的關係地圖。

圖 6:Text Relationship Map 的範例 [Salton97]

舉例來說,圖 6 中編號 17012 及 17016 的文章,二者的相似程度約 0.57,

大於臨界值 0.01,所以存在連結關係;而 8907 與 22387 這兩篇文章的相似度則 因為低於臨界值,所以在 Text Relationship Map 中並沒有連結存在。具有連結的 文章,可說是具有關聯性。

[Salton97]將 Text Relationship Map 的概念應用在文件摘要的研究上,並提出 一個以段落(Paragraph)為摘錄單位的文件摘要系統。對於輸入的文件,以每個段 落為單位計算兩兩段落間的相似度,建構 Paragraph Relationship Map。他們認為 若某個段落與其他段落的連結數愈多,則代表該段落和整篇文章主題的相關性愈 高。根據這個想法,連結數目愈多的段落則愈重要。

至於根據 Paragraph Relationship Map 來產生摘要,作法上分為兩個步驟。第 一是判斷 Text Relationship Map 中每個段落的重要性;第二,根據 Text Relationship Map 中的連結數目來決定摘錄段落的先後順序。他們提出以下三種方法:

1. Global Bushy Path

22387— Thermonuclear Fusion 19199— Radioactive Fallout 17016— Nuclear Weapons 17012— Nuclear Energy 11830— Hydrogen Bomb 8907— Fission, Nuclear Links below 0.01 ignored

0.57

0.24

0.54 0.49

0.50

0.33 0.38

0.09 0.23 17016

17012 11830

19199 22387

8907

首先定義 Text Relationship Map 上任一節點的 Bushiness 為該節點與其 他節點間的連結數目,擁有越多關聯連結的節點,表示該段落與其他段落的 寫作與用字方式相似,並且討論的主題也相似,因此,該段落視為討論文件 主題的段落。Global Bushy Path 乃是將段落依照原本出現在文件中的順序以 及其連結個數由大而小的排列結果。

定義 Global Bushy Path 之後,只要從 Global Bushy Path 中挑選排名最前 面的 K 個段落(Top K),即可當作該文件的摘要。此方法所摘錄出來的段落 雖然涵蓋整篇文件所要表達的涵義,但是可能發生段落間語意不連續的問 題,導致摘要的可閱讀性(Readability)降低;也就是說,所挑選出來的摘要 中連續兩個段落雖然都是很重要的段落,但是所描述的事情可能截然不同。

2. Depth- first Path

Depth- first Path 方法可避免 Global Bushy Path 的問題。首先選取一個節 點— 可能是第一個節點或是具有最多連結的節點,接著每次選取在原始文件 中順序與該節點最接近且與該節點相似度最高的節點當作下一個節點,依此 原則選取出重要而且連續的段落以形成文件摘要。

這個方法挑選重要段落的時候也一併考慮到原始文件中的段落順序與 關聯,因此可以避免類似 Global Bushy Path 的問題,同時使摘要的一致性 (Coherence)與可閱讀性提高。然而,其最大的問題在於摘要內容的一致性提 高,並不見得能夠涵蓋原始文件中所有主題與概念,原因乃是摘要的大小是 固定的,為了要使摘要內容的連貫性提高,勢必要選取重複敘述的段落,如 此便會造成篇幅的不足,而導致摘要內容的不完整。

3. Segmented Bushy Path

以上兩個方法共同的問題在於沒有考慮到文件的內容架構,舉例來說,

根據文件的起承轉合,文件的內容可分為幾個不同的結構,如 Introduction、

Main Them 以及 Conclusion 等等;如果套用上述的方法來挑選段落,很容易 忽略掉屬於不同結構,但是重要性同樣很高的段落,最後導致摘要內容的完 整性不足。Segmented Bush Path 可用來解決上述的問題。

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation 利用 Paragraph Relationship Map 來分析文章的 結構,圖 7 的左半部很明顯地發現 Map 上幾個節點之連結數目近乎相同,

而形成可以分割的區段,其分割的結果如圖右半部,共分割成 5 個結構。

圖 7:Paragraph Relationship Map 與其對應的 Text Segmentation [Salton97]

接下來的工作便是針對每個 Segmentation 個別利用 Global Bushy Path 來選取重要的段落。為了保留每個 Segmentation 的涵義,每個 Segmentation 至少要挑選出一個段落納入最後的摘要。這樣做的好處是摘要可以涵蓋不同 的主題,並使其完整性提高。

最後總結上述方法。第一,Global Bushy Path 所產生摘要的一致性最差,原 因乃是挑選段落時沒有考慮到段落與段落間的連續性;第二,Depth- first Path 所

產生摘要一致性最好,對於內容的全盤涵蓋程度(Comprehension)最差,原因乃是 因為所挑選到的段落集中於某幾個主題;第三,Segmented Bushy Path 的方法所 產生的摘要考慮到文章內容的結構,因此對於內容的全盤涵蓋程度最好。表格 2 中整理上述三個方法的特性。

Importance of initial paragraph Coherence/comprehensiveness Global bushy path Usually starts with important early

paragraph

Not coherent because adjacent paragraphs may be unrelated Segmented bushy path May lose important first paragraph

because of need to include material from other segments

Not coherent but more comprehensive than global central path

Depth-first path Starts with important first paragraph

Not comprehensive but more coherent than central paths, may be specialized to important subtopic 表格 2:Global Bushy Path, Depth-first Path 與 Segmented Bushy Path 的比較 [Salton97]

相對於[Salton97]只考慮到 Text Relationship Map 上每個節點的連結個數,

[Kim00]認為若將每個連結的權重(語句的相似度 )納入考慮,可產生更好的摘 要,因此,他們提出一個以 Aggregate Similarity 計算每個語句重要性的方法。

圖 8:計算 Aggregate Similarity 的概念圖示 [Kim00]

圖 8 是 Aggregate Similarity 的概念圖示。圖中的每個節點代表的是文件中 某個語句的關鍵詞向量表示法,每個連結代表兩個語句間的相似度,任兩個語句 的相似度即是計算相對應向量間的內積值,詳細的計算方法如方程式 6:

( )

n j k

k k

i s

s j

i

sim , , * ,

1

=

=

方程式 6:S 相似度的計算方式

其中 n 表示出現在整份文件中相異的名詞個數,Si可以(si,1, si,2, … , si,n)表示,

si,k是名詞 Nk在語句 Si中出現的頻率。Si的 Aggregate Similarity 的計算方式如方 程式 7:

( ) ∑ ( )

=

= n

i j j

j i sim i

asim

1

,

方程式 7:Si的 Aggregate Similarity 的計算方式 [Kim00]

對於某個節點而言,Aggregate Similarity 為此節點與其他節點之相似性的總 和。計算每個語句的 Aggregate Similarity 的好處在於除了考慮到每個節點的連結 個數,更考慮到每個連結的權重值。因此,Aggregate Similarity 的結果理論上會 比 Global Bushy Path 的結果來得好。