以文件關聯為基礎的文件摘要方法(Text Relationship Approaches)

第二章文獻回顧

2.2 文字探勘技術

2.2.5 以文件關聯為基礎的文件摘要方法(Text Relationship Approaches)

主題關係地圖(Text Relationship Map)由自動主題連結(Automatic Text Link)的研究延伸而來的。自動主題連結原本用在建構文件集中文件間之關聯，作法上將每篇文件以關鍵字詞的向量表示法表示，並計算所有文件兩兩間之相似度(Similarity)；如果相似度大於系統內定的臨界值時，表示這兩篇文件具有相似的連結關係(Semantic Related Link)。依此原則可以建構出所有文件間之關係地圖。

圖 2.10 Text Relationship Map 範例資料來源：參考自[31]

舉例來說，圖 2.10 中編號 17012 及 17016 的文章，二者的相似程度約 0.57，大於臨界值 0.01，所以存在連結關係；而 8907 與 22387 這兩篇文章的相似度則因為低於臨界值，所以在 Text Relationship Map 中並沒有連結存在。具有連結的文章，即是具有關聯性。

Salton 等人[31]將 Text Relationship Map 的概念應用在文件摘要的研究上，並提出一個以段落(Paragraph)為摘錄單位的文件摘要系統。對於輸入的文件，以每個段落為單位計算兩兩段落間之相似度，建構 Paragraph Relationship Map。他們認為若某個段落與其他段落的連結數愈多，則代表該段落和整篇文章主題的相關性愈高。根據這個想法，連結數目愈多的段落則愈重要。

至於根據 Paragraph Relationship Map 來產生摘要，作法上分為兩個步驟。第一是判斷 Text Relationship Map 中每個段落的重要性；第二，根據 Text Relationship Map 中的連結數目來決定摘錄段落的先後順序。他們提出以下三種方法[31,33]：

一、Global Bushy Path

段用以組合成摘要。

首先定義 Text Relationship Map 上任一節點的 Bushiness 為該節點與其他節點間的連結數目，擁有越多關聯連結的節點，表示該段落與其他段落的寫作與用字方式相似，並且討論的主題也相似，因此，該段落視為討論文件主題的段落。Global Bushy Path 乃是將段落依照原本出現在文件中的順序以及其連結個數由大而小的排列結果。

定義 Global Bushy Path 之後，只要從 Global Bushy Path 中挑選排名最前面的 K 個段落(Top K)，即可當作該文件的摘要。此方法所摘錄出來的段落雖然涵蓋整篇文件所要表達的涵義，但是可能發生段落間語意不連續的問題，導致摘要的可閱讀性 (Readability)降低；也就是說，所挑選出來的摘要中連續兩個段落雖然都是很重要的段落，但是所描述的事情可能截然不同。

二、Depth- first Path

Depth-First Path，是由連結點最多的段落開始往下延伸，以擷取所有相關連的段落。

此方法可避免 Global Bushy Path 的問題。首先選取一個節點，可能是第一個節點或是具有最多連結的節點，接著每次選取在原始文件中順序與該節點最接近且與該節點相似度最高的節點當作下一個節點，依此原則選取出重要而且連續的段落以形成文件摘要。

這個方法挑選重要段落的時候也一併考慮到原始文件中的段落順序與關聯，因此可以避免類似 Global Bushy Path 的問題，同時使摘要的一致性(Coherence)與可閱讀性提高。然而，其最大的問題在於摘要內容的一致性提高，並不見得能夠涵蓋原始文件中所有主題與概念，原因乃是摘要的大小是固定的，為了要使摘要內容的連貫性提高，

勢必要選取重複敘述的段落，如此便會造成篇幅的不足，而導致摘要內容的不完整。

三、Segmented Bushy Path

以上兩個方法共同的問題在於沒有考慮到文件的內容架構，舉例來說，根據文件的起承轉合，文件的內容可分為幾個不同的結構，如 Introduction、Main Them 以及 Conclusion 等等；如果套用上述的方法來挑選段落，很容易忽略掉屬於不同結構，但是重要性同樣很高的段落，最後導致摘要內容的完整性不足。Segmented Bush Path 可用來解決上述的問題。Segmented bushy path，即針對內文中每一個可明顯分區的區塊(segment)無論連結點多寡，都一一以 Global Bushy Path 的方式選取在區塊中最多連結點的段落。

Segmented Bushy Path分為兩個步驟：

Step1：文件結構的切割(Text Segmentation)，也就是分析文件內容並將文件內容切割成幾個具有代表的結構。 Text Segmentation 利用 Paragraph Relationship Map來分析文章的結構，圖2.11的左半很明顯地發現Map上幾個節點之連結數目近乎相同，而形成可以分割的區段，其分割的結果如圖右半部，共分割成5個結構。

Step2：針對每個Segmentation個別利用Global Bushy Path來選取重要的段落。為了保留每個Segmentation的涵義，每個Segmentation至少要挑選出一個段落納入最後的摘要。這樣做的好處是摘要可以涵蓋不同的主題，並使其完整性提高。

圖2.11 Paragraph Relationship Map與其對應的Text Segmentation 資料來源：參考自[31]

Kupiec 等人將以上三種方法的特性整理如表 2.5 所示[30]：

表 2.5 Global Bushy Path, Depth-first Path 與 Segmented Bushy Path 比較表

段落初始化的重要性連貫性/全面性

Global bushy path

通常在文章開始時的段落為重要階段

不連貫，因為相鄰的段落可能無關

Segmented bushy path

因會從其他段落擷取重要資訊，所以可能會失去文章開始時的重要段落

不連貫，但會全面性的通過重要段落

Depth-first path

開始的第一段具有重要性不具全面性，但較具有連貫性，可使用於特定的重要的子標題

資料來源：參考自[30]

另一位學者 Kim[35]認為若將每個連結的權重(語句的相似度)納入考慮，可產生更好的摘要，因此，他們提出一個以 Aggregate Similarity 計算每個語句重要性的方法。

圖 2.12 計算 Aggregate Similarity 的概念圖示資料來源：參考自[35]

圖 2.12 是 Aggregate Similarity 的概念圖示。圖中的每個節點代表的是文件中某個語句的關鍵詞向量表示法，每個連結代表兩個語句間的相似度，任兩個語句的相似度即是計算相對應向量間的內積值，詳細的計算方法如方程式 2-6：

(2-6)

Eq.3-6：Si,Sj 相似度的計算方式

其中 n 表示出現在整份文件中相異的名詞個數，Si 可以表示，

是名詞在語句中 Si 中出現的頻率。Si 的 Aggregate Similarity 的計算方式如方程式 2-7：

(2-7) Eq.3-7：Si 的 Aggregate Similarity 的計算方式

對於某個節點而言，Aggregate Similarity 為此節點與其他節點之相似性的總和。

計算每個語句的 Aggregate Similarity 的好處在於除了考慮到每個節點的連結個數，更考慮到每個連結的權重值。因此，Aggregate Similarity 的結果理論上會比 Global Bushy Path 的結果來得好。

在文檔中中華大學 (頁 45-51)

以文件關聯為基礎的文件摘要方法(Text Relationship Approaches)

第二章 文獻回顧

2.2 文字探勘技術

2.2.5 以文件關聯為基礎的文件摘要方法(Text Relationship Approaches)

第二章文獻回顧