• 沒有找到結果。

以文件關聯為基礎的文件摘要方法(Text Relationship Approaches)

在文檔中 中 華 大 學 (頁 45-51)

第二章 文獻回顧

2.2 文字探勘技術

2.2.5 以文件關聯為基礎的文件摘要方法(Text Relationship Approaches)

主題關係地圖(Text Relationship Map)由自動主題連結(Automatic Text Link)的研 究延伸而來的。自動主題連結原本用在建構文件集中文件間之關聯,作法上將每篇文 件以關鍵字詞的向量表示法表示,並計算所有文件兩兩間之相似度(Similarity);如果 相似度大於系統內定的臨界值時,表示這兩篇文件具有相似的連結關係(Semantic Related Link)。依此原則可以建構出所有文件間之關係地圖。

圖 2.10 Text Relationship Map 範例 資料來源:參考自[31]

舉例來說,圖 2.10 中編號 17012 及 17016 的文章,二者的相似程度約 0.57,大 於臨界值 0.01,所以存在連結關係;而 8907 與 22387 這兩篇文章的相似度則因為低 於臨界值,所以在 Text Relationship Map 中並沒有連結存在。具有連結的文章,即是 具有關聯性。

Salton 等人[31]將 Text Relationship Map 的概念應用在文件摘要的研究上,並提 出一個以段落(Paragraph)為摘錄單位的文件摘要系統。對於輸入的文件,以每個段落 為單位計算兩兩段落間之相似度,建構 Paragraph Relationship Map。他們認為若某個 段落與其他段落的連結數愈多,則代表該段落和整篇文章主題的相關性愈高。根據這 個想法,連結數目愈多的段落則愈重要。

至於根據 Paragraph Relationship Map 來產生摘要,作法上分為兩個步驟。第一是 判斷 Text Relationship Map 中每個段落的重要性;第二,根據 Text Relationship Map 中的連結數目來決定摘錄段落的先後順序。他們提出以下三種方法[31,33]:

一、Global Bushy Path

段用以組合成摘要。

首先定義 Text Relationship Map 上任一節點的 Bushiness 為該節點與其他節點間 的連結數目,擁有越多關聯連結的節點,表示該段落與其他段落的寫作與用字方式相 似,並且討論的主題也相似,因此,該段落視為討論文件主題的段落。Global Bushy Path 乃是將段落依照原本出現在文件中的順序以及其連結個數由大而小的排列結果。

定義 Global Bushy Path 之後,只要從 Global Bushy Path 中挑選排名最前面的 K 個段落(Top K),即可當作該文件的摘要。此方法所摘錄出來的段落雖然涵蓋整篇文 件所要表達的涵義,但是可能發生段落間語意不連續的問題,導致摘要的可閱讀性 (Readability)降低;也就是說,所挑選出來的摘要中連續兩個段落雖然都是很重要的 段落,但是所描述的事情可能截然不同。

二、Depth- first Path

Depth-First Path,是由連結點最多的段落開始往下延伸,以擷取所有相關連的段 落。

此方法可避免 Global Bushy Path 的問題。首先選取一個節點,可能是第一個節點 或是具有最多連結的節點,接著每次選取在原始文件中順序與該節點最接近且與該節 點相似度最高的節點當作下一個節點,依此原則選取出重要而且連續的段落以形成文 件摘要。

這個方法挑選重要段落的時候也一併考慮到原始文件中的段落順序與關聯,因此 可以避免類似 Global Bushy Path 的問題,同時使摘要的一致性(Coherence)與可閱讀性 提高。然而,其最大的問題在於摘要內容的一致性提高,並不見得能夠涵蓋原始文件 中所有主題與概念,原因乃是摘要的大小是固定的,為了要使摘要內容的連貫性提高,

勢必要選取重複敘述的段落,如此便會造成篇幅的不足,而導致摘要內容的不完整。

三、Segmented Bushy Path

以上兩個方法共同的問題在於沒有考慮到文件的內容架構,舉例來說,根據文件 的起承轉合,文件的內容可分為幾個不同的結構,如 Introduction、Main Them 以及 Conclusion 等等;如果套用上述的方法來挑選段落,很容易忽略掉屬於不同結構,但 是重要性同樣很高的段落,最後導致摘要內容的完整性不足。Segmented Bush Path 可用來解決上述的問題。Segmented bushy path,即針對內文中每一個可明顯分區的區 塊(segment)無論連結點多寡,都一一以 Global Bushy Path 的方式選取在區塊中最多連 結點的段落。

Segmented Bushy Path分為兩個步驟:

Step1:文件結構的切割(Text Segmentation),也就是分析文件內容並將文件內容 切 割 成 幾 個 具 有 代 表 的 結 構 。 Text Segmentation 利 用 Paragraph Relationship Map來分析文章的結構,圖2.11的左半很明顯地發現Map上 幾個節點之連結數目近乎相同,而形成可以分割的區段,其分割的結果 如圖右半部,共分割成5個結構。

Step2:針對每個Segmentation個別利用Global Bushy Path來選取重要的段落。為 了保留每個Segmentation的涵義,每個Segmentation至少要挑選出一個段 落納入最後的摘要。這樣做的好處是摘要可以涵蓋不同的主題,並使其 完整性提高。

圖2.11 Paragraph Relationship Map與其對應的Text Segmentation 資料來源:參考自[31]

Kupiec 等人將以上三種方法的特性整理如表 2.5 所示[30]:

表 2.5 Global Bushy Path, Depth-first Path 與 Segmented Bushy Path 比較表

段落初始化的重要性 連貫性/全面性

Global bushy path

通常在文章開始時的段落為重 要階段

不連貫,因為相鄰的段落可能無關

Segmented bushy path

因 會 從 其 他 段 落 擷 取 重 要 資 訊,所以可能會失去文章開始時 的重要段落

不連貫,但會全面性的通過重要段 落

Depth-first path

開始的第一段具有重要性 不具全面性,但較具有連貫性,可 使用於特定的重要的子標題

資料來源:參考自[30]

另一位學者 Kim[35]認為若將每個連結的權重(語句的相似度)納入考慮,可產生 更好的摘要,因此,他們提出一個以 Aggregate Similarity 計算每個語句重要性的方 法。

圖 2.12 計算 Aggregate Similarity 的概念圖示 資料來源:參考自[35]

圖 2.12 是 Aggregate Similarity 的概念圖示。圖中的每個節點代表的是文件中某 個語句的關鍵詞向量表示法,每個連結代表兩個語句間的相似度,任兩個語句的相似 度即是計算相對應向量間的內積值,詳細的計算方法如方程式 2-6:

(2-6)

Eq.3-6:Si,Sj 相似度的計算方式

其中 n 表示出現在整份文件中相異的名詞個數,Si 可以 表示,

是名詞 在語句中 Si 中出現的頻率。Si 的 Aggregate Similarity 的計算方式如方程式 2-7:

(2-7) Eq.3-7:Si 的 Aggregate Similarity 的計算方式

對於某個節點而言,Aggregate Similarity 為此節點與其他節點之相似性的總和。

計算每個語句的 Aggregate Similarity 的好處在於除了考慮到每個節點的連結個數,更 考慮到每個連結的權重值。因此,Aggregate Similarity 的結果理論上會比 Global Bushy Path 的結果來得好。

在文檔中 中 華 大 學 (頁 45-51)