以文件關聯為基礎的文件摘要方法

第三章資料探勘技術

3.5 以文件關聯為基礎的文件摘要方法

圖3.4 壓縮比對摘要系統正確率的影響資料來源：參考自[32]

3.5 以文件關聯為基礎的文件摘要方法(Text Relationship

圖3.5 Text Relationship Map範例資料來源：參考自[33]

舉例來說，圖3.5中編號17012 及17016 的文章，二者的相似程度約0.57，大於臨界值0.01，所以存在連結關係；而8907 與22387 這兩篇文章的相似度則因為低於臨界值，所以在Text Relationship Map 中並沒有連結存在。具有連結的文章，即是具有關聯性。

Salton 等人[33]將 Text Relationship Map 的概念應用在文件摘要的研究上，並提出一個以段落(Paragraph)為摘錄單位的文件摘要系統。對於輸入的文件，以每個段落為單位計算兩兩段落間之相似度，

建構Paragraph Relationship Map。他們認為若某個段落與其他段落的連結數愈多，則代表該段落和整篇文章主題的相關性愈高。根據這個想法，連結數目愈多的段落則愈重要。

至於根據Paragraph Relationship Map來產生摘要，作法上分為兩個步驟。第一是判斷Text Relationship Map中每個段落的重要性；第二，

根據Text Relationship Map中的連結數目來決定摘錄段落的先後順序。他們提出以下三種方法[33, 34, 35]：

一、Global Bushy Path

Global Bushy Path是依各個段落與其他段落連結的多寡排序，擷取排行在前的數段用以組合成摘要。

首先定義Text Relationship Map上任一節點的Bushiness為該節點與其他節點間的連結數目，擁有越多關聯連結的節點，表示該段落與其他段落的寫作與用字方式相似，並且討論的主題也相似，因此，該段落視為討論文件主題的段落。Global Bushy Path 乃是將段落依照原本出現在文件中的順序以及其連結個數由大而小的排列結果。

定義Global Bushy Path之後，只要從Global Bushy Path中挑選排名最前面的K個段落(Top K)，即可當作該文件的摘要。此方法所摘錄出來的段落雖然涵蓋整篇文件所要表達的涵義，但是可能發生段落間語意不連續的問題，導致摘要的可閱讀性(Readability) 降低；也就是說，所挑選出來的摘要中連續兩個段落雖然都是很重要的段落，但是所描述的事情可能截然不同。

二、Depth- first Path

Depth-First Path，是由連結點最多的段落開始往下延伸，以擷取所有相關連的段落。

此方法可避免Global Bushy Path的問題。首先選取一個節點，

可能是第一個節點或是具有最多連結的節點，接著每次選取在原始文件中順序與該節點最接近且與該節點相似度最高的節點當作下一個節點，依此原則選取出重要而且連續的段落以形成文件摘要。

這個方法挑選重要段落的時候也一併考慮到原始文件中的段落順序與關聯，因此可以避免類似Global Bushy Path的問題，同時使摘要的一致性(Coherence)與可閱讀性提高。然而，其最大的

問題在於摘要內容的一致性提高，並不見得能夠涵蓋原始文件中所有主題與概念，原因乃是摘要的大小是固定的，為了要使摘要內容的連貫性提高，勢必要選取重複敘述的段落，如此便會造成篇幅的不足，而導致摘要內容的不完整。

三、Segmented Bushy Path

以上兩個方法共同的問題在於沒有考慮到文件的內容架構，

舉例來說，根據文件的起承轉合，文件的內容可分為幾個不同的結構，如Introduction、Main Them以及Conclusion等等；如果套用上述的方法來挑選段落，很容易忽略掉屬於不同結構，但是重要性同樣很高的段落，最後導致摘要內容的完整性不足。Segmented Bush Path可用來解決上述的問題。Segmented bushy path，即針對內文中每一個可明顯分區的區塊(segment)無論連結點多寡，都一一以Global Bushy Path的方式選取在區塊中最多連結點的段落

Segmented Bushy Path分為兩個步驟：

Step1：文件結構的切割(Text Segmentation)，也就是分析文件

內容並將文件內容切割成幾個具有代表的結構。Text Segmentation利用Paragraph Relationship Map來分析文章的結構，圖3.6的左半很明顯地發現Map上幾個節點之連結數目近乎相同，而形成可以分割的區段，其分割的結果如圖右半部，共分割成5個結構。

Step2：針對每個Segmentation個別利用Global Bushy Path來選

取重要的段落。為了保留每個Segmentation的涵義，每個Segmentation至少要挑選出一個段落納入最後的摘要。這樣做的

好處是摘要可以涵蓋不同的主題，並使其完整性提高。

圖3.6 Paragraph Relationship Map與其對應的Text Segmentation 資料來源：參考自[33]

Kupiec 等人將以上三種方法的特性整理如表 3.1 所示[32]：

表3.1 Global Bushy Path, Depth-first Path與Segmented Bushy Path比較 Importance of initial

paragraph

Coherence/

comprehensiveness Global

bushy path

Usually starts with

important early paragraph

Not coherent because adjacent

paragraphs may be unrelated

Segmented bushy path

May lose important first paragraph because of need to include material from other segments

Not coherent but more comprehensive than global central path

Depth-first path

Starts with important first paragraph

Not comprehensive but more coherent than central paths, may be specialized to important subtopic 資料來源：參考自[32]

另一位學者Kim[36]認為若將每個連結的權重(語句的相似度)納

入考慮，可產生更好的摘要，因此，他們提出一個以Aggregate Similarity計算每個語句重要性的方法。

圖3.7 計算Aggregate Similarity的概念圖示資料來源：參考自[36]

圖3.7是Aggregate Similarity的概念圖示。圖中的每個節點代表的是文件中某個語句的關鍵詞向量表示法，每個連結代表兩個語句間的相似度，任兩個語句的相似度即是計算相對應向量間的內積值，詳細的計算方法如方程式3-6：

( ) ∑

=

ⁿ

k j k

s

s j

i sim

1 ,

*

,

(3.6)

Eq.3-6： Si, Sj 相似度的計算方式

其中n表示出現在整份文件中相異的名詞個數，Si 可以

(

S

_i_,₁

, S

_i_,₂

,..., S

_i_,_n)表示，

S

_i_,_k 是名詞

N

_k在語句Si 中出現的頻率。Si 的 Aggregate Similarity的計算方式如方程式3-7：

( ) ∑ ( )

= ⁿ

j i sim i

asim

, j ≠ i (3.7)

Eq.3-7：Si 的Aggregate Similarity 的計算方式 資料來源：參考自[36]

對於某個節點而言，Aggregate Similarity為此節點與其他節點之相似性的總和。計算每個語句的Aggregate Similarity的好處在於除了考慮到每個節點的連結個數，更考慮到每個連結的權重值。因此，

Aggregate Similarity的結果理論上會比Global Bushy Path的結果來得好。

3.6 以潛在語意(Latent Semantic)為基礎的文件摘要技術

Landauer[37]認為LSA(Latent Semantic Approach)除可作為文件的知識表示(Knowledge Representation)外，並可用來推演隱性的知識關聯；此外，LSA的知識模型與知識推演過程接近於人腦用來理解文件知識的推演與認知機制模型。

潛在語意分析(LSA) 是以數學統計為基礎的知識模型，其運作方式與跟類神經網路(Neural Net)的極為相似，不同的是類神經網路以權重的傳遞與回饋來修正本身的學習，LSA則以奇異值分解(Singular Value Decomposition, SVD)與維度約化(Dimension Reduction)為核心作為邏輯推演的方式。

LSA的應用非常廣泛，主要集中在資訊擷取、同義詞建構、字詞與文句的相關性判斷標準、文件品質優劣的判別標準及文件理解與預測等各方面的研究。

LSA 的工作原理如圖3.8所示：利用SVD 及維度約化將輸入的知識模型抽象化，整個過程除可以將隱含的語意顯現出來外，更能將原本輸入的知識模型提升到較高層次的語意層面。

圖3.8 LSA工作原理示意圖資料來源：參考自[37]

實際運作的過程中，首先將文件集(Corpus)中所有文件的 Context 用Word-by-Context 矩陣 M 來表示，矩陣中的每個元素即是某關鍵詞在某 Context 中的重要性或出現頻率。接著，將矩陣 M 經過 SVD 分解轉換得成新的矩陣乘積LSUT，亦即 M=LSUT，其中 S 代表語意空間(Semantic Space)，L 代表關鍵詞在此語意空間中的表示法，UT 則代表Context 在此語意空間中的表示法。LSA 利用維度約化可更精確地描述語意空間的維度，並重建矩陣M~M’=L’S’U’T，更明確地探究出Word-Word、Word-Context 或 Context-Context 間的關聯性。

3.7 近年相關研究

文字探勘技術之於中文文字研究於國內已進行了不少，但主要研究領域皆在於專利、圖書資料、醫藥學、人才招募以及新聞資料上。

針對營建業進行研究的，則較無再進行。只發現在台灣科技大學的曾敬峰，曾進行相關之研究。主要採用之方法是將中文資料轉換為英文後，透過較成熟之英文文字探勘技術處理，再轉換為中文後提供給使用者進行參考。相關研究文獻彙整如表3.2 所示：

表3.2 近年相關研究彙整

年度研究生論文名稱文字探勘研究領

域 91 詹培萱利用文字探勘技術進行犯罪資

料之發掘—以網路販售違禁品及網路賭博為例

網路犯罪

91 陳佳宏以自我組織圖為基礎之文字探勘技術於主題圖自動產生之研究

主題圖

91 章秉純以機器學習與文字探勘技術解整合文件分類問題

文件分類 92 蒙以亨非結構化文件中語意知識擷取

方法之設計與研究

資訊擷取 93 謝周熾專利文件比對模型之研究專利 93 鍾任明運用文字探勘於日內股價漲跌

趨勢預測之研究

財經 93 柯秀奎應用文字探勘技術於客訴留言

品質及分類管理之研究

企業管理 93 楊正銘以文字探勘技術應用於疾病分

類之輔助系統-以出入院病歷摘要為例

醫藥學

94 曾敬峰文字探勘技術在營建管理運用之探討

營建管理

94 黃國政

運用文字探勘技術於人才招募推薦

系統之研究

人力資源管理

95 何文峰網路文字探勘運用於電信業客

戶流失的研究

網路資訊 95 許勝巽利用文字探勘法建置專利地圖專利 95 顏大訓結合文字探勘與創新性問題解

決理論(TRIZ)於專利檢索之機制

專利

95 蔡欣怡使用文字探勘技術分析疾病候選基因與基因功能註解

醫藥學 95 陳淑芬運用文字探勘與貝氏網路技術

於建構基因關聯網路

生物基因 95 楊曜瑋利用文字探勘技術擷取出蛋白

質間交互作用反應

生物基因

表3.2 近年相關研究彙整(續)

年度研究生論文名稱文字探勘研究領域

95 李依蓉文字探勘結合引文連結技術建構知識來源地圖之研究

知識地圖 96 許玉青應用文字探勘技術於交通運輸

旅客意見處理之研究

交通運輸 96 童瓊慧資訊檢索結合文字探勘之應用

－以中醫婦科專題文獻資料庫為例

醫藥學

馮雅民運用文件探勘技術進行新聞報導評價分類－以網路財經新聞為例

財經

97 廖庸盛以文字探勘技術來分析光儲存產業競爭優勢

產業競爭 97 楊博文以語意結構建立專利文件分群

模型

專利 97 喻欣凱運用支援向量機與文字探勘於

股價漲跌趨勢之預測

財經資料來源：本研究彙整

3.8 小結

以一般營建業普遍之文件來說，常見之資料結構為非結構化或半結構化之資料，如結案報告或知識管理系統隻知識活動內容等。此種類型之文件適合之資訊處理技術為文字探勘。

文字探勘以需求不同可再區分為數種處理方式，自動摘要、分類、群集、關聯規則分析、概念地圖等。

三種資訊檢索模式(布林模型、向量模型及機率模型)中，向量空間模型在檢索正確率與容易使用方面皆勝於其他兩種模型。

以營建業知識活動之內容來看，可規劃進行摘要處理，讓使用者能從過去龐大之資料庫中，先由摘要之產生，讓使用者由簡短之摘要

在文檔中文字探勘技術應用於自動化知識管理經驗學習系統之研究 (頁 49-60)

第三章 資料探勘技術