• 沒有找到結果。

= | ( |)

1 ( ), ( ) { | }

| ) (

| ) 1

( c s

i weight wi wherec s w w Common s s

s c

score Eq. (4)

3. 研究方法

我們以先前研究單文件摘要所提出的方法 – LSA-based T.R.M. Approach [52]為基礎,加以改良以適用於多文件摘要的研究,同時提出段落重要性評估的 三種模型。本節中,首先介紹潛在語意分析(Latent Semantic Analysis) [28]與主題 關係地圖(Text Relationship Map) [48],最後說明我們所提出的多文件摘要技術模 型 – LSA-based MD-T.R.M. Approach。

3.1. 潛在語意分析 (Latent Semantic Analysis)

潛在語意分析 (Latent Semantic Analysis) [28]為以數學統計為基礎的知識模 型,其運作方式與類神經網路(Neural Net)相似。不同的是類神經網路以權重的傳 遞(Propagation)與回饋(Feedback)修正本身的學習;潛在語意分析則以奇異值分解 (Singular Value Decomposition, SVD)與維度約化(Dimension Reduction)為核心作 為邏輯推演的方式,其原理如Figure 8 所示。

潛在語意分析將文件或文件集表示為矩陣,透過SVD 將文件所隱含的知識

模型,抽象轉換到語意空間(Semantic Space),再利用維度約化萃取文件知識於語 意空間中重要的意涵。整個過程除可以將隱含的語意顯現出來外,更能將原本輸 入的知識模型提升到較高層次的語意層面。

潛在語意分析的應用非常廣泛,包含資訊擷取、同義詞建構、字詞與文句相 關性判斷標準、文件品質優劣的判別標準及文件理解與預測等各方面的研究。

Figure 8: LSA 工作原理

做 法 上 , 首 先 將 文 件 集(Corpus) 中 所 有 文 件 的 Context 6建 構 為 Word-by-Context 矩陣(A)。矩陣中的每個元素(ai,j),即某關鍵詞(Wi)在某 Context (Cj)

中的權重或出現頻率。接著,透過奇異值分解將A 分解轉換成三個矩陣乘積,即

A=USVT。其中,S 代表語意空間(Semantic Space),U 代表關鍵詞於此語意空間 中的表示法,VT則代表Context 於此語意空間中的表示法。再利用維度約化可更 精 確 地 描 述 語 意 空 間 的 維 度 , 並 重 建 矩 陣 A’=U’S’V’T, 可 更 進 一 步 導 出 Word-Word、Word-Context 或 Context-Context 的關聯強度。值得一提的是,潛在 語意分析具有知識推演的能力;如果將原始矩陣中的任一數值改變,其結果會影 響到最後重建的矩陣,且影響的範圍不單為原先經過改變的數值,更會影響到矩 陣中的其他數值。

3.2. 主題關係地圖 (Text Relationship Map)

Figure 9: 主題關係地圖的範例[48]

主題關係地圖(Text Relationship Map) [48]將文件集中文件間關聯度表示成 關係地圖。作法上將每篇文件以關鍵詞的向量表示法(Vector)表示,計算兩兩文 件的相似度(Similarity);當相似度大於臨界值時,表示此兩篇文件存在連結關係

6 Context 可視需求定義為語句(Sentence),段落(Paragraph),或文件(Document)的層面來考量。

Surface

Links below 0.01 ignored

0.57

(Semantic Related Link)。依此原則可以建構出所有文件間的關係地圖。舉例來 說,Figure 9 中編號 17012 及 17016 的文章,二者的相似程度約 0.57,大於臨界 值0.01,所以存在連結關係;而 8907 與 22387 的相似度則低於臨界值,因此於 主題關係地圖中並不存在連結。一般來說,具有連結的文章,可說它們之間具有 關聯性。

[48]將主題關係地圖的概念應用於單文件摘要研究。以每個段落(Paragraph)

為單位計算兩兩段落的相似度,建構主題關係地圖7。當某個節點具有的連結數

愈多,則代表該節點所對應的段落和整篇文件中主題的相關度愈高。[48]依據連 結數目的多寡來決定摘錄段落順序,並提出以下三種方法以產生單文件摘要:

1. Global Bushy Path

首先定義任一節點的Bushiness 為該節點與其他節點的連結數目;擁有 越多關聯連結的節點,表示該節點所對應的段落與其他段落所討論的主題相 似,因此,該段落可視為討論文件主題的段落。Global Bushy Path 將段落依 照原本出現在文件中的順序以及其連結個數由大而小的排列。接著,挑選排

名前K 個段落(Top-K),即為該文件的摘要。

2. Depth-first Path

Depth-first Path 選取某個節點 – 可能為第一個節點或是具有最多連結 的節點,接著每次選取於原始文件中順序與該節點最接近且與該節點相似度 最高的節點當作下一個節點,依此原則選取出重要而且連續的段落以形成文 件摘要。

3. Segmented Bushy Path

Segmented Bushy Path 分為兩個步驟,首先分析文件結構進行文件結構 切割(Text Segmentation)。接著針對每個 Segmentation 個別利用 Global Bushy Path 來 選 取 重 要 的 段 落 。 為 了 保 留 所 有 Segmentation 的 內 容 , 每 個 Segmentation 至少要挑選出一個段落納入最後的摘要。

7 地圖上每個節點為文件中的某個段落;兩節點的連結,則表示兩節點的相似度大於臨界值。

Topically Related

3.3. Proposed LSA-based MD-T.R.M. Approach

本節以我們先前對於單文件摘要所提出的方法LSA-based T.R.M. Approach [52]為基礎,加以改進以適用於多文件摘要,並提出段落重要性評估的三種模 型。系統架構如Figure 10 所示8,共包含五個模組,分別為前處理(Preprocessing)、

語意模型建立(Semantic Modeling)、主題關係地圖建構(Text Relationship Map Construction) 、 段 落 重 要 性 評 估 (Significance Measurement) 及 後 處 理 (Post-processing)。以下分別說明各個模組之功用。

3.3.1. 前處理(Preprocessing)

前處理包含兩個步驟,分別為特徵選取(Feature Selection)及特徵擷取(Feature Extraction)。

„ 特徵選取

我們以段落(Paragraph)為單位,考慮所有的單字詞(Unigram)、二字詞(Bigram) 及三字詞(Trigram)。針對二字詞及三字詞,利用 Mutual Information [35]計算其代

8 本計畫所提之多文件摘要架構,乃延伸先前研究所提出適用於單文件摘要之 LSA-based T.R.M.

Approach [52],利用潛在語意分析(LSA) [28]與主題相關地圖(Text Relationship Map) [48]作為文 件分析模型。

表性,以篩選不具代表性之特徵,計算方式如Eq. (5)9: 出具有代表性的特徵,針對每個特徵計算其 IDF (Inverse Document Frequency) [3],其計算如 Eq. (6)所示:

段落, Wi的重要性便比平均分布在P 集合中的特徵關鍵詞來得高。最後,定義 WiP 中的總體權重 Gi,如Eq. (10):

i

i E

G = 1− Eq. (10)

另外,定義WiPj中的權重Lij,如Eq. (11),其中 nj 代表 Pj中所含的特徵關鍵 詞總數。

⎟⎠

⎜ ⎞

⎝⎛ +

=

j ij ij

n

L log2 1 c Eq. (11)

3.3.2. 語意模型建立(Semantic Modeling)

我們以建構 Word-by-Paragraph 的矩陣作為代表文件集之語意模型。假設該 矩陣為A,其中 aij代表WiPj的權重值11。接著,將矩陣A 作奇異值分解(SVD),

使得 A=USVT。對於 S 進行維度約化(Dimension Reduction),同時取適當的維度 後重新建構矩陣A’=U’S’V’T。此時,便得到具有語意的Word-by-Paragraph 矩陣 表示法,其中,每個列向量(Row-Vector)代表該關鍵詞在每個段落中的權重,而 每個行向量(Column-Vector)代表該段落由各個關鍵字所組成的意義。

先前提及潛在語意分析(LSA) [28]能將文章中的隱性語意(Latent Semantic) 表現出來。若以潛在語意分析所導出之段落表示式計算任兩段落的相似度,其結 果會比單純使用關鍵字出現頻率權重的表示法來得好。基於這個想法,我們以潛 在語意分析所得到的段落表示式 – 行向量(Column Vector)套用在主題相關地圖 (Text Relationship Map) [48],並衡量潛在語意分析對於摘要結果的影響。

3.3.3. 主題關係地圖建構(Text Relationship Map Construction)

以潛在語意分析重建之後得到的行向量當作段落的表示法,並計算任兩向量 的Cosine 值來衡量計算任兩段落的相似度。建構主題相關地圖時,只保留約 1.5 倍語句數目的連結;亦即,若有n 個段落的話,那麼總共的連結數目 C(n, 2)個,

而最後只保留相似度高的前1.5*n 個連結。

3.3.4. 重要性評估(Significance Measurement)

我們提出兩種評估方式,以評估主題相關地圖上節點(即段落)的重要性。分 別敘述如下:

11 aij的值可透過Eq. (7)的公式計算。

„ Model 1: Global Bushy Value

Global Bushy Value (GBV)12為主題相關地圖上任一節點與其他節點間 的連結數目;定義如Eq. (12)所示,其中,Pi為主題地圖上一節點。由此可

„ Model 2: Average Similarity

相較於Model 1 只考慮到主題相關地圖上每個節點的連結個數,我們參 考[26],並考慮每個連結權重的方式,以 Aggregate Similarity 計算每個節點 的重要性,Aggregate Similarity 的示意圖如 Figure 11:

Figure 11: 計算 Aggregate Similarity 的概念圖示[26]

圖中的每個節點代表某個段落的向量表示法,每個連結代表兩個語句間

3.3.5. 後處理(Post-processing)

後處理包含兩個步驟,分別為段落選取(Paragraph Selection)及段落排序 (Paragraph Ordering)。

„ 段落選取

我們參考Maximal Marginal Relevance (MMR)13 [8]的概念,提出段落選取的 方法,如Eq. (14)所示:

相關文件