以統計值為基礎之摘要方法 - 文件自動摘要之方法 - 表示法學習技術於節錄式語音文件摘要之研究

2.2 文件自動摘要之方法

2.2.2 以統計值為基礎之摘要方法

 詞頻-逆向文件頻率(TF-IDF)

早期文件摘要的方法於 1998 年由 Lin 等人建議採用詞頻(Term Frequency, TF) 來代表在各個詞彙在所出現的文件中的重要性[23]。使用統計式的好處是不用透過自然語言處理，意即不需理解詞彙的意思，亦不需事先建立詞典以及文法，可以立即進行分析。詞頻的基本思想是一個詞彙的重要性取決於其在一篇文件中出現次數的多寡，因此在一篇文件中出現越多次的詞彙，表示這個詞彙越重要，意即其重要程度與出現的次數成正比。然而一個詞彙若出現在文件集合中的每一篇文件，表示此詞彙無法成為具有代表性的特徵，因此結合逆向文件頻率(Inverse

Document Frequency, IDF)，其重要程度與出現的次數成反比。詞頻-逆向文件頻率 (TF-IDF)是考慮詞彙在文件中不同語句的分布情況，並降低沒有代表性的詞彙對語句的重要性。對於文件中任一個詞的權重計算公式如下：

𝑤_𝑖𝑗 = 𝑇𝐹 × 𝐼𝐷𝐹 = 𝑓_𝑖𝑗 × 𝑙𝑜𝑔 𝑁

𝑑𝑓_𝑖 (2.1)

其中𝑓_𝑖𝑗指詞彙𝑖在文件𝑗中出現的頻率，𝑁為集合中文件總數量，𝑑𝑓_𝑖是文件中出現詞彙𝑖的文件數量。由公式(2.1)得知，當詞彙𝑖在文件𝑗中出現的頻率越高，在文件集合中出現的頻率越低，則表示該詞彙的 TF-IDF 權重較高，說明其包含的資訊具有較好的代表性。

 向量空間模型(Vector Space Model, VSM)

向量空間模型於 1968 年由 Salton 等人提出[24]，原應用於資訊檢索估測使用者查詢(User Query)與文件(Document)之間的相關程度，藉此決定文件與查詢的相似度排名。在向量空間摘要模型中，語音摘要任務可以被視為一個檢索的問題，

重要語句的選取是以其與文件內容的相關程度而定，亦即將文件內容作為查詢來檢索最相關的𝑛個語句。將文件表示成向量𝐷⃑⃑ = (𝑑₁𝑑₂… 𝑑_𝐿)，每一語句表示為向量𝑆⃑⃑⃑ = (𝑠_𝑖 _𝑖,1𝑠_𝑖,2… 𝑠_𝑖,𝐿)，透過計算文件和每一語句之間的距離得到兩者相似的程度。

如下圖：

圖 2.2 向量空間模型之示意圖

其中𝑑_𝐿與𝑠_𝑖,𝐿為詞𝐿分別在文件𝐷及語句𝑆_𝑖中的權重，而權重通常以詞頻-逆向文件頻率(TF-IDF)來表示。將文件與語句表示成相同維度的向量之後，透過餘弦相似

度(Cosine Similarity)便可以計算出兩者之間的相似性分數，分數越接近 1 表示兩

 最大邊際關聯法(Maximum Margin Relevance, MMR)

最大邊際關聯法於 1998 年由 Jaime 等人提出用於摘要處理之方法[25]。該方

均為重複性太高的語句，導致使用者無法從摘要中得到所有原本文件中的主要資訊。

 潛藏語意分析(Latent Semantic Analysis, LSA)

然而單純使用文字上的資訊往往忽略主題詞(Topic Word)的資訊，例如語料中若有“緊急警報”與“颱風來襲”兩個詞，這兩個詞很明顯屬於主題相關，單純依賴詞頻-逆向文件頻率(TF-IDF)作為判斷依據並不能考慮其關聯的特性，因此開始出現一連串文件摘要上主題模型(Topic Model)的研究，將主題相關的資訊利用例如叢集(Clustering)和共同出現(Co-occurrence)的概念一同學習出來[27, 28,

29]。

最早於 2001 年開始有學者提出潛藏語意的概念應用於文件摘要的方法[30]。

該方法是將文件以詞-語句矩陣(Term-Sentence Matrix)表示，矩陣中每一行代表文件中的每一語句，而語句中每一維度代表每一個詞在語句中的統計值，如詞頻-逆向文件頻率(TF-IDF)。透過奇異值分解(Singular Value Decomposition, SVD)將該矩陣投影至低維度的濳藏語意空間。其中左奇異矩陣的每一列是每一個詞的表示向量，右奇異矩陣中的每一行為每一個語句的表示向量。每一個奇異向量(Singular

Vector)代表一種概念，其值越大表示越重要，文件中每一語句可由右奇異矩陣的行向量表示，由右奇異矩陣中挑選出含最大奇異值的語句作為文件的摘要，如下圖所示：

圖 2.3 潛藏語意分析之示意圖

然而，文件並沒有出現於詞-語句矩陣中，因此本論文在實作上使用摺入(Fold in) 的技巧，等同於將文件向量視為虛擬語句新增於詞-語句矩陣的最右邊，如下圖所示：

圖 2.4 嵌入式潛藏語意分析之示意圖

如此一來，文件與每一語句的向量皆可由右奇異矩陣得到。利用餘弦相似度來計算在潛藏語意空間中的每一語句與文件之間的關係，公式如下：

𝑆̂_1×𝑇 = (𝑆^𝑇)_1×𝑊∙ 𝑈_𝑊×𝑇∙ 𝛴_𝑇×𝑇⁻¹ (2.4) 𝐷̂_1×𝑇 = (𝐷^𝑇)_1×𝑊∙ 𝑈_𝑊×𝑇∙ 𝛴_𝑇×𝑇⁻¹ (2.5)

𝑠𝑖𝑚(𝑆̂, 𝐷̂) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑆̂ ∙ 𝛴, 𝐷̂ ∙ 𝛴) = 𝑆̂ ∙ 𝛴²∙ 𝐷^𝑇

|𝑆̂ ∙ 𝛴| ∙ |𝐷̂ ∙ 𝛴|

(2.6)

2.2.3 以機率式模型為基礎之摘要方法

 單連語言模型(Unigram Language Model, ULM)

語言模型被廣泛地應用於語音辨識(Speech Recognition)與機器翻譯(Machine

Translation)等方面，Ponte 等人將其運用於資訊檢索領域[31]。我們將語音摘要任 Likelihood Estimation, MLE)的方法來建立，公式如下：

𝑃(𝑤|𝑆) =𝑐(𝑤, 𝑆)

|𝑆| (2.9)

其中𝑐(𝑤, 𝑆)為語句𝑆中詞𝑤出現的次數，|𝑆|為語句𝑆的長度。然而大多數的語句僅由少數個詞所組成，容易發生資料稀疏(Data Sparseness)的問題，意即文件中的某些詞在語句中沒有出現，將導致最大相似度估計的機率結果為 0。為了減輕上述現象，可以透過背景語言模型(Background Language Model)針對語句模型進行調適，通常採用 Jelinek-Mercer 平滑化(Smoothing)的技術將語句模型與背景語言模型進行線性組合[33]。該技術是利用詞𝑤在整個文件集合𝐶中所出現的機率來估計未出現詞𝑤的機率，並透過一個常數值 λ 控制該機率，公式如下：

𝑃(𝐷|𝑆) = ∏[λ ∙ 𝑃(𝑤|𝑆) + (1 − λ) ∙ 𝑃(𝑤|𝐶)]^{𝑐(𝑤,𝐷)}

𝑤∈𝐷

(2.10)

 庫爾貝克-萊伯勒差異量(Kullback-Leibler Divergence, KL)

該方法是以其提出者庫爾貝克和萊伯勒的名字來命名[34]，亦稱為關係亂度

(Relative Entropy)。該方法在資訊理論(Information Theory)中是一個重要的概念，

目的是描述兩個機率分佈之間的差異程度。將該方法運用於文件摘要任務上以估計文件和每一語句之間的距離，差距越小表示兩者越相關。將文件和每一語句各別視為一個單連語言模型，稱之為文件模型 (Document Model) 和語句模型

(Sentence Model)，主要目的是透過計算兩者單連語言模型的庫爾貝克-萊伯勒差異量之距離，對語句𝑆進行排序。在公式前加上負號表示語句𝑆與文件𝐷距離越小負值越大，更有可能成為摘要語句[35]，公式如下：

−𝐾𝐿(𝐷‖𝑆) = − ∑ 𝑃(𝑤|𝐷)𝑙𝑜𝑔𝑃(𝑤|𝐷) Relevant Feedback, PRF)所估測的語句模型為：

𝑃_𝑅𝑀(𝑤|𝑆) =∑_𝐷_𝑖_∈𝐷_𝑡𝑜𝑝∏_𝑤^′_∈𝑆𝑃(𝑤^′|𝐷_𝑖)𝑃(𝑤|𝐷_𝑖)𝑃(𝐷_𝑖)

其中𝑘₁、𝑘₂以及𝑏均為自由參數，根據經驗設置，一般𝑘₁ ∈ [1.2, 2.0]、𝑏 = 0.75。

𝑐(𝑤, 𝑆)是詞𝑤在語句𝑆中出現的次數，𝑐(𝑤, 𝐷)是詞𝑤在文件𝐷中出現的次數，而|𝑠|

是表示語句𝑆的長度，|𝑎𝑣𝑔𝑠|是在文件𝐷中所有語句的平均長度，𝑁是在集合中的文件總數，𝑑𝑓_𝑤為在集合中文件包含詞w的篇數。

當參數𝑘₂設置為 0 時，表示 BM25 僅考慮詞𝑤是否有出現於文件𝐷中，而不考慮其出現的次數。若參數𝑘₁的設置不為 0 時且當𝑐(𝑤, 𝑆)較高時，則表示此篇文件應該給予較高的相似分數。隨著參數𝑏設置得越大，語句長度對相似性分數的影響越大，亦即在相同𝑐(𝑤, 𝑆)的情況下，長語句與詞𝑤的相似性應該比短語句與詞𝑤的相似性低。

2.2.4 以圖論為基礎摘要之方法

 詞權重-逆向文件頻率(Term Weight-Inverse Document Frequency, TW-IDF) 該方法由 Rousseau 與 Vazirgiannis 於 2013 年所提出類似於詞頻-逆向文件頻率(TF-IDF)的模型[41]。該方法將代表的文件作為一個詞圖(Graph-of-Word)，該詞圖為一有向圖(Directed Graph)，其頂點(Vertices)代表唯獨的一個詞，其邊(Edges) 則代表在一個固定大小的滑動窗口(Slide Window)中共同出現的詞，而邊的方向代表詞的順序。

圖 2.5 圖形創建範例

圖 2.5 為一個圖的建立，圖中的文字是擷取自維基百科(Wikipedia)對於

“Information Retrieval”的定義。將邊(紅色箭頭)連繫於詞與下兩個詞之間(假設窗口大小為 3，紅色底線)，實線箭頭表示一個新的有向邊，而虛線箭頭表示在圖中已有存在的有向邊。圖 2.6 為所對應的無加權有向圖，其中每個頂點代表一個唯一的詞，而每一個邊代表在一個大小為 3 的移動窗口(Moving Window)中共同出現的兩個詞。

圖 2.6 圖形表示法範例

大多數現存的評分方法如 TF-IDF 與 BM25 皆依賴於詞袋(Bag-of-Words)假設，

採用詞頻來計算文章的分數。因此該模型的作者定義一個基於詞權重的方法，利用該詞的頂點權重取代其頻率。該詞權重的方法包含比原始的詞頻更多的資訊，

因詞權重是基於內分支度(Indegree)嵌入了上下文(Context)的關係，因此採用圖的方式來獲取，相似於網頁排名演算法(PageRank)嵌入了其它網頁的貢獻[42]。

 馬可夫隨機漫步(Markov Random Walk, MRW)

圖論(Graph Theory)其想法源自於 1998 年由 Google 所提出針對檢索結果的一種網頁排名演算法(PageRank)[42]。其計算的是網頁被看見的可能性，每個網頁皆有各別的網頁排名，取決於網頁之間的連結關係，而備受歡迎的網頁藉此脫穎而出。其概念源自於網路上的「隨機瀏覽(Random Surfer)」行為。網頁互相連結的關係如下圖所示：

圖 2.7 網頁互相連結之示意圖

有許多的研究亦應用該演算法於摘要系統上[43-50]。馬可夫隨機漫步的概念是將文件中的語句視為一個網際網路，文件中的語句代表圖形上的節點(Node)，

而語句之間的相關程度為節點之間邊界(Edge)的權重，透過馬可夫隨機漫步演算

2.3 文件自動摘要評估方式

近年來文件自動摘要的方法被廣泛地探討與研究，許多學者提出不同的摘要方法來提高摘要對於表達文件內容的正確性，因此對於文件的摘要結果需要一個公平且客觀的方式來評估，才能不斷地提升文件摘要的研究成果。直至今日，自動摘要的評估仍沒有一套完整且統一的方法。目前受大家所廣泛使用的評估方式大略可分為主觀評估與客觀評估兩類。主觀評估指的是以人的主觀判斷與評估作為自動摘要的評估結果，而客觀評估通常是計算摘要正確率作為評估的結果。

2.3.1 主觀評估方式

主觀評估是由評估者對自動摘要結果進行評估，評估的依據包含(1)摘要內容是否符合文件中重要的資訊(2)摘要內容是否涵蓋文件中所有重要主題(3)摘要內容是否表達出整篇文件的重點(4)摘要是否通順流暢等。評估方式通常是將自動摘要結果分成不同級別。Hirohata 等人將評估結果分為五個等級，等級依序為很好、

好、普通、差、很差，評估者依照自己的想法分配摘要結果至所屬的等級[20]。

Wu 等人採用分數評分的方式，依照摘要結果給予 0 至 10 之間的分數，最理想的摘要內容分數為 10，最不理想的分數則為 0[51]。然而為了避免單一評估者的評估結果之可信度與客觀性不足，一般會由多位評估者來進行摘要結果的評估，最後以大多數評估者的結果作為自動摘要的評估結果。

2.3.2 客觀評估方式

召回率(Recall)、準確率(Precision)、F評估(F-Measure)以及召回率導向的要點評估(Recall-Oriented Understudy for Gisting Evaluation, ROUGE)[52]皆為常見的客觀評估文件摘要之方法。以下將略述四種方法的評估方式。

在文檔中表示法學習技術於節錄式語音文件摘要之研究 (頁 20-0)