• 沒有找到結果。

以統計值為基礎之摘要方法

2.2 文件自動摘要之方法

2.2.2 以統計值為基礎之摘要方法

 詞頻-逆向文件頻率(TF-IDF)

早期文件摘要的方法於 1998 年由 Lin 等人建議採用詞頻(Term Frequency, TF) 來代表在各個詞彙在所出現的文件中的重要性[23]。使用統計式的好處是不用透 過自然語言處理,意即不需理解詞彙的意思,亦不需事先建立詞典以及文法,可 以立即進行分析。詞頻的基本思想是一個詞彙的重要性取決於其在一篇文件中出 現次數的多寡,因此在一篇文件中出現越多次的詞彙,表示這個詞彙越重要,意 即其重要程度與出現的次數成正比。然而一個詞彙若出現在文件集合中的每一篇 文件,表示此詞彙無法成為具有代表性的特徵,因此結合逆向文件頻率(Inverse

Document Frequency, IDF),其重要程度與出現的次數成反比。詞頻-逆向文件頻率 (TF-IDF)是考慮詞彙在文件中不同語句的分布情況,並降低沒有代表性的詞彙對 語句的重要性。對於文件中任一個詞的權重計算公式如下:

𝑤𝑖𝑗 = 𝑇𝐹 × 𝐼𝐷𝐹 = 𝑓𝑖𝑗 × 𝑙𝑜𝑔 𝑁

𝑑𝑓𝑖 (2.1)

其中𝑓𝑖𝑗指詞彙𝑖在文件𝑗中出現的頻率,𝑁為集合中文件總數量,𝑑𝑓𝑖是文件中出現 詞彙𝑖的文件數量。由公式(2.1)得知,當詞彙𝑖在文件𝑗中出現的頻率越高,在文件 集合中出現的頻率越低,則表示該詞彙的 TF-IDF 權重較高,說明其包含的資訊 具有較好的代表性。

 向量空間模型(Vector Space Model, VSM)

向量空間模型於 1968 年由 Salton 等人提出[24],原應用於資訊檢索估測使用 者查詢(User Query)與文件(Document)之間的相關程度,藉此決定文件與查詢的相 似度排名。在向量空間摘要模型中,語音摘要任務可以被視為一個檢索的問題,

重要語句的選取是以其與文件內容的相關程度而定,亦即將文件內容作為查詢來 檢索最相關的𝑛個語句。將文件表示成向量𝐷⃑⃑ = (𝑑1𝑑2… 𝑑𝐿),每一語句表示為向 量𝑆⃑⃑⃑ = (𝑠𝑖 𝑖,1𝑠𝑖,2… 𝑠𝑖,𝐿),透過計算文件和每一語句之間的距離得到兩者相似的程度。

如下圖:

圖 2.2 向量空間模型之示意圖

其中𝑑𝐿與𝑠𝑖,𝐿為詞𝐿分別在文件𝐷及語句𝑆𝑖中的權重,而權重通常以詞頻-逆向文件 頻率(TF-IDF)來表示。將文件與語句表示成相同維度的向量之後,透過餘弦相似

度(Cosine Similarity)便可以計算出兩者之間的相似性分數,分數越接近 1 表示兩

 最大邊際關聯法(Maximum Margin Relevance, MMR)

最大邊際關聯法於 1998 年由 Jaime 等人提出用於摘要處理之方法[25]。該方

均為重複性太高的語句,導致使用者無法從摘要中得到所有原本文件中的主要資 訊。

 潛藏語意分析(Latent Semantic Analysis, LSA)

然而單純使用文字上的資訊往往忽略主題詞(Topic Word)的資訊,例如語料 中若有“緊急警報”與“颱風來襲”兩個詞,這兩個詞很明顯屬於主題相關,單 純依賴詞頻-逆向文件頻率(TF-IDF)作為判斷依據並不能考慮其關聯的特性,因此 開始出現一連串文件摘要上主題模型(Topic Model)的研究,將主題相關的資訊利 用例如叢集(Clustering)和共同出現(Co-occurrence)的概念一同學習出來[27, 28,

29]。

最早於 2001 年開始有學者提出潛藏語意的概念應用於文件摘要的方法[30]。

該方法是將文件以詞-語句矩陣(Term-Sentence Matrix)表示,矩陣中每一行代表文 件中的每一語句,而語句中每一維度代表每一個詞在語句中的統計值,如詞頻-逆向文件頻率(TF-IDF)。透過奇異值分解(Singular Value Decomposition, SVD)將該 矩陣投影至低維度的濳藏語意空間。其中左奇異矩陣的每一列是每一個詞的表示 向量,右奇異矩陣中的每一行為每一個語句的表示向量。每一個奇異向量(Singular

Vector)代表一種概念,其值越大表示越重要,文件中每一語句可由右奇異矩陣的 行向量表示,由右奇異矩陣中挑選出含最大奇異值的語句作為文件的摘要,如下 圖所示:

圖 2.3 潛藏語意分析之示意圖

然而,文件並沒有出現於詞-語句矩陣中,因此本論文在實作上使用摺入(Fold in) 的技巧,等同於將文件向量視為虛擬語句新增於詞-語句矩陣的最右邊,如下圖所 示:

圖 2.4 嵌入式潛藏語意分析之示意圖

如此一來,文件與每一語句的向量皆可由右奇異矩陣得到。利用餘弦相似度來計 算在潛藏語意空間中的每一語句與文件之間的關係,公式如下:

𝑆̂1×𝑇 = (𝑆𝑇)1×𝑊∙ 𝑈𝑊×𝑇∙ 𝛴𝑇×𝑇−1 (2.4) 𝐷̂1×𝑇 = (𝐷𝑇)1×𝑊∙ 𝑈𝑊×𝑇∙ 𝛴𝑇×𝑇−1 (2.5)

𝑠𝑖𝑚(𝑆̂, 𝐷̂) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑆̂ ∙ 𝛴, 𝐷̂ ∙ 𝛴) = 𝑆̂ ∙ 𝛴2∙ 𝐷𝑇

|𝑆̂ ∙ 𝛴| ∙ |𝐷̂ ∙ 𝛴|

(2.6)

2.2.3 以機率式模型為基礎之摘要方法

 單連語言模型(Unigram Language Model, ULM)

語言模型被廣泛地應用於語音辨識(Speech Recognition)與機器翻譯(Machine

Translation)等方面,Ponte 等人將其運用於資訊檢索領域[31]。我們將語音摘要任 Likelihood Estimation, MLE)的方法來建立,公式如下:

𝑃(𝑤|𝑆) =𝑐(𝑤, 𝑆)

|𝑆| (2.9)

其中𝑐(𝑤, 𝑆)為語句𝑆中詞𝑤出現的次數,|𝑆|為語句𝑆的長度。然而大多數的語句僅 由少數個詞所組成,容易發生資料稀疏(Data Sparseness)的問題,意即文件中的某 些詞在語句中沒有出現,將導致最大相似度估計的機率結果為 0。為了減輕上述 現象,可以透過背景語言模型(Background Language Model)針對語句模型進行調 適,通常採用 Jelinek-Mercer 平滑化(Smoothing)的技術將語句模型與背景語言模 型進行線性組合[33]。該技術是利用詞𝑤在整個文件集合𝐶中所出現的機率來估計 未出現詞𝑤的機率,並透過一個常數值 λ 控制該機率,公式如下:

𝑃(𝐷|𝑆) = ∏[λ ∙ 𝑃(𝑤|𝑆) + (1 − λ) ∙ 𝑃(𝑤|𝐶)]𝑐(𝑤,𝐷)

𝑤∈𝐷

(2.10)

 庫爾貝克-萊伯勒差異量(Kullback-Leibler Divergence, KL)

該方法是以其提出者庫爾貝克和萊伯勒的名字來命名[34],亦稱為關係亂度

(Relative Entropy)。該方法在資訊理論(Information Theory)中是一個重要的概念,

目的是描述兩個機率分佈之間的差異程度。將該方法運用於文件摘要任務上以估 計文件和每一語句之間的距離,差距越小表示兩者越相關。將文件和每一語句各 別 視 為 一 個 單 連 語 言 模 型 , 稱 之 為 文 件 模 型 (Document Model) 和 語 句 模 型

(Sentence Model),主要目的是透過計算兩者單連語言模型的庫爾貝克-萊伯勒差 異量之距離,對語句𝑆進行排序。在公式前加上負號表示語句𝑆與文件𝐷距離越小 負值越大,更有可能成為摘要語句[35],公式如下:

−𝐾𝐿(𝐷‖𝑆) = − ∑ 𝑃(𝑤|𝐷)𝑙𝑜𝑔𝑃(𝑤|𝐷) Relevant Feedback, PRF)所估測的語句模型為:

𝑃𝑅𝑀(𝑤|𝑆) =∑𝐷𝑖∈𝐷𝑡𝑜𝑝𝑤∈𝑆𝑃(𝑤|𝐷𝑖)𝑃(𝑤|𝐷𝑖)𝑃(𝐷𝑖)

其中𝑘1、𝑘2以及𝑏均為自由參數,根據經驗設置,一般𝑘1 ∈ [1.2, 2.0]、𝑏 = 0.75。

𝑐(𝑤, 𝑆)是詞𝑤在語句𝑆中出現的次數,𝑐(𝑤, 𝐷)是詞𝑤在文件𝐷中出現的次數,而|𝑠|

是表示語句𝑆的長度,|𝑎𝑣𝑔𝑠|是在文件𝐷中所有語句的平均長度,𝑁是在集合中的 文件總數,𝑑𝑓𝑤為在集合中文件包含詞w的篇數。

當參數𝑘2設置為 0 時,表示 BM25 僅考慮詞𝑤是否有出現於文件𝐷中,而不 考慮其出現的次數。若參數𝑘1的設置不為 0 時且當𝑐(𝑤, 𝑆)較高時,則表示此篇文 件應該給予較高的相似分數。隨著參數𝑏設置得越大,語句長度對相似性分數的 影響越大,亦即在相同𝑐(𝑤, 𝑆)的情況下,長語句與詞𝑤的相似性應該比短語句與 詞𝑤的相似性低。

2.2.4 以圖論為基礎摘要之方法

 詞權重-逆向文件頻率(Term Weight-Inverse Document Frequency, TW-IDF) 該方法由 Rousseau 與 Vazirgiannis 於 2013 年所提出類似於詞頻-逆向文件頻 率(TF-IDF)的模型[41]。該方法將代表的文件作為一個詞圖(Graph-of-Word),該詞 圖為一有向圖(Directed Graph),其頂點(Vertices)代表唯獨的一個詞,其邊(Edges) 則代表在一個固定大小的滑動窗口(Slide Window)中共同出現的詞,而邊的方向代 表詞的順序。

圖 2.5 圖形創建範例

圖 2.5 為一個圖的建立,圖中的文字是擷取自維基百科(Wikipedia)對於

“Information Retrieval”的定義。將邊(紅色箭頭)連繫於詞與下兩個詞之間(假設 窗口大小為 3,紅色底線),實線箭頭表示一個新的有向邊,而虛線箭頭表示在圖 中已有存在的有向邊。圖 2.6 為所對應的無加權有向圖,其中每個頂點代表一個 唯一的詞,而每一個邊代表在一個大小為 3 的移動窗口(Moving Window)中共同 出現的兩個詞。

圖 2.6 圖形表示法範例

大多數現存的評分方法如 TF-IDF 與 BM25 皆依賴於詞袋(Bag-of-Words)假設,

採用詞頻來計算文章的分數。因此該模型的作者定義一個基於詞權重的方法,利 用該詞的頂點權重取代其頻率。該詞權重的方法包含比原始的詞頻更多的資訊,

因詞權重是基於內分支度(Indegree)嵌入了上下文(Context)的關係,因此採用圖的 方式來獲取,相似於網頁排名演算法(PageRank)嵌入了其它網頁的貢獻[42]。

 馬可夫隨機漫步(Markov Random Walk, MRW)

圖論(Graph Theory)其想法源自於 1998 年由 Google 所提出針對檢索結果的一 種網頁排名演算法(PageRank)[42]。其計算的是網頁被看見的可能性,每個網頁皆 有各別的網頁排名,取決於網頁之間的連結關係,而備受歡迎的網頁藉此脫穎而 出。其概念源自於網路上的「隨機瀏覽(Random Surfer)」行為。網頁互相連結的 關係如下圖所示:

圖 2.7 網頁互相連結之示意圖

有許多的研究亦應用該演算法於摘要系統上[43-50]。馬可夫隨機漫步的概念 是將文件中的語句視為一個網際網路,文件中的語句代表圖形上的節點(Node),

而語句之間的相關程度為節點之間邊界(Edge)的權重,透過馬可夫隨機漫步演算

2.3 文件自動摘要評估方式

近年來文件自動摘要的方法被廣泛地探討與研究,許多學者提出不同的摘要 方法來提高摘要對於表達文件內容的正確性,因此對於文件的摘要結果需要一個 公平且客觀的方式來評估,才能不斷地提升文件摘要的研究成果。直至今日,自 動摘要的評估仍沒有一套完整且統一的方法。目前受大家所廣泛使用的評估方式 大略可分為主觀評估與客觀評估兩類。主觀評估指的是以人的主觀判斷與評估 作為自動摘要的評估結果,而客觀評估通常是計算摘要正確率作為評估的結果。

2.3.1 主觀評估方式

主觀評估是由評估者對自動摘要結果進行評估,評估的依據包含(1)摘要內容 是否符合文件中重要的資訊(2)摘要內容是否涵蓋文件中所有重要主題(3)摘要內 容是否表達出整篇文件的重點(4)摘要是否通順流暢等。評估方式通常是將自動摘 要結果分成不同級別。Hirohata 等人將評估結果分為五個等級,等級依序為很好、

好、普通、差、很差,評估者依照自己的想法分配摘要結果至所屬的等級[20]。

Wu 等人採用分數評分的方式,依照摘要結果給予 0 至 10 之間的分數,最理想的 摘要內容分數為 10,最不理想的分數則為 0[51]。然而為了避免單一評估者的評 估結果之可信度與客觀性不足,一般會由多位評估者來進行摘要結果的評估,最 後以大多數評估者的結果作為自動摘要的評估結果。

2.3.2 客觀評估方式

召回率(Recall)、準確率(Precision)、F評估(F-Measure)以及召回率導向的要點 評估(Recall-Oriented Understudy for Gisting Evaluation, ROUGE)[52]皆為常見的客 觀評估文件摘要之方法。以下將略述四種方法的評估方式。

召回率(Recall)、準確率(Precision)、F評估(F-Measure)以及召回率導向的要點 評估(Recall-Oriented Understudy for Gisting Evaluation, ROUGE)[52]皆為常見的客 觀評估文件摘要之方法。以下將略述四種方法的評估方式。

相關文件