• 沒有找到結果。

2. 文獻探討

2.3. 傳統自動文件摘要方法

2.3.1. 基於主題表示之摘要方法

在此小節我們將針對常見的主題表示方法類型作簡單的介紹。

A. 主題詞彙(Topic words)

主題詞彙技術是過去的摘要方法中較為常見的方式,主要是為了辨識出文件中最 能表示主題的詞彙。[Luhn, 1958]是最早將此方式應用於摘要任務上,其以頻率設 置一個閾值(Threshold)找出文件中最具代表性的詞彙並用於呈現文件主題。之 後亦有研究使用對數似然性比率檢驗(Log-likelihood ratio test)作為辨識主題詞 彙的依據[Dunning, 1993],被稱為主題簽名(Topic signature),此方法對於新聞主

題的文件較有效率。此外,在主題詞彙方法中,其評分語句的方法亦可分為兩種,

第一種方法是長度越長的語句,分數也越高,因其包含的詞彙較多;第二種則是 會計算語句中主題詞彙的密度作為其評分的標準。

B. 頻率驅動方法(Frequency-driven approaches)

當我們要找到文件中的主題時,需要計算詞彙的權重分數,可以使用二元值或實 數作為其權重來判定該詞彙與主題的相關程度。較多人使用的方法是詞彙機率

(Word probability)或詞頻與逆文件頻乘積(Term frequency-inverse document frequency, TF-IDF)。

B.1 詞彙機率(Word probability)

詞彙出現的頻率是最基本判斷詞彙重要程度的指標,而詞彙的機率可以透過其出 現次數𝑓(𝑤)除以文件總字數𝑁來得到,如下式:

𝑃(𝑤) =𝑓(𝑤)

𝑁 (2-1)

[Vanderwende et al., 2007] 提出的 SumBasic 方法辨識以詞彙機率為基礎,來 判定其語句之重要性分數。首先對於文件中的每個語句𝑆𝑖,會將語句中的平均詞 彙機率作為其權重分數:

𝑊(𝑆+) = ∑./∈12𝑃(𝑤𝑘)

|{𝑤𝑘|𝑤𝑘∈ 𝑆𝑖}| (2-2) 其中𝑊(𝑆+)是指語句𝑆𝑖的權重分數。之後會選取具有最高機率詞彙的高分語句 作為摘要句之一,此動作是為了保證摘要一定能符合文件主題。接下來會對於已 選取之語句中的各個詞彙更新其權重分數,使其之後不會被重複選取:

𝑃𝑛𝑒𝑤(𝑤9) = 𝑃:;<(𝑤9)𝑃:;<(𝑤9) (2-3)

以上式更新詞彙機率會使得該詞會之分數比只出現一次的詞彙權重更低,進 而減少選取到相似語句的機率。最後會一直重複前述之動作直到選取到固定長度 的摘要為止。此方法的摘要選取策略主要是貪婪法,亦有學者將其改為最佳化問 題[Yih et al., 2007],為了最大化每個重要詞彙在整個摘要中的出現頻率。

B.2 詞頻與逆文件頻乘積(TF-IDF)

一份文件中的詞彙可以大致上分為內容詞(Content words)和功能詞(Function words),其中與文件主題習習相關的部分為內容詞,而功能詞大多用來判斷一篇 文章的寫作風格等與內容主題無相關的任務,因此功能詞亦被視為停用詞(Stop words)。若在判定重要詞彙時僅使用詞彙機率作為依據時,很可能會受到功能詞 的影響,因為相同功能詞出現於文件中的頻率往往比內容詞還要多,所以後續的 研究大多在建立語意表示時會過濾停用詞,使得語意表示能更專注於文件主題。

為了過濾停用詞,需要事先建立一個停用詞表,但這步驟對於非該專業領域 的學者而言,是一項耗費資源的事情。因此有學者提出 TF-IDF 的方法,此方法 之特色在於其可以保留高頻的內容詞,同時也會過濾大多數的功能詞,因此使得 語意表示更加符合文件主題。對於文件中每個詞彙的權重計算方式如下:

𝑡𝑓+<>(.) = 𝑡𝑓(𝑤) ∗ log |𝐷|

𝑑𝑓(𝑤) (2-4)

可將上式拆解成兩個部分,乘號前項是計算詞彙頻率,主要是認為在文件中具有 高頻率的詞彙便是該文件中的重要內容詞;而後項是計算逆文件頻率,其主要是 為了使在許多文件都出現過的詞彙之權重降低,因其很可能為功能詞,對於文件 主題是沒有意義的。一般詞彙頻率的計算方式如(2-5) 及(2-6),其中𝑓(𝑤)為詞彙 在文件中的出現次數:

𝑡𝑓(𝑤) = 1 + log (𝑓(𝑤)) (2-5)

𝑡𝑓(𝑤) = 𝑓(𝑤)

max 𝑓(𝑤) (2-6)

𝑖𝑑𝑓(𝑤) = log |𝐷|

𝑑𝑓(𝑤) (2-7)

𝑑𝑓(𝑤) = |{𝑖|𝑤 ∈ 𝐷+}| (2-8) 而逆文件頻率的計算方式如(2-7),其中文件頻率的計算方式為(2-8),主要是計算 詞彙𝑤在幾份文件中出現,通常此項會加 1,避免分母為零的情況發生。計算逆文 件頻率的用處在於判定此詞彙對於文件是否具有鑑別力,若其為高文件頻率,則 此詞彙對於單一文件而言便不具有鑑別力,應降低其權重;反之,則代表其可能 是重要的詞彙,能夠代表文件主題或意涵。

TF-IDF 方法在判定語句重要性的部分上是相當簡潔又快速的,因此有許多研究皆 以此方法為基礎[Alguliev et al., 2011; Alguliev et al., 2013; Erkan and Radev, 2004]。

此外,基於質心(Centroid)的摘要方法[Radev et al., 2004]亦使用 TF-IDF 表示,

此方法首先需找到文件質心,因此我們會先將文件表示由其代表詞彙之 TF-IDF 分數組成的向量表示,之後會使用分群演算法將文件分群並重新計算其質心:

𝒄K =∑<∈LM𝑑

|𝐶𝑗| (2-9)

其中𝒄K是第𝑗群的質心,而𝐶𝑗則是在該群中的文件集合。質心可以被視為一個虛擬 文件其具有高 TF-IDF 值詞彙,並能夠代表該群集。最後我們會將每個語句與質 心向量比對,計算其重要分數,而此步驟亦有許多不同方法可以實現,詳細討論 可參考[Wan and Yang, 2008]。

C. 潛在語意分析(Latent semantic analysis, LSA)

潛在語 意分析 的整體 概念 是由[Deerwester et al., 1990]提出,為一非監 督式

(Unsupervised)方法,主要目的在於從文件整體用詞遣字上擷取出符合文章語意

的表示。由於語言特性,大多會有同義詞或是一詞有多種語意的情況出現,而這 樣的情況若單只考慮詞彙本身,可能無法正確地理解文件意涵,因而導致文件語 意表示的內容不精準,而影響到後續的運作。

圖 2.3 潛在語意分析圖示

[Gong and Liu, 2001]是最早將 LSA 應用於文件摘要任務上的研究,其提出的 方法是利用潛在語意分析去選擇高分語句作為作為摘要,並應用於新聞領域的文 件。首先LSA 會先建立一個「詞彙-語句」矩陣(圖 2.3 的 A),矩陣中的每一 直行代表文件中的每一語句,而語句中每一欄則代表某個詞彙在語句中的權重,

此權重可使用前述之詞彙機率或 TF-IDF 計算得到,若該詞彙沒有出現在該語句 中,則其權重為零。之後透過奇異值分解(Singular value decomposition, SVD)來 計算,將矩陣 A 投影到低維度的潛在語意空間中,可利用下式將矩陣 A 拆解為 圖 2.3 中等號右邊的三個矩陣:

𝐴 = 𝑈Σ𝑉T (2-10)

其中矩陣U 代表一「詞彙-主題」矩陣,其中的每一欄具有對應的權重;而 Σ 則代表一對角矩陣,其中每一列代表主題對應的權重值;最後的 VT則是「主題

-語句」矩陣。利用下式可以找出每個語句對於文件主題的解釋程度:

𝐷 = Σ𝑉T (2-11)

A U Σ V T

words

sentences

words topics topics

topics

topics sentences

[Gong and Liu, 2001]的方法會針對每個主題選取一個語句作為最後的文件摘 要,因此主題的數量是依據摘要長度所決定。但是此方法仍有缺點,因為對於一 個主題而言,可能需要不只一個語句才能完整地表達。為了改善這項缺點,後來 亦出現許多研究來增進 LSA 於文件摘要上的發展,其中便有學者調整每個主題 的權重用以決定其對應的摘要長度,使得摘要內容可根據主題變化;另外亦有學 者提出一個更優異的LSA 摘要方法[Steinberger et al., 2007],其概念是認為涵蓋多 個重要主題的語句都有可能是摘要句,因而重新定義語句的權重。除了上述二者 改進外,亦有許多LSA 的不同變化應用於文件摘要上。

D. 貝氏主題模型(Bayesian topic models)

貝氏主題模型是一個機率模型,其對於擷取和呈現文件中重要資訊相當擅長,主 要優點在於能夠細部地描述及呈現主題,使得摘要系統能有效地分辨文件語句中 的相似及差異。相對於增強文件或主題的語意表示,主題模型的核心概念在於其 具有一個距離公式,用於評分每個語句,而較常用的距離公式為庫爾貝克-萊伯勒

(Kullbak-Liebler, KL),其為一種計算兩個機率分佈之間的差異(散度)的公式 [],亦稱為 KL 散度。在文件摘要應用上,我們會計算詞彙 𝑤 在機率分佈 𝑃 和機 率分佈 𝑄 之間的 KL 散度:

𝐷VW(𝑃||𝑄) = X 𝑃(𝑤) log𝑃(𝑤)

. 𝑄(𝑤)

(2-12)

KL 散度應用於文件摘要上,可以很明顯地看出好的摘要內容,其與文件的 相似程度是相當高的。此方法能夠發現在摘要和文件中的詞彙重要程度,舉例而 言,優秀的摘要其KL 散度應該是較低的。

近 幾 年 , 機 率 主 題 模 型 在 許 多 領 域 的 研 究[Allahyari and Kochut, 2015;

Allahyari and Kochut, 2016a; Allahyari and Kochut, 2016b; Allayari and Kochut, 2016c;

Chua and Asur, 2013; Hannon et al., 2011; Na et al., 2014; Ren et al., 2013]上都有相 當的影響力,其中的隱含迪利克雷分佈(Latent Dirichlet allocation, LDA)模型是

相當新穎的非監督式方法,其主要想法是認為每篇文件都是由數個主題構成,而 每個主題都能用數個重要的詞彙表示,且相同詞彙可同時出現在不同主題。LDA 大多應用於多文件摘要任務[Daume and Marcu, 2006; Wang et al., 2009; Celikyilmaz and Hakkani-Tur, 2010],因其特性使得其在文件數量足夠的情況下能有效地快速 理解文件的主題分佈,使其在多文件摘要任務上有相當優異的效果。

相關文件