• 沒有找到結果。

2. 文獻探討

2.3. 傳統自動文件摘要方法

2.3.2. 基於指標表示之摘要方法

指標表示方法是為了將文字內容轉換成一組特徵,並將其直接用於排序語句。其 中圖形方法和機器學習技術大多使用此類型的語意表示。

A. 圖形方法(Graph methods)

應用於 文件摘 要上的 圖形 方法主 要是從 對 網頁作 排名的 PageRank 演 算法 [Mihalcea and Tarau, 2004]演變而來,而主要的想法是讓文件表示成一個連結圖

(Connected Graph),每個語句就是圖上的一個節點(Vertex),節點與節點間的邊

(Edge)則是代表語句間的相似度。在決定節點與節點間是否具有邊的時候,常 見的方法是設定一個相似度的閾值,超過的才會成為一個邊。而通常計算語句相 似度時會先使用TF-IDF 找到語句的權重,並以餘弦相似度來計算。

此圖形方法得到的結果主要會有兩個面向,首先是找到圖形中的子圖,子圖 代表著文件中各種不同的主題;其次是辨識重要的語句,當一個語句在子圖中與 其他多個語句具有連結,則該語句很有可能為該子圖的中心,也就表示該語句很 有可能是摘要的一部分,因此可以簡單表示為下式,𝑊𝑆(𝑉+) 為語句節點 𝑖 的分數:

𝑊𝑆(𝑉+) = (1 − 𝑑) + 𝑑 ∙ X 𝑤K+

[/∈\]^_[M`𝑤K9𝑊𝑆_𝑉K`

[M∈ab([2) (2-13)

其中 𝑑 為阻尼係數(Damping factor),在此定義為若該句為摘要則下一句亦 為摘要的機率,則反之 (1 − 𝑑) 則是指任選一句剛好為摘要的機率;而 𝐼𝑛(𝑉+) 和 𝑂𝑢𝑡_𝑉K` 主要為連到節點 𝑖 的節點們和從節點 𝑗 連出的節點們,對於摘要任務上,

節點與節點間不具有方向性,因此此二函式可視為相同的。因此我們便可從節點 𝑖 有關聯的節點來判定該節點是否中心,進而再從關聯節點找到更多的連結來判 定此節點是否剛好為一個子圖的中心節點,若是,則代表該節點語句是摘要之一。

圖形方法可以很方便快速地應用在單文件和多文件摘要任務上[Erkan and Radev, 2004],因為此方法除了定義語句和詞彙的邊界外,不需要過多的語言相關 知識輔助,而且還能應用到多種不同的語言上[Mihalcea and Tarau, 2005]。然而,

此方法應用TF-IDF 權重計算相似度的部分仍有些侷限,因為 TF-IDF 只具有詞彙 頻率等資訊而不包含語句結構和語意等,因此若在計算相似度時能考慮結構和語 意等資訊,便能有效地提升摘要系統的成效[Chali and Joty, 2008]。直至現今,因 圖形方法其快速且準確度不低的特性,仍有許多學者將其不斷改良於各種研究。

B. 機器學習(Machine learning)

機器學習技術與前面提到的方法相當不同,其將摘要任務視為一個分類問題,可 以將語句給予類別,判定其是否為摘要,而非僅僅只是計算分數。[Kupiec et al., 1995]是最早將機器學習技術應用於文件摘要上的研究,提出單純貝氏分類器

(Naïve Bayes classifier)將語句分類成摘要或非摘要,由於此方法屬於監督式學 習,所以會需要訓練資料及其對應的正確摘要結果。此方法會利用貝氏定理來學 習分類機率:

𝑃(𝑠 ∈ 𝑆|𝑓g, 𝑓i, … , 𝑓9) =𝑃(𝑓g, 𝑓i, … , 𝑓9|𝑠 ∈ 𝑆)𝑃(𝑠 ∈ 𝑆)

𝑃(𝑓g, 𝑓i, … , 𝑓9) (2-14) 其中 𝑠 代表文件中的語句,𝑆 則是產生的摘要,而 𝑓g, 𝑓i, … , 𝑓9 是分類用的特 徵組合。每個特徵皆為一種指標函式(長度、位置及頻率等),因此可以假設特 徵之間皆為彼此獨立的情況,可以將(2-14)改為下式:

𝑃(𝑠 ∈ 𝑆|𝑓g, 𝑓i, … , 𝑓9) =∏9+lg𝑃(𝑓+|𝑠 ∈ 𝑆)𝑃(𝑠 ∈ 𝑆)

9+lg𝑃(𝑓+) (2-15)

使用單純貝氏分類器計算出語句是摘要的機率值可視為語句的分數,而此方 法便是語句的評分機制。其中常用以分類摘要的特徵包含語句長度、語句在文件 中的位置、命名實體(Named entities)數量及語句和文件標題相似度等等。

除了單純貝氏分類器外,決策樹(Decision tree)、支援向量機(Support vector machine, SVM)、隱式馬可夫模型(Hidden Markov model, HMM)和條件隨機場 域(Conditional random fields, CRF)等機器學習方法亦被應用於文件摘要,其中 以HMM[Conroy and O’leary, 2001]和 CRF[Shen et al., 2007]在文件摘要研究上的 效果較為顯著。然而應用監督式學習於文件摘要時需要注意一個重要的課題,因 為訓練分類器需要一組已經標記好正確類別的訓練樣本,但取得正確標記是一項 有挑戰性的問題。因此學者們便提出幾種替代方案嘗試解決這項問題,較常見的 有以下兩種:

製作有標記的語料(

Annotated corpora

:製作有標記的語料能夠造福 學者,因為具有越多基準可以參考,更能比較出不同摘要方法的優劣,

而且也能降低過度學習(Overfitting)的風險。然而要幫語料標記其實是 一項相當耗時且複雜的工作,因為沒有一項標準能遵循,會導致不同人 選擇的摘要語句會不同,不一定正確。

• 半監督式學習(

Semi-supervised learning

):另一種方法則是利用半監督 式學習來訓練分類器。在半監督式學習中,訓練樣本不需全部都具有標 記,通常都是以少量的標記資料配合大量無標記資料。因此[]提出一種 半監督式方法應用在節錄式摘要任務上,同時使用無標記資料訓練兩個 分類器,當特定無標記資料得到較高的分數時,則可被加入標記資料中,

之後便可以使用新的訓練資料集訓練了。

機器學習技術在文件摘要任務上的表現相較於前述的方法,得到相當優秀的成果。

此章節討論的傳統摘要方法大多是以手工建構的特徵作為輸入,下一章節會討論 應用深層學習技術同時學習特徵跟分類的摘要應用。

相關文件