客觀評估 - 自動文件摘要的評估方式 - 文獻探討 - 應用階層式語意暨聲學特徵表示於語音文件摘要之研究

2. 文獻探討

2.5. 自動文件摘要的評估方式

2.5.2. 客觀評估

從 21 世紀初開始，逐漸出現一系列客觀評估的方法，大多數皆是直接比較產生的摘要和參考摘要。因此以下簡單介紹幾個比較常見的評估方式：摘要準確率

（Summarization accuracy）[Hori et al., 2004; Hirohata et al., 2005]、語句召回率/精準率（Recall/Precision）[Hirohata et al., 2005]、ROUGE 評估[Lin, 2004]和 BLEU 評估[Papineni et al., 2005]。

A. 摘要準確率

基本概念是計算自動摘要和參考摘要之間的準確率。主要計算方式是將自動摘要和參考摘要分別以詞序列表示，然後依下式計算準確率：

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝐿𝑒𝑛𝑔𝑡ℎ − (𝑆𝑢𝑏𝑠𝑡𝑖𝑡𝑢𝑡𝑖𝑜𝑛 + 𝐼𝑛𝑠𝑒𝑟𝑡𝑖𝑜𝑛 + 𝐷𝑒𝑙𝑒𝑡𝑖𝑜𝑛)

𝐿𝑒𝑛𝑔𝑡ℎ (2-16)

首先需要知道參考摘要的長度（Length），即為詞的數量，之後將自動摘要與參考摘要對齊後比較，並計算出詞的替換（Substitution）個數、插入（Insertion）

個數和刪除（Deletion）個數。如果有多份參考摘要，則只需選定一份與自動摘要最為相近的計算其準確率，亦可以計算每一份的準確率之後以其平均值或最大值作為評估結果。

B. 語句召回率/精準率

此方法主要是計算自動摘要中正確的摘要語句佔參考摘要中語句的比例（召回率），以及自動摘要中正確的摘要語句佔其的比例（精準率）。評估時通常以召回率、精準率和F 評估（F-measure）為主。計算公式如下：

𝑅𝑒𝑐𝑎𝑙𝑙 = |𝑆_x:<y;∩ 𝑆{y>y{yb|y|

|𝑆{y>y{yb|y| (2-17)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = |𝑆_x:<y;∩ 𝑆{y>y{yb|y|

|𝑆_x:<y;| (2-18)

𝐹_𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =2 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛

𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (2-19)

其中 𝑆_x:<y; 代表自動摘要，而 𝑆{y>y{yb|y 則代表參考摘要。此方法比較適用於節

錄式文字文件摘要，因語音文件具有語句邊界定義的問題，無法正確定義出語句間的斷點，而且語音文件的語句邊界可能與參考摘要中的有所出入，所以不適用於語音文件摘要的評估。

C. ROUGE

ROUGE 是一種召回導向（Recall-Oriented）的評估指標，主要作法是基於比較自動摘要和一或多個參考摘要之間之間重疊的元素數量。一般都會使用多個參考摘要來達到評估的公平性。ROUGE 具有多種評估方式，以下列出幾種常見的：

• ROUGE-n：最基本的一種，主要是比較自動摘要和參考摘要之間 n 連詞

（n-gram）的重疊率。計算方式是先找出自動摘要和參考摘要中的所有 n 連詞後，計算相同的 n 連詞數量和參考摘要的 n 連詞總數的比率。

• ROUGE-L：因為 N 連詞沒辦法找到太長的序列，因此可改用最長相同子序列（The longest common sequence）。主要作法是先計算自動摘要和參考摘要之間的最長相同子序列，之後計算最長相同子序列和參考摘要的詞數量比率。

目前大多數摘要方法都使用此方法進行評估，因其比較能評估到摘要的語意。

D. BLEU

BLEU 大多是用於翻譯任務的評估，但也有少數會將其用於評估摘要結果。其核心概念是「越近似於人類翻譯的機器翻譯結果越佳」，因此也相當適用於摘要結果評估。其計算方式與ROUGE 不太相同，是以精準率為主的計算。不過 BLEU 亦有缺點，當自動摘要內容都是相同的詞時且剛好該詞也出現在參考摘要中，則會將每個詞都算一次正確詞，因而導致最後的精準率超高，但實際結果卻很差，因此 BLEU 亦有各種不同的計算方式可以使用。

除了上述的評估方式外，其他還有許多應用於摘要評估的方法。由於評估方法很多，適用的對象也不盡相同，因此可以選擇較為適用的方法，也可選擇多種方法得到更準確的評估。本論文主要採用ROUGE-1、ROUGE-2 和 ROUGE-L 等方法進行摘要評估，也較好與過去的實驗結果進行分析比較。

在文檔中應用階層式語意暨聲學特徵表示於語音文件摘要之研究 (頁 34-37)