改良型語句權重摘要之效益評估

第五章實驗結果分析與評估

第三節改良型語句權重摘要之效益評估

| B

B Precision = A∩

方程式 21：自動摘要系統的精確率評估

| A

B Recall = A∩

方程式 22：自動摘要系統的召回率評估

本篇論文中，自動摘要與人工摘要所挑選的語句數目皆固定壓縮比為 30%

左右。因此，上述兩個方程式中，|A|和|B|是相同的。也就是說，在這樣的條件下所得到的準確率與召回率大小是一樣的。以下的討論中，我們只評估召回率而不另外列出準確率的數值。

第三節改良型語句權重摘要之效益評估

5.3.1 K. Cross-Validation

機器學習的方法可以分為訓練(Training)及測試(Test)兩階段，而評估機器學習方法的好壞則是利用異於訓練資料的新資料來作測試，以真正測出系統學習能力的好壞。常見的評估方法主要有 Holdout 及 K. Cross-Validation。在本實驗中，

我們以 K. Cross-Validation 來驗證摘要系統的好壞。

首先解釋 K. Cross-Validation [Han01]？一般而言，當資料集的大小有限時，

常常會利用 K. Cross-Validation 來交錯驗證，以期得到較精準的評估結果。作法上將取得的資料集切割成 K 等份，每次取其中一個集合當作測試資料，並以其他 K-1 個集合當作訓練資料。這樣作的好處在於，當取得的資料不足時，依舊可以驗證出系統的好壞；此外，也可將每個資料集合的特性融合，以得到較一般化且具說服力的測試結果。

在訓練階段的時候，每次選取 4 個集合當作訓練用的文件集，剩下的 1 個集合則用來測試訓練結果的好壞。舉例來說，如果測試的集合為 Set 5，那麼便拿 Set 1、Set 2、Set 3 及 Set 4 來訓練 Score Function。

5.3.2 特徵值的影響探討

為了解每個特徵對於摘要結果的影響，首先針對每個特徵來進行實驗，表格 6 到表格 10 列出各個特徵的影響數據，表中 Original 代表未經改良過的方法，

Modified 代表我們提出的方法。從這幾個表格中可以發現，語句位置(Position)、

正面關鍵詞(Positive Keyword)、與標題的相似度(Resemblance to the Title)以及向心性(Centrality)對摘要系統的影響較為重要，而負面關鍵詞(Negative Keyword) 對於摘要系統的影響不是很重要，甚至有可能導致不好的結果。

首先以語句位置(Position)來說，由表格 6 可知 Modified 比 Original 表現來得好；此實驗結果反映出先前的假設：存在有重要資訊的語句位置，其重要程度會因為所在位置不同而有改變，並不是單純考量是否屬於摘要的機率而已。

Original Modified

Set 1 0.4415 0.4788

Set 2 0.4639 0.4924

Set 3 0.4648 0.4844

Set 4 0.4796 0.4955

Set 5 0.4286 0.4632

Average 0.4557 0.4829

表格 6：考慮語句位置特徵時語句摘錄的召回率

以正面關鍵詞(Positive Keyword)來說，關鍵詞是組成語句的重要因素，因此，假若某個語句擁有越多重要的關鍵詞，該語句便越有可能屬於摘要中。實驗的結果反映出單純考慮正面關鍵詞時，亦可得到不錯的結果。

對於負面關鍵詞(Negative Keyword)來說，實驗結果說明當考慮負面關鍵詞時，對於摘要結果的影響並不大。我們推測可能因為某些語句特別長，若其含有較多的負面關鍵詞時，會導致累計結果造成該語句的重要性降低，這個現象與長度越長的語句，其重要性越高的假設相矛盾；因此，負面關鍵詞的影響力便會有所偏差，而導致結果不好。

Original Modified

Set 1 0.4647 0.4839

Set 2 0.3648 0.3865

Set 3 0.4381 0.4190

Set 4 0.4912 0.5030

Set 5 0.5399 0.5410

Average 0.4597 0.4667

表格 7：考慮正面關鍵詞特徵時語句摘錄的召回率

Original Modified

Set 1 0.1982 0.1936

Set 2 0.2972 0.2771

Set 3 0.2301 0.2000

Set 4 0.1746 0.1826

Set 5 0.1739 0.1800

Average 0.2148 0.2067

表格 8：考慮負面關鍵詞特徵時語句摘錄的召回率

對與標題的相似度(Resemblance to the Title)而言，文件的標題通常是文件主題的縮影；因此，與標題相似度越高的語句，該語句的重要性也就會越高。對向心性(Centrality)來說，文件的內容通常都是都是圍繞幾個重要的主題陳述，如果文件中語句的向心性越高的話，該語句與整體文件內容所要表達的主題意義便會越相近，它的重要性也就跟著提高。表格 9 及表格 10 證實了與標題的相似度及向心性的確是很重要的特徵。

對於中文斷詞切字不明確的問題，我們所加入的新詞的確影響到摘要結果的好壞。由正面關鍵詞、負面關鍵詞、與標題的相似度及向心性來看，加入新詞計算的結果皆比原本的結果來得好，尤其以與標題的相似度及向心性較為明顯；但是，因為整個系統中利用詞彙相關程度(Word Co-occurrence)所找出來的新詞大約只有 1600 個左右，整體表現並非很明顯，雖有進步，可是進步並不多。最後，

表格 11 中列出系統中利用詞彙相關程度所找到的部分新詞以供參考。

Original Modified

Set 1 0.4274 0.4370

Set 2 0.4217 0.4487

Set 3 0.3644 0.3716

Set 4 0.4557 0.4628

Set 5 0.3817 0.3895

Average 0.4102 0.4219

表格 9：考慮與標題的相似度特徵時語句摘錄的召回率

Original Modified

Set 1 0.4511 0.4798

Set 2 0.3944 0.3980

Set 3 0.4723 0.5217

Set 4 0.4777 0.4967

Set 5 0.5024 0.5229

Average 0.4596 0.4838

表格 10：考慮向心性特徵時語句摘錄的召回率

編號新詞編號新詞

1 ｅ世代 11 納莉風災

2 五一大執法 12 國營事業

3 水資局 13 張昭雄

4 台聯黨 14 許家班

5 台灣水 15 尊李

6 台灣正名 16 跑票案

7 宋氏兵法 17 新系

8 客家文學 18 新政治

9 政黨化 19 翡翠水庫

10 殷琪 20 選舉機器

表格 11：利用詞彙相關程度所找到的部分新詞

5.3.3 整體結果比較

表格 12 比較傳統以文件集為訓練基礎的方法與我們所改進的方法，其中 Original 及 Modified 兩種方法 Score Function 中的 w1、w2、w3、w4 及 w5 大小 皆固定為 1。由表中可以知道對於每個集合的測試結果而言，大致上二種方法的結果是非常接近的，並沒有特別的好壞之分，且相對於 Original 來說，Modified 進步的平均幅度大約只是 Original 的 0.6%左右。有些集合如 Set 1 及 Set 4 甚至結果會比較差。

Original Modified Improvement

Set 1 0.2746 0.2684 -2.3%

Set 2 0.3700 0.3772 1.9%

Set 3 0.2769 0.2841 2.6%

Set 4 0.2633 0.2574 -2.2%

Set 5 0.2419 0.2478 2.4%

Average 0.2853 0.2870 0.6%

表格 12：Original 與 Modified 的實驗數據比較(考慮所有的特徵)

前一節討論不同特徵對於摘要系統的影響，由結果可知語句位置(Position)、

正面關鍵詞(Positive Keyword)、與標題的相似度(Resemblance to the Title)及向心性(Centrality)四個特徵較為重要，因此，接下來的實驗我們探討這四個特徵組合的影響。

表格 13 中列出 Original 與 Modified 的方法在不考慮負面關鍵詞(Negative Keyword)情況下的結果。相對於 Original 來說，Modified 進步的平均幅度大約是 Original 的 5.5%左右，這個結果與前一節中所討論的結果— 負面關鍵詞的影響不重要— 互相呼應；明顯地，只考慮語句位置、正面關鍵詞、與標題的相似度及向心性是較為適當的組合。

Original Modified Improvement

Set 1 0.4647 0.4906 5.6%

Set 2 0.3799 0.4028 6.0%

Set 3 0.4191 0.4491 4.7%

Set 4 0.5142 0.5348 4.0%

Set 5 0.5149 0.5410 5.1%

Average 0.4586 0.4837 5.5%

表格 13：Original 與 Modified 的實驗數據比較(不考慮負面關鍵詞)

表格 14 列出基因演算法對每個訓練文件集所訓練出來的特徵值權重組，訓練的過程中，我們只考慮重要的四個特徵(亦即不考慮負面關鍵詞)。表格中 T1

代表訓練集 1(亦即以 Set 2~Set 5 作為訓練集)，其餘類推，Recall 代表利用原訓練集作為測試集時所得到的召回率。

Position Positive Keyword Resemblance to Title Centrality Recall T1 0.926 0.013 0.359 0.002 0.7841 T2 0.867 0.013 0.689 0.011 0.7875 T3 0.996 0.013 0.401 0.025 0.7674 T4 0.981 0.021 0.527 0.004 0.7782 T5 0.875 0.012 0.581 0.022 0.7746

表格 14：利用基因演算法所得到的特徵權重組(不考慮負面關鍵詞)

表格 15 是經過基因演算法訓練的 Score Function (Modified+GA)與沒有經過訓練的 Score Function (Modified)的比較。從表中可知，Modified+GA 表現比 Modified 來得好，Modified+GA 進步的幅度平均為 Modified 的 7.4%左右；由此驗證了先前每個特徵的重要性皆不同的假設。

將基因演算法應用在訓練 Score Function 上，最大的益處在於得到的特徵權重組合是比較適當的，可以提供研究人員了解整個訓練文件集(Training Corpus) 的特性，並當作系統參數調整的參考。當測試文件集(Test Corpus)的特性越接近訓練文件集的特性時，將基因演算法所找出來的 Score Function 套用在測試文件集時，我們認為亦可得到不錯的結果。

Modified Modified+GA Improvement

Set 1 0.4906 0.5556 13.2%

Set 2 0.4028 0.4790 18.9%

Set 3 0.4491 0.4604 2.5%

Set 4 0.5348 0.5376 0.5%

Set 5 0.5410 0.5655 4.5%

Average 0.4837 0.5196 7.4%

表格 15：Modified 與 Modified+GA 的實驗數據比較(不考慮負面關鍵詞)

在文檔中文件自動化摘要方法之研究及其在中文文件的應用 (頁 55-61)

第五章 實驗結果分析與評估

第三節 改良型語句權重摘要之效益評估

第三節 改良型語句權重摘要之效益評估

第五章實驗結果分析與評估

第三節改良型語句權重摘要之效益評估

第三節改良型語句權重摘要之效益評估