重要性句子擷取評估

第七章實驗評估

7.2 重要性句子擷取評估

此實驗為評估事實句分類模型效果，以人工標記每篇報導5 句重要句作為標準答案。

標記原則為:若句子與報導中的主旨相關性高和句子描述較完整，可得知一件事實，則標為重要事實句，否則為非重要事實句，標註範例為附錄三。並將標註後的句子讓電腦自動學習標示資料類別，建立判別事實句分類模型，並設定 ε 為 0.96。

MRR@5 值 0.36，從實驗結果可以看出，句子所屬段落在報導中的位置特徵與所假設報導經常將重要句放置在報導中前段吻合，證實新聞媒體確實經常將重點新聞事實置於報導的前段。

<2>TextRank 參數挑選評估

選取不同個數的關鍵詞個數、TextRank 鄰居詞的個數皆會影響重要句挑選，

k=0

0.356500692 0.356500692 0.356500692 0.356500692 0.356500692 0.356500692 0.356500692

k=1

0.355587828 0.355753804 0.356071923 0.355698479 0.355836791 0.356071923 0.356237898

k=2

0.355089903 0.355988935 0.356127248 0.355587828 0.355117566 0.354882434 0.355131397

k=3

0.355145228 0.355117566 0.356237898 0.355006916 0.354744122 0.355089903 0.355352697

k=4

0.354218534 0.353360996 0.354564315 0.354149378 0.353374827 0.353208852 0.35428769 k=5 0.353762102 0.353153527 0.352959889 0.352835408 0.353997234 0.35384509 0.352821577 k=6 0.351728907 0.351701245 0.352365145 0.352226833 0.352683264 0.353416321 0.35208852 k=7 0.351493776 0.351355463 0.351327801 0.35153527 0.351908714 0.351521438 0.351009682 k=8 0.351410788 0.350940526 0.351023513 0.351493776 0.350525588 0.350248963 0.350262794 k=9 0.351051176 0.350926694 0.350691563 0.350608575 0.35055325 0.350027663 0.3495574 k=10 0.350082988 0.350954357 0.350885201 0.349764869 0.3502213 0.34944675 0.34868603 k=11 0.34966805 0.349751037 0.349156293 0.348990318 0.348907331 0.348298755 0.348423237 k=12 0.349488243 0.349626556 0.34868603 0.349059474 0.348852006 0.348492393 0.348271093 k=13 0.34846473 0.348603043 0.347385892 0.34857538 0.348381743 0.349031812 0.348201936 k=14 0.348603043 0.347814661 0.347040111 0.347482711 0.347385892 0.34813278 0.34757953 k=15 0.347828492 0.347302905 0.347496542 0.346818811 0.347109267 0.346639004 0.34637621

從表 11 可得知不同長度鄰居值影響重要句挑選效果不明顯，平均都是 0.34

以上、0.35 以下，但不同 k 值影響效果較明顯，在 k 為 0 時，MRR 值最大，當 k 逐漸增加，MRR 逐漸下降，代表只使用新聞標題字詞和基於新聞標題字詞所找出的擴展詞當成關鍵詞，效果最佳。我們觀察資料發現當人工在標註事實重要句時，經常將標題字當成關鍵詞，從報導中挑選出跟標題字詞相關的句子當成事實重要句，然而 TextRank 挑選出的關鍵詞不一定包含標題字詞，造成有些詞系統認為是關鍵詞，實際上人工不認為是關鍵詞，導致基於 TextRank 關鍵詞挑出的重要句降低預測準度。

下圖23 表示一報導範例，框框內的句子為人工標示的重要句。

圖 23 新聞報導重要事實句範例

若將報導標題進行前處理當成關鍵詞，則會得到{台铁，花莲，出轨，路段，抢修，估，23 日，一早，可，通}的標題關鍵詞集合;若將報導進行 TextRank 運算挑選出關鍵詞，則會得到{台铁，出轨，事故，车厢，列车，节，下午，到，花莲}的 TextRank 關鍵詞集合，比較兩關鍵詞集合發現，”通”字詞在標題關鍵詞集合裡有，在 TextRank 關鍵詞集合裡沒有，造成挑選候選重要事實句時，若人工依標題字詞標註重要句，且系統基於 TextRank 關鍵詞進行挑選，則句子「预估明早可恢复通车」則無法被挑選出，導致MRR 值下降。

<3>整體和不同類型報導效果評估

此實驗以上述實驗所設定的最佳參數值進行不同類型報導效果評估。下表12 為整體和不同類型報導評估結果，其中 MRR@k 的值均會除以 MRR@k 的最佳值，藉以判斷MRR 離最佳值的差距。MRR@1 的最佳值 optimal 為 1、MRR@3 為0.61、MRR@5 為 0.45。

表 12 新聞報導重要句擷取之 MRR 評估結果

句子數 MRR@1/optimal MRR@3/optimal MRR@5/optimal 整體報導 4704 0.94 0.85 0.8

社會報導 2174 0.91 0.8 0.75 氣象報導 1273 0.92 0.84 0.79 財經報導 1257 1 0.93 0.86

從結果可以看出整體報導在前 5 句重要句預測效果都有達到最佳值的 8 成，

在前一句預測更達到9 成以上，而社會和氣象報導類型的效果接近，財經類型則較佳。我們觀察造成財經類型預測較佳的原因是財經報導大多含有明確數值在內文中，當人工在判別重要句時，較容易從語意相似的句子中挑選出重要句。而社會和氣象報導內文較沒有可供區別相似句的字詞，導致不容易挑出重要句。

下圖 24 表示報導重要句挑選範例，框框內句子為人工標示的重要句，其中

「因西南风增强带来暖热的空气」句子與主旨溫度高相關，而「预计各地气温会比昨天更为上升」、「全台高温都有机会来到３３至３６度」也與溫度高相關，因多個相似度高句子，導致人工不容易辨識出重要程度較高者。

圖 24 新聞報導重要事實句範例

在文檔中新聞面向事實自動擷取與整合之研究 (頁 54-60)

第七章 實驗評估