• 沒有找到結果。

第四章 重要事實句擷取方法

4.2 特徵擷取方法

為了進行分類預測挑選出重要事實句,此步驟必須對一篇報導中取出的每個 候選重要事實句進行特徵擷取。我們主要考慮三類句子特徵,第一類為語句結構 上的特徵,第二類則為語意上的特徵,而第三類為句子前後文的特徵,下列將分 別介紹此三類特徵。

4.2.1 語句結構特徵

<1> 句子中字詞個數

此特徵考慮字詞個數相對較多,較能夠完整表達新聞事實。計數字詞個數方 法為,將句子s 斷詞後,計數斷詞後所得字詞個數,並將個數值比例化。比例化 方法為將字詞個數除以報導中單一句最多字詞個數。

以圖9 範例所示,「巴拉圭监狱火灾 6 死 12 伤」句子 s 斷詞後為{巴拉圭,监 狱,火灾,6,死,12,伤 },共有 6 個字詞。而內文中最多字詞個數句子為 「南美洲 内陆国家巴拉圭首都亚松森一所监狱10 日发生火灾」,共有 12 個字詞,則句子 s 特徵<1>的值為6

12

<2> 不同詞性數量比例

常見用來描述一件事實的句子,大多以名詞、動詞、形容詞和修飾詞所構成,

名詞常用來代表人物、事物,動詞代表人事物所施行的動作,而形容詞和修飾詞 能夠讓資訊更完整,因此以計數句子中包含這些詞的比例當作特徵。以 w 代表 句子s 中的字詞集合,分別計數名詞數量、動詞數量、形容詞數量、數量詞數量

21

22

圖 10 巴拉圭監獄火災 6 死 12 傷 新聞

以圖10 範例所示,報導內文句數共有 6 句,框起來的句子在報導中的位置 是第3 句,則此句子特徵<4>的值為3

6

<5> 句子在所屬段落裡的位置

報導內文大部分會有多個段落,不同段落所要描述的資訊重要程度不盡相同。

同理,同一段落中的句子在不同位置亦有不同重要程度。而在中文語句寫作習慣 上,會將所要描述的重要事實,擺放在段落前端,因此分析句子在段落中位置,

作為一個事實重要句分類特徵。以𝑃𝑗代表句子s 所在段落,且 s 為𝑝𝑗中的第 i 個 句子,則會將i 比例化後當成 s 特徵<5>的值,比例化方法為將 i 除以段落中句子 總數|𝑝𝑗|,故 s 特徵<5>的值為 i

|𝑝𝑗|。以圖 10 範例所示,框框中的句子 s,其出現 在段落二中的第二句,而段落二的句子總數為2,故 s 特徵<5>的值為2

2= 1。

4.2.2 語意特徵

語意特徵考慮句子中每個字詞在文章的語意重要性,句子中包含在文中出現 頻率高的字詞,包含多個主題關鍵詞、或是多個字詞與主題關鍵字詞相關,代表 此句子有可能是重要句子。下列分別介紹語意特徵。

23

<6> 句子中字詞平均 TF-IDF 值

TF-IDF 是資訊檢索中常用以計算字詞在文章中的重要性方法,除了在文章 中計算一個字詞的TF 值,需透過給定一個文件集來計算 IDF 值,本論文使用 241 篇新聞實驗資料集來計算IDF 值。

以s 代表內文中的句子,w 代表 s 中的字詞,計算句子 s 中各字詞 w 的 TF-IDF 值相加取平均值當作句子s 特徵<6>的值。

以圖11 範例所示,假設句子 s 的字詞 TF-IDF 值依序為 0.3、0.5、0.6、0.3、

0.1 和 0.5,則句子 s 的平均 TF-IDF 為

0.3+0.5+0.6+0.3+0.1+0.5

6 ,

故句子s 的<6>

特徵值為0.38。

圖 11 字詞 TF-IDF 範例

<7> 句子中的相異主題關鍵詞數量

當一個句子中出現較多個不同的主題關鍵詞,表示句子與新聞主旨相關度高,

較能夠擷取出重要新聞事實。因此此特徵透過計數句子中包含相異關鍵詞的數量,

挑選出事實含量多的句子。以I 代表該報導的主題關鍵詞集合,W 代表句子 s 中 的字詞集合,則|I ∩ W|為 s 特徵<7>的值。

24

圖 12 範例所示為一斷詞後的句子 s,框框字詞為主題關鍵詞,因此句子 s 中的相異關鍵詞數量為2。

圖 12 句子中的關鍵詞範例

<8> 句子字詞與關鍵詞相似度

若句子中多數字詞與主題關鍵詞中的字詞有較高相關性,則代表此句子較有 可能是重要事實句。

以 w 代表句子 s 中的字詞,w’代表該報導內文關鍵詞集合中的字詞,透過 計算句子s 中每個字詞 w 與關鍵詞集合中每個字詞 w’相似度總和,再取平均值 當成句子s 特徵<8>的值。下列公式 1 為其計算方法,其中 w2vSim 為 word2vec

模型,用以計算兩詞餘弦相似度值。

𝑠𝑖𝑚 1 (𝑠, 𝐼 𝑗 ) = 1

|𝑠|∗|𝐼

𝑗

| ∑ 𝑤∈𝑆,w’∈𝐼

𝑗

𝑤2𝑣𝑆𝑖𝑚(𝑤, w’) (公式 1) 4.2.3 句子前後文特徵

<9> 段落中包含主題關鍵字的句子數量

當段落中多個句子包含主題關鍵字,代表此段落多數句子都是在描述重要事 實。而含有重要事實的段落中的句子,較有可能是一個重要事實句。以S 代表段 落 中 的 句 子 集 合 , 𝑠𝑖代 表 S 中的任一個句 子,若 S 含有 n 個 句子,則 S={𝑠1, 𝑠2, 𝑠3, … 𝑠𝑛}。計數 S 中包含有任一主題關鍵詞的句子數量,除以段落的總

25

26

擷取前後句中主題關鍵詞數量,作為判斷句子 s 是否為重要句。以圖 13 範例所 示,底線為虛線部分為句子 s,而實線部分為關鍵詞,從圖 13 觀察到前一句子 中並無關鍵字詞,因此句子s 的「前一句子中關鍵詞數量特徵」的值為 0,而後 一句子中有兩個關鍵字詞「火灾」、「囚犯」,因此句子 s 的「後一句子中關鍵詞 數量特徵」的值為2。

圖 13 句子中關鍵詞數量範例

相關文件