主題重要詞擷取方法 - 新聞面向事實自動擷取與整合之研究

新聞報導的主旨大多可由少數關鍵詞來呈現，如圖 1 所示，整篇報導圍繞著「火災」、「監獄」兩關鍵詞進行描述，若能擷取出這些關鍵詞就能掌握報導的核心意義，能夠輔助後續方法擷取出新聞中的重要事實資訊。

圖 1 巴拉圭監獄火災 6 死 12 傷新聞

資料前處理

在進行關鍵詞擷取之前，需要先對新聞報導內文和標題進行前處理，包括繁體轉簡體、斷詞、詞性標註、相依性分析和語意角色標註，以供後續步驟所需資訊。

<1>繁體轉簡體

本論文採用哈爾濱工業大學社會計算與信息檢索研究中心所研發的「語言技術平台(LTP)」，對新聞報導內文和標題進行前處理，但此平台目前只能分析簡體文字，因此本論文採用現有繁體轉簡體工具 zhconverter(https://code.google.com/archive/p/java-zhconverter/)，將繁體文字轉為

簡體，進行自然語言分析。

<2>斷詞

斷詞的目的是將句子切成多個有意義的字詞。圖2 所示為一個句子透過斷詞處理的結果，原句子為「法航工人罢工取消五分之一航班」，斷詞後，句子切為多個字詞，每個字詞各有其語意。

圖 2 句子斷詞後結果

<3>詞性標註

詞性標註是對字詞標記出其對應詞性，圖3 所示為字詞標註詞性後的結果，

圖 3 詞性標記結果

每個詞性標記，各有不同含意，如j(形容詞)、n(名詞)、v(動詞)、m(數量詞)代表字詞在該句子中的詞性，各詞性標記意義請參閱附錄一。

圖 4 相依性分析結果

<4>相依性分析

相依性分析的目的是分析文章中字詞與字詞之間的結構關係。上圖4 所示為

一個範例句之相依性分析結果。其中「工人」與「罷工」之間的”SBV”線段代表

「工人」為動詞「罷工」的主詞，而「取消」與「航班」之間的”VOB”線段代表

「航班」為動詞「取消」的受詞，相依性分析結果之有向線意義請參閱附錄二。

<5>語意角色標註

語意角色標註是分析文章中字詞片段間的關係，能夠得知句子中動詞的施行者和影響對象。此概念與相依性分析中的”SBV”和”VOB”有向線關係類似，但是相依性分析中”SBV”和”VOB” 有向線關係只能擷取出單個字詞當作施行者或影

響對象，而語意角色標註能夠較完整擷取出字詞片段。下圖5 所示為對一個範例句進行語意角色標註分析的結果，其中”A0”的區段代表動詞「取消」的動作施行者，而”A1”的區段代表動詞「取消」的動作影響。

圖 5 語意角色標註結果

關鍵字詞擷取

為了後續說明方便，在此先定義表示符號，以E 表示所有要進行事實擷取的新聞事件，而第i 個新聞事件下會有多則相關新聞報導，以𝑑_𝑗表示第i 個新聞事件的第j 則相關報導，D 表示第 i 個新聞事件下所有相關報導集合。

為了擷取出報導中與新聞主旨相關的關鍵詞，本論文運用TextRank[6]演算法取出報導中關鍵詞，TextRank 是延伸 PageRank 而來，用來取得一篇文章中的關鍵字詞。

圖 6 鄰居字詞範例

對於每篇新聞 𝑑_𝑗，由上述前處理進行斷詞後，我們會先移除停用詞 (http://blog.csdn.net/shijiebei2009/article/details/39696571)，以文章中每個相異字詞當成節點，並將文章中每個字詞w 在原文章出現位置左右取一固定範圍 l，在範圍內的其他字詞當成字詞w 的鄰居字詞。以圖 6 範例所示，若 l 為 5，移除雙實線所指的停用詞後，「航班」字詞的左右鄰居詞分別有「法航,工人,罢工,取消,五分之一」和「法航,机师,争取,加薪,今天」。由鄰居關係可建構出節點(字詞)與節點(字詞)之間的有向邊，再將具有鄰居關係的字詞，以它們在𝑑_𝑗中互為鄰居的頻率當成有向邊上的權重值，將每個節點初始權重值設為一，依每個節點向外的各邊權重值換算成有向邊對外的機率值，再以原PageRank 演算法運算。計算出各字詞結點的重要性值，取出前k 個字詞當成𝑑_𝑗的報導關鍵詞。

另外，報導文章標題通常包含整篇報導最主要的詞彙，因此本方法將𝑑_𝑗報導標題進行斷詞後，移除停用詞，其他詞皆直接當成報導的關鍵詞。

合併從報導標題取出的關鍵字以及從內文以 TextRank 找出的關鍵詞，此集合作為報導𝑑_𝑗的基本關鍵詞集合，並以𝐼_𝑗表示。

【範例3-1】關鍵字詞擷取之範例

以圖 7 所示報導為例，結合從 TextRank 擷取的關鍵詞和從報導標擷取出的關鍵詞，其取出的基本關鍵詞集合為{火灾, 监狱, 囚犯, 现场, 名, 亚松森, 12, 巴拉圭,6,死,傷}。

圖 7 巴拉圭監獄火災 6 死 12 傷前處理後的新聞

關鍵字詞擴展

從圖 7 報導中可以看出，有些字詞與關鍵詞語意相似，像是報導中「受伤」

一詞與關鍵詞「傷」意義相近，卻無法被找出來。但是若透過取出更多以TextRank 方式找出的關鍵詞，並不能解決此問題，反而可能取出其他與新聞主旨關係度不高的關鍵字。因此本論文方法接下來以計算原報導中每個字詞與關鍵字詞相似度，

挑出與基本關鍵詞語意相似度高的字詞加入關鍵詞集合，解決關鍵字的相關字無法被擷取出的問題。

本論文採用 word2vec[12]的 skip-gram 模型建立字詞的特徵向量，再用所得的特徵向量進行餘弦相似度計算，來對字詞與字詞間的相似度計算。建立此模型需要斷詞後的文章，並以類神經網路學習方法進行訓練，透過最大化字詞與字詞

間同時出現的機率，最後將每個字詞轉換成一固定維度的向量形式。此模型的優點是可有效將字詞的語意表示在向量空間上，語意相關的字詞其餘弦相似度高，

而意義不相關字詞，則餘弦相似度低。而此模型缺點是，若字詞在模型訓練資料中沒有出現，則無法得到該詞相對應的向量，造成無法計算字詞相似度。因此本論文收集批踢踢實業坊網站中gossip 板的 8 萬多篇新聞文章做作為訓練資料訓練模型，以盡量降低無法找到字詞向量的問題。

在取出𝑑_𝑗報導的基本關鍵詞集合𝐼_𝑗後，將報導內文每個字詞 w 與𝐼_𝑗集合內的每個字詞w’做相似度計算，如果 w 與𝐼_𝑗任一個w’相似度大於門檻值ϵ以上，則將 w 加入𝐼_𝑗擴展詞中。。

【範例3-2】關鍵字詞擴展範例

以範例 3-1 所示，從圖 7 擷取出的基本關鍵詞有𝐼_𝑗={火灾, 监狱, 囚犯, 现场, 名, 亚松森, 12, 巴拉圭, 6, 死, 傷}，每個關鍵字詞 w’會與圖 7 報導內文中每

個字詞w，以 word2vec model 計算相似度，當 w’與 w 相似度大於 0.7 以上，則 w 當成關鍵詞加入𝐼_𝑗擴展詞中，在範例中，內文的「受伤」字詞與關鍵詞𝐼_𝑗中的字詞「傷」相似度大於 0.7，則「受伤」字詞加入𝐼_𝑗中，最後𝐼_𝑗的集合元素有{火灾, 监狱, 囚犯, 现场, 名, 亚松森, 12, 巴拉圭, 6, 死, 傷, 受伤}。

在文檔中新聞面向事實自動擷取與整合之研究 (頁 20-26)