• 沒有找到結果。

主題重要詞擷取方法

新聞報導的主旨大多可由少數關鍵詞來呈現,如圖 1 所示,整篇報導圍繞 著「火災」、「監獄」兩關鍵詞進行描述,若能擷取出這些關鍵詞就能掌握報導的 核心意義,能夠輔助後續方法擷取出新聞中的重要事實資訊。

圖 1 巴拉圭監獄火災 6 死 12 傷 新聞

資料前處理

在進行關鍵詞擷取之前,需要先對新聞報導內文和標題進行前處理,包括繁 體轉簡體、斷詞、詞性標註、相依性分析和語意角色標註,以供後續步驟所需資 訊。

<1>繁體轉簡體

本論文採用哈爾濱工業大學社會計算與信息檢索研究中心所研發的「語言技 術平台(LTP)」,對新聞報導內文和標題進行前處理,但此平台目前只能分析簡體 文 字 , 因 此 本 論 文 採 用 現 有 繁 體 轉 簡 體 工 具 zhconverter(https://code.google.com/archive/p/java-zhconverter/),將繁體文字轉為

13

簡體,進行自然語言分析。

<2>斷詞

斷詞的目的是將句子切成多個有意義的字詞。圖2 所示為一個句子透過斷詞 處理的結果,原句子為「法航工人罢工取消五分之一航班」,斷詞後,句子切為 多個字詞,每個字詞各有其語意。

圖 2 句子斷詞後結果

<3>詞性標註

詞性標註是對字詞標記出其對應詞性,圖3 所示為字詞標註詞性後的結果,

圖 3 詞性標記結果

每個詞性標記,各有不同含意,如j(形容詞)、n(名詞)、v(動詞)、m(數量詞)代表 字詞在該句子中的詞性,各詞性標記意義請參閱附錄一。

圖 4 相依性分析結果

<4>相依性分析

相依性分析的目的是分析文章中字詞與字詞之間的結構關係。上圖4 所示為

14

一個範例句之相依性分析結果。其中「工人」與「罷工」之間的”SBV”線段代表

「工人」為動詞「罷工」的主詞,而「取消」與「航班」之間的”VOB”線段代表

「航班」為動詞「取消」的受詞,相依性分析結果之有向線意義請參閱附錄二。

<5>語意角色標註

語意角色標註是分析文章中字詞片段間的關係,能夠得知句子中動詞的施行 者和影響對象。此概念與相依性分析中的”SBV”和”VOB”有向線關係類似,但是 相依性分析中”SBV”和”VOB” 有向線關係只能擷取出單個字詞當作施行者或影

響對象,而語意角色標註能夠較完整擷取出字詞片段。下圖5 所示為對一個範例 句進行語意角色標註分析的結果,其中”A0”的區段代表動詞「取消」的動作施 行者,而”A1”的區段代表動詞「取消」的動作影響。

圖 5 語意角色標註結果

關鍵字詞擷取

為了後續說明方便,在此先定義表示符號,以E 表示所有要進行事實擷取的 新聞事件,而第i 個新聞事件下會有多則相關新聞報導,以𝑑𝑗表示第i 個新聞事 件的第j 則相關報導,D 表示第 i 個新聞事件下所有相關報導集合。

15

為了擷取出報導中與新聞主旨相關的關鍵詞,本論文運用TextRank[6]演算法 取出報導中關鍵詞,TextRank 是延伸 PageRank 而來,用來取得一篇文章中的關 鍵字詞。

圖 6 鄰居字詞範例

對 於 每 篇 新 聞 𝑑𝑗, 由 上 述 前 處 理 進 行 斷 詞 後 , 我 們 會 先 移 除 停 用 詞 (http://blog.csdn.net/shijiebei2009/article/details/39696571),以文章中每個相異字詞 當成節點,並將文章中每個字詞w 在原文章出現位置左右取一固定範圍 l,在範 圍內的其他字詞當成字詞w 的鄰居字詞。以圖 6 範例所示,若 l 為 5,移除雙實 線所指的停用詞後,「航班」字詞的左右鄰居詞分別有「法航,工人,罢工,取消,五 分之一」和「法航,机师,争取,加薪,今天」。由鄰居關係可建構出節點(字詞)與節 點(字詞)之間的有向邊,再將具有鄰居關係的字詞,以它們在𝑑𝑗中互為鄰居的頻 率當成有向邊上的權重值,將每個節點初始權重值設為一,依每個節點向外的各 邊權重值換算成有向邊對外的機率值,再以原PageRank 演算法運算。計算出各 字詞結點的重要性值,取出前k 個字詞當成𝑑𝑗的報導關鍵詞。

另外,報導文章標題通常包含整篇報導最主要的詞彙,因此本方法將𝑑𝑗報導 標題進行斷詞後,移除停用詞,其他詞皆直接當成報導的關鍵詞。

合併從報導標題取出的關鍵字以及從內文以 TextRank 找出的關鍵詞,此集 合作為報導𝑑𝑗的基本關鍵詞集合,並以𝐼𝑗表示。

16

【範例3-1】關鍵字詞擷取之範例

以圖 7 所示報導為例,結合從 TextRank 擷取的關鍵詞和從報導標擷取出的 關鍵詞,其取出的基本關鍵詞集合為{火灾, 监狱, 囚犯, 现场, 名, 亚松森, 12, 巴拉圭,6,死,傷}。

圖 7 巴拉圭監獄火災 6 死 12 傷 前處理後的新聞

關鍵字詞擴展

從圖 7 報導中可以看出,有些字詞與關鍵詞語意相似,像是報導中「受伤」

一詞與關鍵詞「傷」意義相近,卻無法被找出來。但是若透過取出更多以TextRank 方式找出的關鍵詞,並不能解決此問題,反而可能取出其他與新聞主旨關係度不 高的關鍵字。因此本論文方法接下來以計算原報導中每個字詞與關鍵字詞相似度,

挑出與基本關鍵詞語意相似度高的字詞加入關鍵詞集合,解決關鍵字的相關字無 法被擷取出的問題。

本論文採用 word2vec[12]的 skip-gram 模型建立字詞的特徵向量,再用所得 的特徵向量進行餘弦相似度計算,來對字詞與字詞間的相似度計算。建立此模型 需要斷詞後的文章,並以類神經網路學習方法進行訓練,透過最大化字詞與字詞

17

間同時出現的機率,最後將每個字詞轉換成一固定維度的向量形式。此模型的優 點是可有效將字詞的語意表示在向量空間上,語意相關的字詞其餘弦相似度高,

而意義不相關字詞,則餘弦相似度低。而此模型缺點是,若字詞在模型訓練資料 中沒有出現,則無法得到該詞相對應的向量,造成無法計算字詞相似度。因此本 論文收集批踢踢實業坊網站中gossip 板的 8 萬多篇新聞文章做作為訓練資料訓練 模型,以盡量降低無法找到字詞向量的問題。

在取出𝑑𝑗報導的基本關鍵詞集合𝐼𝑗後,將報導內文每個字詞 w 與𝐼𝑗集合內的 每個字詞w’做相似度計算,如果 w 與𝐼𝑗任一個w’相似度大於門檻值ϵ以上,則將 w 加入𝐼𝑗擴展詞中。。

【範例3-2】關鍵字詞擴展範例

以範例 3-1 所示,從圖 7 擷取出的基本關鍵詞有𝐼𝑗={火灾, 监狱, 囚犯, 现 场, 名, 亚松森, 12, 巴拉圭, 6, 死, 傷},每個關鍵字詞 w’會與圖 7 報導內文中每

個字詞w,以 word2vec model 計算相似度,當 w’與 w 相似度大於 0.7 以上,則 w 當成關鍵詞加入𝐼𝑗擴展詞中,在範例中,內文的「受伤」字詞與關鍵詞𝐼𝑗中的 字詞「傷」相似度大於 0.7,則「受伤」字詞加入𝐼𝑗中,最後𝐼𝑗的集合元素有{火 灾, 监狱, 囚犯, 现场, 名, 亚松森, 12, 巴拉圭, 6, 死, 傷, 受伤}。

18

相關文件