• 沒有找到結果。

第三章 面向事實句選取方法

3.2 資料前處理

在進行關鍵詞擷取之前,必須先對新聞文章進行前處理,包含斷詞、詞性標 註、相依性分析、繁體轉簡體、語意腳色標註,這些步驟的處理結果,都將作為 後續研究步驟的使用依據。

<1> 斷詞

斷詞的目的是將句子切割成多個具有意義的詞彙,本論文在後續方法是以單 詞為處理單位,因此採用中研院斷詞系統進行處理。

圖 3.1 句子斷詞後結果

<2> 詞性標註

詞性標註的目的是將句子斷詞過後的詞彙,依照其在句子中的前後文分析,

標註出其相對應的詞性,本論文會運用句子中出現詞的詞性來建立相關特徵。

以圖 3.2 句子為例,每個詞後面會被標註出其詞性,其中:<Nc>表示地方詞、

<Nd>表示時間詞、<Na>表示普通名詞、<VE>表示動作句賓動詞、<VJ>表示狀態及 物動詞、<Neu>表示數詞定詞、<D>表示副詞,各詞性標註的對應意義如附錄一所 示。

圖 3.2 句子詞性標註結果範例

<3> 繁體轉簡體

本論文採用哈爾濱工業大學社會計算與信息檢所研究中心所開發的 LTP 自 然語言處理工具,作為語意三元詞組擷取的處理工具。由於該工具是以簡體字為 主,因此需將要處理分析的句子由繁體字先轉換為簡體字,在這邊我們採用 Java 的 Library ZHConverter 作為此步驟處理的工具。

圖 3.3 句子繁轉簡後結果

<4> 相依性分析

相依性分析的目的是分析出句子中詞彙間的語法依存關係,本論文利用相依 性分析來補足語意三元詞組中缺少的部分。以圖 3.4 為例,下圖是一個例句的相 依性標註結果,其中「衛生局」和「公布」之間的 SBV 線段表示「衛生局」為動 詞「公布」的主詞,而「新增」和「個案」之間的 VOB 線段表示「個案」為動詞

「新增」的受詞,各種有向線關係標註意義如附錄 2 所示。

圖 3.4 句子相依性分析後結果

<5> 語意腳色標註

語意腳色標註的目的是將句子中的主詞、動詞以及受詞標記出來,可以用來 幫助了解句子的結構關係,本論文利用語意角色標註來擷取事實句的語意三元詞 組。圖 3.5 所示為一個進行語意腳色標註的結果範例,其中 A0「台北衛生局」

表示動詞「新增」的動作施行者,而 A1「一例本土登革熱確診個案」為動詞「新 增」的動作受影響者,各種語意腳色標註的定義如附錄 3 所示。

圖 3.5 句子語意腳色標註後結果

<6> 斷句

本論文在分析事實句時,都是以句子為單位做處理,因此,在這部分會以本 論文定義好的符號包括:<。,!>做為斷句切割依據。

相關文件