第 3.4節演算法 - 一個對單篇中文文章擷取關鍵字之演算法

國

立政治大學

‧

Na tiona

l Ch engchi University

表 4、具有卡方值的字詞順序 卡方值 字詞詞頻 1 593.7 digital computer 31 2 179.3 imitation game 16 3 163.1 future 4 4 161.3 question 44 5 152.8 internal 3 6 143.5 answer 39 7 142.8 input signal 3 8 137.7 moment 2 9 130.7 play 8

第 3.4節演算法

本節將會介紹演算法細節，演算法整體架構請參照圖 1。演算法步驟說明如下：

步驟1、前處理：首先將文章內容以 Bigram 方式斷成以兩個字為一個單位的字詞，因此會斷出許多兩個字的字詞，接下來過濾純數字以及詞頻小於 2 的字詞，剩下的字詞稱為「候選詞」，此步驟會得到「候選詞組」。

步驟2、選出頻率詞：第二步驟主要是從候選詞中取出前 30%的候選詞為「頻率詞」，

「頻率詞」的挑選規則是根據「候選詞」的詞頻排序(由高到低)，再挑選出前 30%頻率最高的「候選詞」，此步驟會取得「頻率詞組 G」。

步驟3、頻率詞分群：接下來，此步驟將對「頻率詞」進行分群，分群方式採用二種方式，首先是用 Jensen-Shannon divergence 的方式，經過運算的「頻率詞」只要高於指定的門檻值就視為同一群，門檻值設為 0.95*log2，公式如下所示：

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

( ) ∑{ ( ( ) ( )) (( )) ( ( ))}

如果未達到指定的門檻值時就採用共同資訊量的方式計算，透過共同資訊量為

「頻率詞」進行第二次分群的判定，「頻率詞」只要高於指定的門檻值 log(2.0) 則視為一群，反之則否，公式如下：

( ) ( )

( ) ( ) ( )

此步驟會得到「已分群的字詞組 C」，此字詞組的基本單位是由兩個候選詞所組成。

步驟4、計算卡方值：此步驟將透過卡方值為每個「候選詞」計算權重，其公式如下：

( ) ∑ { ( ( ) )

}

{ ( ( ) ) }

：期望機率， ⁄ 。

：計算候選詞與「已分群的字詞 c」共同出現的次數。

( )：字詞 t 與「已分群的字詞 c」共同出現的次數。

：有包含字詞 t 句子的總字數。

步驟5、後處理：將帶有卡方值的「候選詞」依卡方值由大到小排序後取出前七組卡方值最大的「候選詞」，並將前七組候選詞進行合併，合併的規則如下，規則一：

字詞 A 後面的字有部分在字詞 B 的前面，如：”中研”和”研院”會結合成”中研院” 。規則二：字詞 A 前面的字有部分在字詞 B 的後面，如：”研院”和”中研”

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

會結合成”中研院” 。規則三：字詞 A 包含字詞 B，如：”中央研究院”和”研究院”會結合成”中央研究院”。規則四：前三個規則其中一個成立，合併字詞會計算詞頻，如果合併字詞的頻率等於或大於字詞 A 或字詞 B 則合併，反之則否。最後合併字詞後將所有「已合併字詞」作為此文章的主題關鍵字。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1.前處理

3.分群

4.計算卡方值

5.後處理

文章讀取文章

Bigram

2.取出頻率詞(30%)

Jensen-Shannon 是否大於門檻

值(0.95*log2)

已分群的字詞組(C) 是

Mutual Information 否

是否大於門檻

值(0.95*log2) 是

計算期望機率計算卡方值

產出主題關鍵字

主題關鍵字(Subject Keywords)

過濾純數字&頻詞小於2

合併關鍵字取出前七組卡方值

最高的關鍵字

圖 1、演算法流程圖

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

第四章

在文檔中一個對單篇中文文章擷取關鍵字之演算法 - 政大學術集成 (頁 24-28)

第 3.4節 演算法

國

立 政 治 大 學

‧