國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
表 4、具有卡方值的字詞 順序 卡方值 字詞 詞頻 1 593.7 digital computer 31 2 179.3 imitation game 16 3 163.1 future 4 4 161.3 question 44 5 152.8 internal 3 6 143.5 answer 39 7 142.8 input signal 3 8 137.7 moment 2 9 130.7 play 8
第 3.4節 演算法
本節將會介紹演算法細節,演算法整體架構請參照圖 1。演算法步驟說明如下:
步驟1、 前處理:首先將文章內容以 Bigram 方式斷成以兩個字為一個單位的字詞,因 此會斷出許多兩個字的字詞,接下來過濾純數字以及詞頻小於 2 的字詞,剩下 的字詞稱為「候選詞」,此步驟會得到「候選詞組 」。
步驟2、 選出頻率詞:第二步驟主要是從候選詞中取出前 30%的候選詞為「頻率詞」,
「頻率詞」的挑選規則是根據「候選詞」的詞頻排序(由高到低),再挑選出前 30%頻率最高的「候選詞」,此步驟會取得「頻率詞組 G」。
步驟3、 頻率詞分群:接下來,此步驟將對「頻率詞」進行分群,分群方式採用二種方 式,首先是用 Jensen-Shannon divergence 的方式,經過運算的「頻率詞」只要 高於指定的門檻值就視為同一群,門檻值設為 0.95*log2,公式如下所示:
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
( ) ∑{ ( ( ) ( )) (( )) ( ( ))}
如果未達到指定的門檻值時就採用共同資訊量的方式計算,透過共同資訊量為
「頻率詞」進行第二次分群的判定,「頻率詞」只要高於指定的門檻值 log(2.0) 則視為一群,反之則否,公式如下:
( ) ( )
( ) ( )
( ) ( ) ( )
此步驟會得到「已分群的字詞組 C」,此字詞組的基本單位是由兩個候選詞所 組成。
步驟4、 計算卡方值:此步驟將透過卡方值為每個「候選詞」計算權重,其公式如下:
( ) ∑ { ( ( ) )
}
{ ( ( ) ) }
:期望機率, ⁄ 。
:計算候選詞與「已分群的字詞 c」共同出現的次數。
( ):字詞 t 與「已分群的字詞 c」共同出現的次數。
:有包含字詞 t 句子的總字數。
步驟5、 後處理:將帶有卡方值的「候選詞」依卡方值由大到小排序後取出前七組卡方 值最大的「候選詞」,並將前七組候選詞進行合併,合併的規則如下,規則一:
字詞 A 後面的字有部分在字詞 B 的前面,如:”中研”和”研院”會結合成”中研 院” 。規則二:字詞 A 前面的字有部分在字詞 B 的後面,如:”研院”和”中研”
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
會結合成”中研院” 。規則三:字詞 A 包含字詞 B,如:”中央研究院”和”研究 院”會結合成”中央研究院”。規則四:前三個規則其中一個成立,合併字詞會 計算詞頻,如果合併字詞的頻率等於或大於字詞 A 或字詞 B 則合併,反之則 否。最後合併字詞後將所有「已合併字詞」作為此文章的主題關鍵字。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
1.前處理
3.分群
4.計算卡方值
5.後處理
文章 讀取文章
Bigram
2.取出頻率詞(30%)
Jensen-Shannon 是否大於門檻
值(0.95*log2)
已分群的字詞組(C) 是
Mutual Information 否
是否大於門檻
值(0.95*log2) 是
計算期望機率 計算卡方值
產出主題關鍵字
主題關鍵字(Subject Keywords)
過濾純數字&頻詞 小於2
合併關鍵字 取出前七組卡方值
最高的關鍵字
圖 1、演算法流程圖
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University