• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

表 4、具有卡方值的字詞 順序 卡方值 字詞 詞頻 1 593.7 digital computer 31 2 179.3 imitation game 16 3 163.1 future 4 4 161.3 question 44 5 152.8 internal 3 6 143.5 answer 39 7 142.8 input signal 3 8 137.7 moment 2 9 130.7 play 8

3.4節 演算法

本節將會介紹演算法細節,演算法整體架構請參照圖 1。演算法步驟說明如下:

步驟1、 前處理:首先將文章內容以 Bigram 方式斷成以兩個字為一個單位的字詞,因 此會斷出許多兩個字的字詞,接下來過濾純數字以及詞頻小於 2 的字詞,剩下 的字詞稱為「候選詞」,此步驟會得到「候選詞組 」。

步驟2、 選出頻率詞:第二步驟主要是從候選詞中取出前 30%的候選詞為「頻率詞」,

「頻率詞」的挑選規則是根據「候選詞」的詞頻排序(由高到低),再挑選出前 30%頻率最高的「候選詞」,此步驟會取得「頻率詞組 G」。

步驟3、 頻率詞分群:接下來,此步驟將對「頻率詞」進行分群,分群方式採用二種方 式,首先是用 Jensen-Shannon divergence 的方式,經過運算的「頻率詞」只要 高於指定的門檻值就視為同一群,門檻值設為 0.95*log2,公式如下所示:

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

( ) ∑{ ( ( ) ( )) (( )) ( ( ))}

如果未達到指定的門檻值時就採用共同資訊量的方式計算,透過共同資訊量為

「頻率詞」進行第二次分群的判定,「頻率詞」只要高於指定的門檻值 log(2.0) 則視為一群,反之則否,公式如下:

( ) ( )

( ) ( )

( ) ( ) ( )

此步驟會得到「已分群的字詞組 C」,此字詞組的基本單位是由兩個候選詞所 組成。

步驟4、 計算卡方值:此步驟將透過卡方值為每個「候選詞」計算權重,其公式如下:

( ) ∑ { ( ( ) )

}

{ ( ( ) ) }

:期望機率, ⁄

:計算候選詞與「已分群的字詞 c」共同出現的次數。

( ):字詞 t 與「已分群的字詞 c」共同出現的次數。

:有包含字詞 t 句子的總字數。

步驟5、 後處理:將帶有卡方值的「候選詞」依卡方值由大到小排序後取出前七組卡方 值最大的「候選詞」,並將前七組候選詞進行合併,合併的規則如下,規則一:

字詞 A 後面的字有部分在字詞 B 的前面,如:”中研”和”研院”會結合成”中研 院” 。規則二:字詞 A 前面的字有部分在字詞 B 的後面,如:”研院”和”中研”

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

會結合成”中研院” 。規則三:字詞 A 包含字詞 B,如:”中央研究院”和”研究 院”會結合成”中央研究院”。規則四:前三個規則其中一個成立,合併字詞會 計算詞頻,如果合併字詞的頻率等於或大於字詞 A 或字詞 B 則合併,反之則 否。最後合併字詞後將所有「已合併字詞」作為此文章的主題關鍵字。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

1.前處理

3.分群

4.計算卡方值

5.後處理

文章 讀取文章

Bigram

2.取出頻率詞(30%)

Jensen-Shannon 是否大於門檻

值(0.95*log2)

已分群的字詞組(C)

Mutual Information

是否大於門檻

值(0.95*log2)

計算期望機率 計算卡方值

產出主題關鍵字

主題關鍵字(Subject Keywords)

過濾純數字&頻詞 小於2

合併關鍵字 取出前七組卡方值

最高的關鍵字

圖 1、演算法流程圖

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

第四章

相關文件