• 沒有找到結果。

b Applicat

hitectures inning Ga gramming

crete imization

orithms:

ign and alysis, Part

icious tware and derground nomy Two es to Every ry

ting in the ences tion Un

M

niversity o Mexico /Gr

eileman niversity o olorado Sy im

niversity o Melbourne / ascal Van

entenryck tanford Un im Roughg

niversity o Dr Lorenzo

tanford Un ristin Sain

法在文字

ystem/ Dr

of

/ Professo k

niversity/

garden of London o Cavallar

niversity/

nani

4.2.

deling To 後者由M

ural Langu cessing

ial Networ alysis

omata

3. GibbLD

率 有

10.

uage Co M with Pr Un

University

偏差的執 olumbia U Michael Co

niversity o Michigan/ L

damic tanford Un

ff Ullman

開課校系/教 rof Ian H.

niversity o

of Waikat

執行結果,

tlab Topic A niversity/

n

教師 Witten/

of Waikato

to 課程文 MALTAB 所 得到表 3:

g Toolbox MALT 者為Matlab

,可直接修

備註 提供三種模式選擇 提供多種 LDA 模型 下載網址 http://jgibblda.sourceforge

.net/

http://psiexp.ss.uci.edu/rese arch/programs_data/toolbo

x.htm

要進行LDA 執行前,都需要將所得到的資料匯整成一或兩個檔,以

便於執行LDA,其輸入格式如下:

JGibbLDA 的資料檔只需一個,其要求為 [M]

[document1] [document2] ...

[documentM]

M 為文件數量,[documentj]為第幾份件,同時[documentj]的組成是由 [wordi1] [wordi2] ... [wordiN],其中[wordij] (i=1..M, j=1..N),也就是第 i 個文 件的第j 個單字。執行之後輸出資料的檔案如表 4:

表 4. 輸出檔的內容

<model_name>.others 為存放 LDA 模式的參數設定

<model_name>.phi 文件包含「單字-主題」(word-topic)的概率,

也就是p(wordw|topict)

<model_name>.theta 文件包含「主題-文件」(topic-document)的概 率,也就是(topict|documentm)

<model_name>.tassign 包含單字的主題分配訓練資料,每一行是文 件<wordij>:<topic of wordij>的列表的組成 Note:JGibbLDA 的主題編號是從 0 開始,

所以會出現70:0 的組合,代表 ID 為 70 的單

<mo

dmap.txt

Matlab T 資料轉換成 件所有的單

單 le

c mputer

表的位置檔

.twords

Topic Mod 成M檔才行

deling Too 行。資料

中所得到的LDA 結果是否有相同解,使得分類結果更有明確性。首先針

對一般論文來進行實驗:抽取五份論文執行 LDA,其設定值為一至五個

主題和一至五個字詞,共計二十五個結果。隨機選取50 個亂數種子,取

相同結果中最高值並且平均,結果如圖 4 和圖 5:

圖 4. jLDA 結果統計表

Topic 1 Topic 2 Topic 3 Topic 4 Topic 5

1 50.00 28.33 14.50 8.83 2.83

2 50.00 22.17 9.33 2.67 1.83

3 50.00 13.33 6.17 2.17 0.67

4 50.00 11.33 3.17 1.50 0.00

5 50.00 9.00 2.50 0.00 0.00

0 10 20 30 40 50 60

字數平均值

關鍵字數量

jLDA

Topic 1 Topic 2 Topic 3 Topic 4 Topic 5

1 50.00 27.50 14.17 9.67 3.50

2 50.00 21.67 9.17 2.50 1.83

3 50.00 13.50 5.50 1.67 1.50

4 50.00 8.33 4.00 0.83 0.00

5 50.00 9.00 3.83 0.33 0.00

100 2030 4050 字數平均值 60

關鍵字數量

mLDA

從結果表來看,主題數越多或是關鍵字數量越多其數值逐漸降低,

這是正常的結果。但我們可以從主題數的角度去觀察,觀察從一到五的 主題數的次數變化,在某一數主題數下,次數會急據下降,這也許代表 了該份論文適合的主題數量。從平均值來看,一份論文潛藏的主題數是 二到三個主題。

為瞭解主題數和文件數對執行時間的影響,我們分別由固定文件數 來變化主題數,及固定主題數來變化件數來瞭解兩個工具的執行效率。

當設定的主題數越多,每一主題數下的字詞不盡相同,即使同一主題同 一字詞的概率值也有些微差異。說明了兩者工具在不同主題下,字詞分 佈是不盡相同的。

兩者執行時以前處理加上LDA 工具執行時間進行計算,首先我們固

定文件數為500 件和底下關鍵字設定 20 個單字,而針對主題數的變化來 看執行秒數,所得到的結果是執行十次進行平均的平均秒數,如圖 6。

圖 6. 主題數比較

如圖 6 所示,jLDA 在主題數 5~10 個平均秒數和 mLDA 相近,但隨 著主數題增加,秒數也隨之增加,這可以看出執行秒數值也會隨著主題 數增加而有所不同。當主題數越高,mLDA 執行速度會勝過於 jLDA。

接著,將主題數固定為20,針對輸入文章數的不同測試秒數的差異,

以執行十次進行平均的平均秒數如圖 7。

5 10 20 30 40 50

jLDA 12.650238 21.145441 30.193327 42.197125 48.961128 57.862169 mLDA 15.92654 19.641478 26.182953 36.471905 40.957176 41.036573

0 10 20 30 40 50 60 70

平均秒數

相關文件