b Applicat
hitectures inning Ga gramming
crete imization
orithms:
ign and alysis, Part
icious tware and derground nomy Two es to Every ry
ting in the ences tion Un
M
niversity o Mexico /Gr
eileman niversity o olorado Sy im
niversity o Melbourne / ascal Van
entenryck tanford Un im Roughg
niversity o Dr Lorenzo
tanford Un ristin Sain
法在文字
ystem/ Dr
of
/ Professo k
niversity/
garden of London o Cavallar
niversity/
nani
4.2.
deling To 後者由M
ural Langu cessing
ial Networ alysis
omata
3. GibbLD
率 有
率
10.
uage Co M with Pr Un
University
偏差的執 olumbia U Michael Co
niversity o Michigan/ L
damic tanford Un
ff Ullman
開課校系/教 rof Ian H.
niversity o
of Waikat
執行結果,
tlab Topic A niversity/
n
教師 Witten/
of Waikato
to 課程文 MALTAB 所 得到表 3:
g Toolbox MALT 者為Matlab
,可直接修
備註 提供三種模式選擇 提供多種 LDA 模型 下載網址 http://jgibblda.sourceforge
.net/
http://psiexp.ss.uci.edu/rese arch/programs_data/toolbo
x.htm
要進行LDA 執行前,都需要將所得到的資料匯整成一或兩個檔,以
便於執行LDA,其輸入格式如下:
JGibbLDA 的資料檔只需一個,其要求為 [M]
[document1] [document2] ...
[documentM]
M 為文件數量,[documentj]為第幾份件,同時[documentj]的組成是由 [wordi1] [wordi2] ... [wordiN],其中[wordij] (i=1..M, j=1..N),也就是第 i 個文 件的第j 個單字。執行之後輸出資料的檔案如表 4:
表 4. 輸出檔的內容
<model_name>.others 為存放 LDA 模式的參數設定
<model_name>.phi 文件包含「單字-主題」(word-topic)的概率,
也就是p(wordw|topict)
<model_name>.theta 文件包含「主題-文件」(topic-document)的概 率,也就是(topict|documentm)
<model_name>.tassign 包含單字的主題分配訓練資料,每一行是文 件<wordij>:<topic of wordij>的列表的組成 Note:JGibbLDA 的主題編號是從 0 開始,
所以會出現70:0 的組合,代表 ID 為 70 的單
<mo
dmap.txt
Matlab T 資料轉換成 件所有的單
單 le
c mputer
表的位置檔
.twords
Topic Mod 成M檔才行
deling Too 行。資料
中所得到的LDA 結果是否有相同解,使得分類結果更有明確性。首先針
對一般論文來進行實驗:抽取五份論文執行 LDA,其設定值為一至五個
主題和一至五個字詞,共計二十五個結果。隨機選取50 個亂數種子,取
相同結果中最高值並且平均,結果如圖 4 和圖 5:
圖 4. jLDA 結果統計表
Topic 1 Topic 2 Topic 3 Topic 4 Topic 5
1 50.00 28.33 14.50 8.83 2.83
2 50.00 22.17 9.33 2.67 1.83
3 50.00 13.33 6.17 2.17 0.67
4 50.00 11.33 3.17 1.50 0.00
5 50.00 9.00 2.50 0.00 0.00
0 10 20 30 40 50 60
字數平均值
關鍵字數量
jLDA
Topic 1 Topic 2 Topic 3 Topic 4 Topic 5
1 50.00 27.50 14.17 9.67 3.50
2 50.00 21.67 9.17 2.50 1.83
3 50.00 13.50 5.50 1.67 1.50
4 50.00 8.33 4.00 0.83 0.00
5 50.00 9.00 3.83 0.33 0.00
100 2030 4050 字數平均值 60
關鍵字數量
mLDA
從結果表來看,主題數越多或是關鍵字數量越多其數值逐漸降低,
這是正常的結果。但我們可以從主題數的角度去觀察,觀察從一到五的 主題數的次數變化,在某一數主題數下,次數會急據下降,這也許代表 了該份論文適合的主題數量。從平均值來看,一份論文潛藏的主題數是 二到三個主題。
為瞭解主題數和文件數對執行時間的影響,我們分別由固定文件數 來變化主題數,及固定主題數來變化件數來瞭解兩個工具的執行效率。
當設定的主題數越多,每一主題數下的字詞不盡相同,即使同一主題同 一字詞的概率值也有些微差異。說明了兩者工具在不同主題下,字詞分 佈是不盡相同的。
兩者執行時以前處理加上LDA 工具執行時間進行計算,首先我們固
定文件數為500 件和底下關鍵字設定 20 個單字,而針對主題數的變化來 看執行秒數,所得到的結果是執行十次進行平均的平均秒數,如圖 6。
圖 6. 主題數比較
如圖 6 所示,jLDA 在主題數 5~10 個平均秒數和 mLDA 相近,但隨 著主數題增加,秒數也隨之增加,這可以看出執行秒數值也會隨著主題 數增加而有所不同。當主題數越高,mLDA 執行速度會勝過於 jLDA。
接著,將主題數固定為20,針對輸入文章數的不同測試秒數的差異,
以執行十次進行平均的平均秒數如圖 7。
5 10 20 30 40 50
jLDA 12.650238 21.145441 30.193327 42.197125 48.961128 57.862169 mLDA 15.92654 19.641478 26.182953 36.471905 40.957176 41.036573
0 10 20 30 40 50 60 70