實驗與討 - 以LDA為基之英文課程文字稿摘要法

b Applicat

hitectures inning Ga gramming

crete imization

orithms:

ign and alysis, Part

icious tware and derground nomy Two es to Every ry

ting in the ences tion Un

niversity o Mexico /Gr

eileman niversity o olorado Sy im

niversity o Melbourne / ascal Van

entenryck tanford Un im Roughg

niversity o Dr Lorenzo

tanford Un ristin Sain

法在文字

ystem/ Dr

/ Professo k

niversity/

garden of London o Cavallar

niversity/

nani

4.2.

deling To 後者由M

ural Langu cessing

ial Networ alysis

omata

3. GibbLD

率有

率

10.

uage Co M with Pr Un

University

偏差的執 olumbia U Michael Co

niversity o Michigan/ L

damic tanford Un

ff Ullman

開課校系/教 rof Ian H.

niversity o

of Waikat

執行結果，

tlab Topic A niversity/

教師 Witten/

of Waikato

to 課程文 MALTAB 所得到表 3：

g Toolbox MALT 者為Matlab

，可直接修

備註提供三種模式選擇提供多種 LDA 模型下載網址 http://jgibblda.sourceforge

.net/

http://psiexp.ss.uci.edu/rese arch/programs_data/toolbo

x.htm

要進行LDA 執行前，都需要將所得到的資料匯整成一或兩個檔，以

便於執行LDA，其輸入格式如下：

JGibbLDA 的資料檔只需一個，其要求為 [M]

[document₁] [document₂] ...

[document_M]

M 為文件數量，[document_j]為第幾份件，同時[document_j]的組成是由 [word_i1] [word_i2] ... [word_iN]，其中[word_ij] (i=1..M, j=1..N)，也就是第 i 個文件的第j 個單字。執行之後輸出資料的檔案如表 4：

表 4. 輸出檔的內容

<model_name>.others 為存放 LDA 模式的參數設定

<model_name>.phi 文件包含「單字-主題」(word-topic)的概率，

也就是p(word_w|topic_t)

<model_name>.theta 文件包含「主題-文件」(topic-document)的概率，也就是(topict|documentm)

<model_name>.tassign 包含單字的主題分配訓練資料，每一行是文件<word_ij>:<topic of word_ij>的列表的組成 Note：JGibbLDA 的主題編號是從 0 開始，

所以會出現70:0 的組合，代表 ID 為 70 的單

<mo

dmap.txt

Matlab T 資料轉換成件所有的單

單 le

c mputer

表的位置檔

.twords

Topic Mod 成Ｍ檔才行

deling Too 行。資料

中所得到的LDA 結果是否有相同解，使得分類結果更有明確性。首先針

對一般論文來進行實驗：抽取五份論文執行 LDA，其設定值為一至五個

主題和一至五個字詞，共計二十五個結果。隨機選取50 個亂數種子，取

相同結果中最高值並且平均，結果如圖 4 和圖 5：

圖 4. jLDA 結果統計表

Topic 1 Topic 2 Topic 3 Topic 4 Topic 5

1 50.00 28.33 14.50 8.83 2.83

2 50.00 22.17 9.33 2.67 1.83

3 50.00 13.33 6.17 2.17 0.67

4 50.00 11.33 3.17 1.50 0.00

5 50.00 9.00 2.50 0.00 0.00

0 10 20 30 40 50 60

字數平均值

關鍵字數量

jLDA

Topic 1 Topic 2 Topic 3 Topic 4 Topic 5

1 50.00 27.50 14.17 9.67 3.50

2 50.00 21.67 9.17 2.50 1.83

3 50.00 13.50 5.50 1.67 1.50

4 50.00 8.33 4.00 0.83 0.00

5 50.00 9.00 3.83 0.33 0.00

100 2030 4050 字數平均值 60

關鍵字數量

mLDA

從結果表來看，主題數越多或是關鍵字數量越多其數值逐漸降低，

這是正常的結果。但我們可以從主題數的角度去觀察，觀察從一到五的主題數的次數變化，在某一數主題數下，次數會急據下降，這也許代表了該份論文適合的主題數量。從平均值來看，一份論文潛藏的主題數是二到三個主題。

為瞭解主題數和文件數對執行時間的影響，我們分別由固定文件數來變化主題數，及固定主題數來變化件數來瞭解兩個工具的執行效率。

當設定的主題數越多，每一主題數下的字詞不盡相同，即使同一主題同一字詞的概率值也有些微差異。說明了兩者工具在不同主題下，字詞分佈是不盡相同的。

兩者執行時以前處理加上LDA 工具執行時間進行計算，首先我們固

定文件數為500 件和底下關鍵字設定 20 個單字，而針對主題數的變化來看執行秒數，所得到的結果是執行十次進行平均的平均秒數，如圖 6。

圖 6. 主題數比較

如圖 6 所示，jLDA 在主題數 5~10 個平均秒數和 mLDA 相近，但隨著主數題增加，秒數也隨之增加，這可以看出執行秒數值也會隨著主題數增加而有所不同。當主題數越高，mLDA 執行速度會勝過於 jLDA。

接著，將主題數固定為20，針對輸入文章數的不同測試秒數的差異，

以執行十次進行平均的平均秒數如圖 7。

5 10 20 30 40 50

jLDA 12.650238 21.145441 30.193327 42.197125 48.961128 57.862169 mLDA 15.92654 19.641478 26.182953 36.471905 40.957176 41.036573

0 10 20 30 40 50 60 70

平均秒數

在文檔中以LDA為基之英文課程文字稿摘要法 (頁 37-43)