第四章 關鍵詞彙分析工具功能與介面
4.9 隱含狄利克雷分布介面說明
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
圖 4.24 新青年第 6 卷相關句中包含兩個關鍵詞彙的 html 檔
圖 4.25 輸出推薦段落與相關句 html 檔
4.9 隱含狄利克雷分布介面說明
使用者可將藉由 LDA 功能找出符合語料的主題。此介面共有三個必選選項,此 功能才能執行出結果,否則會如圖 4.4 顯示錯誤訊息視窗。
4.9.1 LDA 功能執行
選項一為文本位置,使用者需選擇待處理的中文語料資料夾。選項二為儲存位置,
使用者自行決定要將結果檔案放置在何處。選項三為使用者自行選擇 LDA 參數 組合,共計兩種組合可以選擇。組合一為預設參數,此一參數值為 LDA 原始論 文中所運用的參數值。組合二為使用者可以自行定義參數值,首先主題數目則是 透過「主題數目」右邊的拉霸選則需要的主題數量,而 Alpha 值會自動跟著主題 數量自行變動,最後使用者自行輸入 Beta、Iteration、主題包含詞彙的數值。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
LDA 功能會產生一個結果檔(txt 檔),如圖 4.27 為每一個主題中包含的關鍵 詞彙與詞彙透過 LDA 計算出的機率值。
圖 4.26 latent Dirichlet allocation 介面說明
圖 4.27 新青年第 1~8 卷 latent Dirichlet allocation 主題結果
4.9.2 找 LDA 結果相關句功能
使用者可以列出符合 LDA 主題的相關句子,輔助分析主題結果。藉由點選 LDA 介面中「列出與主題相符的句子」按鈕開啟新的視窗,如圖 4.28 共有六個必選
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
選項,選項一為主題結果位置,使用者需選擇透過 LDA 找出的主題結果檔案所 在資料夾。選項二為文本位置,使用者須選擇中文語料資料夾。選項三為儲存位 置,使用者自行決定要將結果檔案放置在何處。選項四為使用者需要選擇斷句的 方法,如:句號、逗號、分號、或自行輸入需要的符號等;假如文本原先已經斷 句,使用者可以選擇「不需將文本斷句」選項。選項五透過「相關句含關鍵詞彙 數」右邊的拉霸,選擇相關句中須包含幾個關鍵詞彙才輸出該句子。選項六為選 擇輸出包含關鍵詞彙為相關句或是相關句與相關段落形式,當使用者只希望看到 相關句的結果則選擇「輸出相關句」;但希望看到的是一個段落的形式時,則選 擇「輸出段落:段落中需包含多少相關句才輸出段落(請在後方輸入百分比)」此 一選項並在後方的方框輸入數值。
列出符合 LDA 主題的相關句子功能會產生兩個檔案,第一個結果檔為 csv 檔,如圖 4.29 列出符合各個主題結果與使用者選擇包含幾個關鍵詞彙的相關句 結果檔案,會顯示該句子符合的主題、出處、該句包含的關鍵詞彙、句子。第二 個結果檔為 html 檔,如圖 4.30 列出符合各個分群群體與使用者選擇包含幾個關 鍵詞彙的相關句子或段落結果檔案,會顯示該句子符合的主題、出處、該句包含 的關鍵詞彙、句子或段落。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
圖 4.28 找 latent Dirichlet allocation 主題結果相關句介面說明
圖 4.29 新青年第 1~8 卷符合主題結果的相關句 csv 檔案
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
圖 4.30 新青年第 1~8 卷符合主題結果的相關句 html 檔案