國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第四章
實驗方法與設計
本研究主要研究目的是著重在無詞庫或字典的情況下對中文文章取出主題關鍵字,實驗 過程中會加入使用字典的斷詞器為比較對象,因此斷詞部分使用 Bigram、CKIP 和史丹 佛中文斷詞器並從斷詞的結果中取出頻率詞後加入對頻率詞分群及不分群的實驗,希望 在各種組合的情況下能找出最佳的方式以便取得更精確的主題關鍵字,各實驗定義如 下:
實驗一、 斷詞方式採用 Bigram,斷詞後將每一個字詞進行過濾,過濾條件為詞頻小於 2 或純數字,最後計算卡方值並取得前七組卡方值較高的關鍵字,經過合併關 鍵字後產生主題關鍵字。
實驗二、 斷詞方式採用 Bigram,斷詞後將每一個字詞進行過濾,過濾條件為詞頻小於 2 或純數字之後再加入分群條件,最後計算卡方值並取得前七組卡方值較高的 關鍵字,經過合併關鍵字後產生主題關鍵字。
實驗三、 斷詞方式採用 Bigram,斷詞後將每一個字詞進行過濾,過濾條件純數字之後 直接計算卡方值並取得前七組卡方值較高的關鍵字,經過合併關鍵字後產生 主題關鍵字。
實驗四、 斷詞方式採用 Bigram,斷詞後將每一個字詞進行過濾,過濾條件純數字之後 再加入分群的條件,最後計算卡方值並取得前七組卡方值較高的關鍵字,經 過合併關鍵字後產生主題關鍵字。
實驗五、 斷詞方式採用 CKIP,斷詞後將每一個字詞進行過濾,過濾條件為字串長度小 於 2 之後再加入分群的條件,最後計算卡方值並取得前七組卡方值較高的關 鍵字,經過合併關鍵字後產生主題關鍵字。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
實驗六、 斷詞方式採用史丹佛斷詞器,斷詞後將每一個字詞進行過濾,過濾條件為字 串長度小於 2 之後再加入分群的條件,最後計算卡方值並取得前七組卡方值 較高的關鍵字,經過合併關鍵字後產生主題關鍵字。
實驗七、 斷詞方式採用 CKIP,斷詞後將每一個字詞進行過濾,過濾條件為字串長度小 於 2,最後計算詞頻並取得前七組詞頻較高的關鍵字,經過合併關鍵字後產生 主題關鍵字。
實驗八、 斷詞方式採用史丹佛中文斷詞器,斷詞後將每一個字詞進行過濾,過濾條件 為字串長度小於 2,最後計算詞頻並取得前七組詞頻較高的關鍵字,經過合併 關鍵字後產生主題關鍵字。
實驗之目的除了比較 8 組實驗結果外,主要是證明本研究所提之方法的可行性與否,
在無任何詞庫與字典的支援下是否能達到令人滿意的結果,反之,使用字典斷詞又是否 能找出更多主題關鍵字。圖 2 和圖 3 為各實驗的流程圖。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
分群
計算分數 過濾 斷詞
單一中文文章 讀取文章檔案
實驗1
Bigram
詞頻小於2或純數字
卡方值計算
實驗2
Bigram
詞頻小於2或純數字
卡方值計算 MI&Jesen
實驗4
Bigram
卡方值計算 MI&Jesen 實驗3
Bigram
卡方值計算
取出前七個分數高 的關鍵字
純數字 純數字
圖 2、實驗設計架構圖(一)
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
分群
計算分數 過濾 斷詞
單一中文文章 讀取文章檔案
實驗5
CKIP
卡方值計算 MI&Jesen
實驗6 實驗7 實驗8
史丹佛中文斷詞器
卡方值計算 MI&Jesen
CKIP
詞頻計算
史丹佛中文斷詞器
詞頻計算
取出前七個分數高 的關鍵字
字串長度小於2 字串長度小於2 字串長度小於2 字串長度小於2
取出前七個TF最高 的關鍵字
圖 3、實驗設計架構圖(二)
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University