• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

第四章

實驗方法與設計

本研究主要研究目的是著重在無詞庫或字典的情況下對中文文章取出主題關鍵字,實驗 過程中會加入使用字典的斷詞器為比較對象,因此斷詞部分使用 Bigram、CKIP 和史丹 佛中文斷詞器並從斷詞的結果中取出頻率詞後加入對頻率詞分群及不分群的實驗,希望 在各種組合的情況下能找出最佳的方式以便取得更精確的主題關鍵字,各實驗定義如 下:

實驗一、 斷詞方式採用 Bigram,斷詞後將每一個字詞進行過濾,過濾條件為詞頻小於 2 或純數字,最後計算卡方值並取得前七組卡方值較高的關鍵字,經過合併關 鍵字後產生主題關鍵字。

實驗二、 斷詞方式採用 Bigram,斷詞後將每一個字詞進行過濾,過濾條件為詞頻小於 2 或純數字之後再加入分群條件,最後計算卡方值並取得前七組卡方值較高的 關鍵字,經過合併關鍵字後產生主題關鍵字。

實驗三、 斷詞方式採用 Bigram,斷詞後將每一個字詞進行過濾,過濾條件純數字之後 直接計算卡方值並取得前七組卡方值較高的關鍵字,經過合併關鍵字後產生 主題關鍵字。

實驗四、 斷詞方式採用 Bigram,斷詞後將每一個字詞進行過濾,過濾條件純數字之後 再加入分群的條件,最後計算卡方值並取得前七組卡方值較高的關鍵字,經 過合併關鍵字後產生主題關鍵字。

實驗五、 斷詞方式採用 CKIP,斷詞後將每一個字詞進行過濾,過濾條件為字串長度小 於 2 之後再加入分群的條件,最後計算卡方值並取得前七組卡方值較高的關 鍵字,經過合併關鍵字後產生主題關鍵字。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

實驗六、 斷詞方式採用史丹佛斷詞器,斷詞後將每一個字詞進行過濾,過濾條件為字 串長度小於 2 之後再加入分群的條件,最後計算卡方值並取得前七組卡方值 較高的關鍵字,經過合併關鍵字後產生主題關鍵字。

實驗七、 斷詞方式採用 CKIP,斷詞後將每一個字詞進行過濾,過濾條件為字串長度小 於 2,最後計算詞頻並取得前七組詞頻較高的關鍵字,經過合併關鍵字後產生 主題關鍵字。

實驗八、 斷詞方式採用史丹佛中文斷詞器,斷詞後將每一個字詞進行過濾,過濾條件 為字串長度小於 2,最後計算詞頻並取得前七組詞頻較高的關鍵字,經過合併 關鍵字後產生主題關鍵字。

實驗之目的除了比較 8 組實驗結果外,主要是證明本研究所提之方法的可行性與否,

在無任何詞庫與字典的支援下是否能達到令人滿意的結果,反之,使用字典斷詞又是否 能找出更多主題關鍵字。圖 2 和圖 3 為各實驗的流程圖。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

分群

計算分數 過濾 斷詞

單一中文文章 讀取文章檔案

實驗1

Bigram

詞頻小於2或純數字

卡方值計算

實驗2

Bigram

詞頻小於2或純數字

卡方值計算 MI&Jesen

實驗4

Bigram

卡方值計算 MI&Jesen 實驗3

Bigram

卡方值計算

取出前七個分數高 的關鍵字

純數字 純數字

圖 2、實驗設計架構圖(一)

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

分群

計算分數 過濾 斷詞

單一中文文章 讀取文章檔案

實驗5

CKIP

卡方值計算 MI&Jesen

實驗6 實驗7 實驗8

史丹佛中文斷詞器

卡方值計算 MI&Jesen

CKIP

詞頻計算

史丹佛中文斷詞器

詞頻計算

取出前七個分數高 的關鍵字

字串長度小於2 字串長度小於2 字串長度小於2 字串長度小於2

取出前七個TF最高 的關鍵字

圖 3、實驗設計架構圖(二)

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

相關文件