文本關鍵詞篩選

第三章研究方法

第二節文本關鍵詞篩選

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節文本關鍵詞篩選

中文文本在斷詞處理上使用結巴處理，並剔除單字而只留下多字詞的詞彙，因單字通常是文法修飾用途或是常用字，表 4-1 為人民日報經過結巴斷詞後最常出現的單字與非單字詞彙，可以看出非單字詞較能表現文章內容，因此在中文文本以非單字詞彙來做後續分析；英文前處理則是剔除數字與還原大小寫後，套用R 語言中的 Porter 演算法將詞彙詞幹化，簡化詞彙的複雜度，而在後續的分析與結果也將以詞幹化後的字符顯示。

文章關鍵詞篩選時使用TF-IDF 工具，並發現 TF-IDF 並非穩定，在長篇短篇文章的錯誤程度有明顯的不同，長篇文章挑選人民日報196112230107，內文請見附文 1，而 TF-IDF 分析結果為表 4-2; 短文文章挑選人民日報

200301180108，內文請見

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

附文 2，TF-IDF 分析結果為表 4-3，橘色代表 tf-idf 值為 0.025 以上，被評為關鍵詞之詞彙，從表 4-2 可以明顯發現 TF-IDF 只抓取到少許關鍵字，假陰性大，紅色標記為人工判讀應該要再加入的關鍵字，然而這其中又混雜著其他非相關的字，如：許多、他們; 而在表 4-3 可以看到閥值定為 0.025 造成過多的詞彙被評斷為關鍵字，以人工判讀而言，應當只需要有「藏族」、「選舉」這兩個關鍵詞，代表假陽性過大，綠色標記為人工判讀不應該加進的詞彙，使用 TSSCI 中文文本來看 TF-IDF 效果，從圖 4-1 最下方的圖可發現文本字數越多，假陰性的錯誤率越低，但假陽性越高的現象。

表 4-1 前十大單詞、非單詞

單詞非單詞

1 的 6 是 1 人民 6 生產

2 和 7 中 2 中國 7 國家

3 了 8 對 3 工作 8 他們

4 在 9 地 4 我們 9 建設

5 為 10 要 5 發展 10 革命

表 4-2 人民日報 196112230107 文本 TFIDF 分析結果

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

article word n tf idf tf_idf

1 196112230107.txt 工人 64 0.08121827 1.93834329 0.1574289 2 196112230107.txt 企業 18 0.02284264 1.72179018 0.03933023 3 196112230107.txt 骨幹 8 0.01015228 3.33974628 0.03390605 4 196112230107.txt 技術 13 0.01649746 1.6046248 0.02647224 5 196112230107.txt 作用 9 0.01142132 1.7515178 0.02000464 6 196112230107.txt 設備 6 0.00761421 2.6090695 0.01986601 7 196112230107.txt 熟練 3 0.00380711 5.09306333 0.01938983 8 196112230107.txt 落後 5 0.00634518 2.98174479 0.0189197 9 196112230107.txt 產品 6 0.00761421 2.33633883 0.01778938 10 196112230107.txt 機器 4 0.00507614 3.42733247 0.01739763 11 196112230107.txt 生產 12 0.01522843 1.14006651 0.01736142 12 196112230107.txt 尊敬 3 0.00380711 4.46656557 0.01700469 13 196112230107.txt 保守 3 0.00380711 4.46396817 0.0169948 14 196112230107.txt 老師傅 2 0.00253807 6.52668906 0.0165652 15 196112230107.txt 許多 9 0.01142132 1.43717343 0.01641442 16 196112230107.txt 工人階級 4 0.00507614 3.21733848 0.01633167 17 196112230107.txt 他們 14 0.0177665 0.91523821 0.01626058 18 196112230107.txt 多多 2 0.00253807 6.32834017 0.01606178 19 196112230107.txt 消耗 3 0.00380711 4.13811352 0.01575424 20 196112230107.txt 關心 5 0.00634518 2.46054453 0.01561259 21 196112230107.txt 愛護 3 0.00380711 4.02366521 0.01531852

表 4-3 人民日報 200301180108 文本 TFIDF 分析結果

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4-1 TSSCI 中文文本使用 TF-IDF 關鍵詞篩選下錯誤情形

考量到文章長度對於檢索關鍵詞效果的影響，本文在關鍵詞檢索上提出以下五個指標，試圖去調和字數所造成的影響：

1. Tf_cdf : 累積詞頻 2. Idf_low : idf 的最小值 3. Idf_high : idf 的最大值 4. Tf_Order : 最高詞頻前幾名 5. Max_bag : 最多關鍵詞數量

Tf_cdf 考量文章長度，將詞彙在文章出現的頻率排序並計算累積機率密度值(Cumulative Distribution Function)，挑選多少比率以上的高頻率詞彙視做關鍵詞候選人，因此越長的文章挑選的關鍵詞候選人越多，Idf_low、Idf_high 則是參考圖 4-1 中間的圖，發現並非 Idf 越大對於整體關鍵詞檢索效果就會越好，

反而會造成較高的假陽性，因此透過界定一個範圍縮減關鍵詞候選人的數量，

‧

Tf_Order 則是考量到文本特性，如專利文本中詞頻最高的基本上都是關鍵詞，

因此為了確保這些詞彙可以被納入後續分析，因此設定這個參數，使得前幾名

在文檔中關鍵詞與階層式詞彙文本分群之應用 - 政大學術集成 (頁 21-25)

第三章 研究方法

第二節 文本關鍵詞篩選

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 文本關鍵詞篩選

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第三章研究方法

第二節文本關鍵詞篩選

立政治大學

第二節文本關鍵詞篩選

立政治大學

立政治大學

立政治大學