• 沒有找到結果。

第三章 研究方法

第二節 文本關鍵詞篩選

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二節 文本關鍵詞篩選

中文文本在斷詞處理上使用結巴處理,並剔除單字而只留下多字詞的詞 彙, 因單字通常是文法修飾用途或是常用字,表 4-1 為人民日報經過結巴斷詞 後最常出現的單字與非單字詞彙,可以看出非單字詞較能表現文章內容,因此 在中文文本以非單字詞彙來做後續分析;英文前處理則是剔除數字與還原大小 寫後,套用R 語言中的 Porter 演算法將詞彙詞幹化,簡化詞彙的複雜度,而在 後續的分析與結果也將以詞幹化後的字符顯示。

文章關鍵詞篩選時使用TF-IDF 工具,並發現 TF-IDF 並非穩定,在長篇短 篇文章的錯誤程度有明顯的不同,長篇文章挑選人民日報196112230107,內文 請見附文 1,而 TF-IDF 分析結果為表 4-2; 短文文章挑選人民日報

200301180108,內文請見

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

附文 2,TF-IDF 分析結果為表 4-3,橘色代表 tf-idf 值為 0.025 以上,被評 為關鍵詞之詞彙,從表 4-2 可以明顯發現 TF-IDF 只抓取到少許關鍵字,假陰 性大,紅色標記為人工判讀應該要再加入的關鍵字,然而這其中又混雜著其他 非相關的字,如:許多、他們; 而在表 4-3 可以看到閥值定為 0.025 造成過多 的詞彙被評斷為關鍵字,以人工判讀而言,應當只需要有「藏族」、「選舉」這 兩個關鍵詞,代表假陽性過大,綠色標記為人工判讀不應該加進的詞彙,使用 TSSCI 中文文本來看 TF-IDF 效果,從圖 4-1 最下方的圖可發現文本字數越 多,假陰性的錯誤率越低,但假陽性越高的現象。

表 4-1 前十大單詞、非單詞

單詞 非單詞

1 的 6 是 1 人民 6 生產

2 和 7 中 2 中國 7 國家

3 了 8 對 3 工作 8 他們

4 在 9 地 4 我們 9 建設

5 為 10 要 5 發展 10 革命

表 4-2 人民日報 196112230107 文本 TFIDF 分析結果

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

article word n tf idf tf_idf

1 196112230107.txt 工人 64 0.08121827 1.93834329 0.1574289 2 196112230107.txt 企業 18 0.02284264 1.72179018 0.03933023 3 196112230107.txt 骨幹 8 0.01015228 3.33974628 0.03390605 4 196112230107.txt 技術 13 0.01649746 1.6046248 0.02647224 5 196112230107.txt 作用 9 0.01142132 1.7515178 0.02000464 6 196112230107.txt 設備 6 0.00761421 2.6090695 0.01986601 7 196112230107.txt 熟練 3 0.00380711 5.09306333 0.01938983 8 196112230107.txt 落後 5 0.00634518 2.98174479 0.0189197 9 196112230107.txt 產品 6 0.00761421 2.33633883 0.01778938 10 196112230107.txt 機器 4 0.00507614 3.42733247 0.01739763 11 196112230107.txt 生產 12 0.01522843 1.14006651 0.01736142 12 196112230107.txt 尊敬 3 0.00380711 4.46656557 0.01700469 13 196112230107.txt 保守 3 0.00380711 4.46396817 0.0169948 14 196112230107.txt 老師傅 2 0.00253807 6.52668906 0.0165652 15 196112230107.txt 許多 9 0.01142132 1.43717343 0.01641442 16 196112230107.txt 工人階級 4 0.00507614 3.21733848 0.01633167 17 196112230107.txt 他們 14 0.0177665 0.91523821 0.01626058 18 196112230107.txt 多多 2 0.00253807 6.32834017 0.01606178 19 196112230107.txt 消耗 3 0.00380711 4.13811352 0.01575424 20 196112230107.txt 關心 5 0.00634518 2.46054453 0.01561259 21 196112230107.txt 愛護 3 0.00380711 4.02366521 0.01531852

表 4-3 人民日報 200301180108 文本 TFIDF 分析結果

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4-1 TSSCI 中文文本使用 TF-IDF 關鍵詞篩選下錯誤情形

考量到文章長度對於檢索關鍵詞效果的影響,本文在關鍵詞檢索上提出以 下五個指標,試圖去調和字數所造成的影響:

1. Tf_cdf : 累積詞頻 2. Idf_low : idf 的最小值 3. Idf_high : idf 的最大值 4. Tf_Order : 最高詞頻前幾名 5. Max_bag : 最多關鍵詞數量

Tf_cdf 考量文章長度,將詞彙在文章出現的頻率排序並計算累積機率密度 值(Cumulative Distribution Function),挑選多少比率以上的高頻率詞彙視做關鍵 詞候選人,因此越長的文章挑選的關鍵詞候選人越多,Idf_low、Idf_high 則是 參考圖 4-1 中間的圖,發現並非 Idf 越大對於整體關鍵詞檢索效果就會越好,

反而會造成較高的假陽性,因此透過界定一個範圍縮減關鍵詞候選人的數量,

Tf_Order 則是考量到文本特性,如專利文本中詞頻最高的基本上都是關鍵詞,

因此為了確保這些詞彙可以被納入後續分析,因此設定這個參數,使得前幾名

相關文件