• 沒有找到結果。

TSSCI 關鍵詞篩選閥值與模型

第五章 分析結果

第一節 TSSCI 關鍵詞篩選閥值與模型

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6 第五章 分析結果

主題式文字分群議題中,本文以資料導向與社群網絡的概念設計的分析系 統,在不借助詞網的情形下,本章探討在論文、報導與技術法律等三種不同寫 作分隔下中英文文集分別的分析表現,第一節探討由已有關鍵詞標籤TSSCI 中 英文本,在訓練關鍵詞閥值與模型的準確率,第二節實證分析則利用前一節的 閥值與模型篩選美國專利與人民日報文集,並分別在階層式網絡架構下討論詞 彙分群、命名與文本歸類結果。

第一節 TSSCI 關鍵詞篩選閥值與模型

美國專利與人民日報文本因事前沒有人工定義的關鍵詞彙,因此本文透過 人工標籤關鍵詞的TSSCI 文本來訓練關鍵詞篩選的閥值與模型,將資料以模擬 的方式將文本分成90%的訓練與 10%的測驗資料,利用測驗資料來檢驗是否有 過度配適(overfitting)的狀況,其中中文文本訓練文本為 134 篇,測驗文本為 15 篇,而英文文本中訓練資料為48 篇,測驗資料為 5 篇。之後利用電腦模擬的方 式重複多種閥值組合與訓練測驗文本的抽取,並挑選在哪一種閥值組合下,關 鍵詞篩選的錯誤率最低,表 6-1 為 TF-IDF、本文方法與 SVM 三種機制的篩選 結果。

在TF-IDF 方法中,根據圖 3-1 設置閥值以 0.01 為間隔由 0.01 至 0.5 共 50 個閥值情形,透過模擬,在中文本中最佳閥值都為0.04,訓練文本平均 F1 指標 為74.21%,測驗文本平均 F1 指標為 73.33%,且在模擬下的標準誤數值低,代 表此閥值的篩選穩定,且從各自的平均假陰性、假陽性數值知道TFI-IDF 方法 對於論文類型的文本挑選關鍵詞結果均勻,並沒有在其中一個錯誤率有較大的 偏差;在考量文章長度而設置五個閥值的本文方法,閥值的組合為Tf_cdf 以 0.05 為間距從 0.01 至 0.5,Idf_low 與 Idf_high 同以 0.02 為間距,分別從 0.2 至

Idf_low 為 0.9、Idf_high 為 6、Tf_Order 為 2 且 Max_bag 為 50 的情形下,

TSSCI 中文文本訓練文本的平均 F1 值到達 76.03%,明顯高於 TF-IDF 篩選的結

根據模擬,在TF_cdf 為 0.5、Idf_low 為 0.3、Idf_high 為 6、Tf_Order 為 3 且Max_bag 為 60 的情形下,TSSCI 英文文本訓練文本的平均 F1 值到達

73.60%,還略低於 TF-IDF 的結果,儘管測驗資料的結果,本文方法平均 F1 值 較高於TF-IDF 的平均 F1 值,但也僅能描述本文方法較穩定,而在其他錯誤率 上同樣也是假陰性明顯高於假陽性,起差距幅度明顯大於TF-IDF,代表此方法

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相較於TF-IDF 較能篩選出文章的關鍵詞彙,但卻有 35.87%的非關鍵詞認定為 關鍵詞,而SVM 方法在訓練資料上,平均 F1 值都高於其他兩個方法 3%,但 測驗資料中的正確率卻與其他二者相似,代表SVM 在英文文本中可能有局部 過度訓練的狀況,對於後續美國專利的關鍵詞結果可能不會有76.02%的表現。

透過TSSCI 中英文本所訓練的閥值與模型,套用在美國專利與《人民日 報》文本中,發現在TSSCI 文本訓練效果最好的 SVM 模型,在這兩個文本都 有極高的假陽性錯誤率,每篇文章約有90%的詞彙的詞彙被認定為關鍵詞,這 現象明顯違反直覺,因此認為SVM 方法在訓練時有明顯的局部過度配適情 形,因此這兩個文本篩選關鍵詞時都採用本文方法,美國專利每篇平均篩選出 18 個關鍵詞,《人民日報》每篇平均篩選出 24 個關鍵詞。

從上述分析結果發現本文考慮文章長度所設置的五個閥值,在中文文本上 確實可以降低文章長度造成的影響,且在假陰性、假陽性錯誤率上相對均勻,

然而在英文文本中,從以上分析並未發現英文文本受文章長度影響,TF-IDF 篩 選的效果並未提升,且同樣都有假陰性過大、假陽性偏低的情形,在篩選關鍵 詞時幾乎都為關鍵詞,但仍有大部分關鍵詞並未檢索出來,但由於英文文本長 都為該期刊論文摘要,字數幅度不大,因此仍未能確定此為語言造成的差異。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 6-1 TSSCI 中文文本關鍵詞擷取之錯誤率比較

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 6-2 TSSCI 英文文本關鍵詞擷取之錯誤率比較

相關文件