TSSCI 關鍵詞篩選閥值與模型 - 分析結果 - 關鍵詞與階層式詞彙文本分群之應用

第五章分析結果

第一節 TSSCI 關鍵詞篩選閥值與模型

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

6 第五章分析結果

主題式文字分群議題中，本文以資料導向與社群網絡的概念設計的分析系統，在不借助詞網的情形下，本章探討在論文、報導與技術法律等三種不同寫作分隔下中英文文集分別的分析表現，第一節探討由已有關鍵詞標籤TSSCI 中英文本，在訓練關鍵詞閥值與模型的準確率，第二節實證分析則利用前一節的閥值與模型篩選美國專利與人民日報文集，並分別在階層式網絡架構下討論詞彙分群、命名與文本歸類結果。

第一節 TSSCI 關鍵詞篩選閥值與模型

美國專利與人民日報文本因事前沒有人工定義的關鍵詞彙，因此本文透過人工標籤關鍵詞的TSSCI 文本來訓練關鍵詞篩選的閥值與模型，將資料以模擬的方式將文本分成90%的訓練與 10%的測驗資料，利用測驗資料來檢驗是否有過度配適(overfitting)的狀況，其中中文文本訓練文本為 134 篇，測驗文本為 15 篇，而英文文本中訓練資料為48 篇，測驗資料為 5 篇。之後利用電腦模擬的方式重複多種閥值組合與訓練測驗文本的抽取，並挑選在哪一種閥值組合下，關鍵詞篩選的錯誤率最低，表 6-1 為 TF-IDF、本文方法與 SVM 三種機制的篩選結果。

在TF-IDF 方法中，根據圖 3-1 設置閥值以 0.01 為間隔由 0.01 至 0.5 共 50 個閥值情形，透過模擬，在中文本中最佳閥值都為0.04，訓練文本平均 F1 指標為74.21%，測驗文本平均 F1 指標為 73.33%，且在模擬下的標準誤數值低，代表此閥值的篩選穩定，且從各自的平均假陰性、假陽性數值知道TFI-IDF 方法對於論文類型的文本挑選關鍵詞結果均勻，並沒有在其中一個錯誤率有較大的偏差；在考量文章長度而設置五個閥值的本文方法，閥值的組合為Tf_cdf 以 0.05 為間距從 0.01 至 0.5，Idf_low 與 Idf_high 同以 0.02 為間距，分別從 0.2 至

‧

Idf_low 為 0.9、Idf_high 為 6、Tf_Order 為 2 且 Max_bag 為 50 的情形下，

TSSCI 中文文本訓練文本的平均 F1 值到達 76.03%，明顯高於 TF-IDF 篩選的結

根據模擬，在TF_cdf 為 0.5、Idf_low 為 0.3、Idf_high 為 6、Tf_Order 為 3 且Max_bag 為 60 的情形下，TSSCI 英文文本訓練文本的平均 F1 值到達

73.60%，還略低於 TF-IDF 的結果，儘管測驗資料的結果，本文方法平均 F1 值較高於TF-IDF 的平均 F1 值，但也僅能描述本文方法較穩定，而在其他錯誤率上同樣也是假陰性明顯高於假陽性，起差距幅度明顯大於TF-IDF，代表此方法

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

相較於TF-IDF 較能篩選出文章的關鍵詞彙，但卻有 35.87%的非關鍵詞認定為關鍵詞，而SVM 方法在訓練資料上，平均 F1 值都高於其他兩個方法 3%，但測驗資料中的正確率卻與其他二者相似，代表SVM 在英文文本中可能有局部過度訓練的狀況，對於後續美國專利的關鍵詞結果可能不會有76.02%的表現。

透過TSSCI 中英文本所訓練的閥值與模型，套用在美國專利與《人民日報》文本中，發現在TSSCI 文本訓練效果最好的 SVM 模型，在這兩個文本都有極高的假陽性錯誤率，每篇文章約有90%的詞彙的詞彙被認定為關鍵詞，這現象明顯違反直覺，因此認為SVM 方法在訓練時有明顯的局部過度配適情形，因此這兩個文本篩選關鍵詞時都採用本文方法，美國專利每篇平均篩選出 18 個關鍵詞，《人民日報》每篇平均篩選出 24 個關鍵詞。

從上述分析結果發現本文考慮文章長度所設置的五個閥值，在中文文本上確實可以降低文章長度造成的影響，且在假陰性、假陽性錯誤率上相對均勻，

然而在英文文本中，從以上分析並未發現英文文本受文章長度影響，TF-IDF 篩選的效果並未提升，且同樣都有假陰性過大、假陽性偏低的情形，在篩選關鍵詞時幾乎都為關鍵詞，但仍有大部分關鍵詞並未檢索出來，但由於英文文本長都為該期刊論文摘要，字數幅度不大，因此仍未能確定此為語言造成的差異。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 6-1 TSSCI 中文文本關鍵詞擷取之錯誤率比較

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 6-2 TSSCI 英文文本關鍵詞擷取之錯誤率比較

在文檔中關鍵詞與階層式詞彙文本分群之應用 - 政大學術集成 (頁 32-37)

TSSCI 關鍵詞篩選閥值與模型

第五章 分析結果

第一節 TSSCI 關鍵詞篩選閥值與模型

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

6 第五章 分析結果

第一節 TSSCI 關鍵詞篩選閥值與模型

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章分析結果

立政治大學

6 第五章分析結果

立政治大學

立政治大學

立政治大學