文本歸類準確性與特徵的選取

第五章分析結果

第二節階層式詞彙文本分群實證分析

5.2.2 文本歸類準確性與特徵的選取

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

太空、政黨團隊、教育、軍事戰爭。

從上述三個文本分群結果中，因TSSCI 文本數篇少僅 153 篇，因此在社群網絡上鏈節情形無法確切表現語意間的關係，因此從分群結果看出分群群內的關鍵詞語意上並非完全相似，仍有些噪音影響分群效果；美國專利詞彙眾多，

社群網絡架構完整，因此在分群上進行了四個階層，且從上述分析上可以看出分群語意是相近的，但由於專利文本為技術型文本，群中的詞彙都與該技術領域相關，因此仍需要專家為該技術做解讀；《人民日報》雖僅進行第一階分群，

但藉由核心詞彙的概念為每群做適當的命名，且由於該文本為報導型文本，用詞簡單且文本描述的內容為我們熟知的中國歷史，因此從分群結果明顯地看出本文分群方法確實將語意區分開。

圖 6-3 TSSCI 階層式分群示意圖

5.2.2 文本歸類準確性與特徵的選取

文本歸類透過階層式詞彙分群架構，每一階層中比較文本與哪一群最為相似，依序層層將文本歸類至最底層的語意，並挑選文本標籤不均勻的語意集結而成，做為該標籤的特徵，TSSCI 中文文本的階層式分群架構共 138 群，共有

‧

magnitud、inductor 都為電晶體相關詞彙，但由於表中詞彙許多都為該技術的專有詞彙，且經過詞幹化後更加難以解讀詞彙原本的詞義，因此較難以判別

MEDITECK MERK Microsoft Toyota

特徵1 61% 0% 6% 8%

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

附表 5 為 1949 年建國前文本的關鍵詞與該 1 個語意的所有關鍵詞情形，

而這1 個語意底下共 76 個詞彙，有 72 個詞彙出現 1949 年建國前文本的關鍵詞，而佔該文本底下的關鍵詞總數的29.49%，從表「1949 年建國前文本的關鍵詞 - 1 群語意下的關鍵詞」中可看到大部分詞彙為國共內戰中出現的戰爭傷亡詞彙，相較於「1949 年建國前文本的關鍵詞 – 非 1 群語意下的關鍵詞」的詞彙則不侷限於該時期使用，而是通用於各個年間的詞彙，因此以這1 個語意下的關鍵詞代表該1949 年建國前的特徵是符合直覺的，而表 6-5 顯示 1949 年建國前的文本有19%歸類在這 1 個語意下，斜對角線的數值也相對低，考量可能是文本主題在各年間並沒有改變，僅是風格與用詞上的差異使得主題分類上本身就無較明顯的區別，再加上由於文本數量龐大，然而僅以一層階層式網絡分群，許多詞義並未被明顯分開，再加上該報導型文本相較於前兩個文本不同，

主題間的差異在此四個時期並無區分得如此明顯，例如幾乎每年都會談論各省選舉的情形，因此選舉的主題將無法成為區隔這四個時期重要的特徵，因此導致文本歸類情形並無其他兩個文本明顯。

表 6-5 人民日報文本分群結果

1949 年以前 1949 至 1965 1966 至 1978 1979 以後

特徵1 19% 1% 1% 0%

特徵2 0% 10% 0% 0%

特徵3 0% 1% 7% 0%

特徵4 0% 1% 0% 12%

無歸類 81% 87% 92% 88%

‧

易受到不同文本的影響（亦即data dependent）而在英文文本中 TF-IDF 對於文章長短無篩選不穩定的情形，因此本文的關鍵詞篩選方法並未顯著降低篩選錯誤率。然而關鍵詞篩選的效果儘管提升，但仍然從後續社群網絡的結果發現關鍵詞的錯誤篩選所造成詞彙分群與文章歸類的噪音，使得本來應該明顯分類的四間公司的專利文本，分類準確率僅有約八成左右。

在文檔中關鍵詞與階層式詞彙文本分群之應用 - 政大學術集成 (頁 39-43)

第五章 分析結果

第二節 階層式詞彙文本分群實證分析

5.2.2 文本歸類準確性與特徵的選取

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第五章分析結果

第二節階層式詞彙文本分群實證分析

立政治大學

立政治大學