• 沒有找到結果。

文本歸類準確性與特徵的選取

第五章 分析結果

第二節 階層式詞彙文本分群實證分析

5.2.2 文本歸類準確性與特徵的選取

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

太空、政黨團隊、教育、軍事戰爭。

從上述三個文本分群結果中,因TSSCI 文本數篇少僅 153 篇,因此在社群 網絡上鏈節情形無法確切表現語意間的關係,因此從分群結果看出分群群內的 關鍵詞語意上並非完全相似,仍有些噪音影響分群效果;美國專利詞彙眾多,

社群網絡架構完整,因此在分群上進行了四個階層,且從上述分析上可以看出 分群語意是相近的,但由於專利文本為技術型文本,群中的詞彙都與該技術領 域相關,因此仍需要專家為該技術做解讀;《人民日報》雖僅進行第一階分群,

但藉由核心詞彙的概念為每群做適當的命名,且由於該文本為報導型文本,用 詞簡單且文本描述的內容為我們熟知的中國歷史,因此從分群結果明顯地看出 本文分群方法確實將語意區分開。

圖 6-3 TSSCI 階層式分群示意圖

5.2.2 文本歸類準確性與特徵的選取

文本歸類透過階層式詞彙分群架構,每一階層中比較文本與哪一群最為相 似,依序層層將文本歸類至最底層的語意,並挑選文本標籤不均勻的語意集結 而成,做為該標籤的特徵,TSSCI 中文文本的階層式分群架構共 138 群,共有

magnitud、inductor 都為電晶體相關詞彙,但由於表中詞彙許多都為該技術的專 有詞彙,且經過詞幹化後更加難以解讀詞彙原本的詞義,因此較難以判別

MEDITECK MERK Microsoft Toyota

特徵1 61% 0% 6% 8%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

附表 5 為 1949 年建國前文本的關鍵詞與該 1 個語意的所有關鍵詞情形,

而這1 個語意底下共 76 個詞彙,有 72 個詞彙出現 1949 年建國前文本的關鍵 詞,而佔該文本底下的關鍵詞總數的29.49%,從表「1949 年建國前文本的關鍵 詞 - 1 群語意下的關鍵詞」中可看到大部分詞彙為國共內戰中出現的戰爭傷亡 詞彙,相較於「1949 年建國前文本的關鍵詞 – 非 1 群語意下的關鍵詞」 的詞 彙則不侷限於該時期使用,而是通用於各個年間的詞彙,因此以這1 個語意下 的關鍵詞代表該1949 年建國前的特徵是符合直覺的,而表 6-5 顯示 1949 年建 國前的文本有19%歸類在這 1 個語意下,斜對角線的數值也相對低,考量可能 是文本主題在各年間並沒有改變,僅是風格與用詞上的差異使得主題分類上本 身就無較明顯的區別,再加上由於文本數量龐大,然而僅以一層階層式網絡分 群,許多詞義並未被明顯分開,再加上該報導型文本相較於前兩個文本不同,

主題間的差異在此四個時期並無區分得如此明顯,例如幾乎每年都會談論各省 選舉的情形,因此選舉的主題將無法成為區隔這四個時期重要的特徵,因此導 致文本歸類情形並無其他兩個文本明顯。

表 6-5 人民日報文本分群結果

1949 年以前 1949 至 1965 1966 至 1978 1979 以後

特徵1 19% 1% 1% 0%

特徵2 0% 10% 0% 0%

特徵3 0% 1% 7% 0%

特徵4 0% 1% 0% 12%

無歸類 81% 87% 92% 88%

易受到不同文本的影響(亦即data dependent)而在英文文本中 TF-IDF 對於文 章長短無篩選不穩定的情形,因此本文的關鍵詞篩選方法並未顯著降低篩選錯 誤率。然而關鍵詞篩選的效果儘管提升,但仍然從後續社群網絡的結果發現關 鍵詞的錯誤篩選所造成詞彙分群與文章歸類的噪音,使得本來應該明顯分類的 四間公司的專利文本,分類準確率僅有約八成左右。

相關文件