第五章 分析結果
第二節 階層式詞彙文本分群實證分析
5.2.2 文本歸類準確性與特徵的選取
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
太空、政黨團隊、教育、軍事戰爭。
從上述三個文本分群結果中,因TSSCI 文本數篇少僅 153 篇,因此在社群 網絡上鏈節情形無法確切表現語意間的關係,因此從分群結果看出分群群內的 關鍵詞語意上並非完全相似,仍有些噪音影響分群效果;美國專利詞彙眾多,
社群網絡架構完整,因此在分群上進行了四個階層,且從上述分析上可以看出 分群語意是相近的,但由於專利文本為技術型文本,群中的詞彙都與該技術領 域相關,因此仍需要專家為該技術做解讀;《人民日報》雖僅進行第一階分群,
但藉由核心詞彙的概念為每群做適當的命名,且由於該文本為報導型文本,用 詞簡單且文本描述的內容為我們熟知的中國歷史,因此從分群結果明顯地看出 本文分群方法確實將語意區分開。
圖 6-3 TSSCI 階層式分群示意圖
5.2.2 文本歸類準確性與特徵的選取
文本歸類透過階層式詞彙分群架構,每一階層中比較文本與哪一群最為相 似,依序層層將文本歸類至最底層的語意,並挑選文本標籤不均勻的語意集結 而成,做為該標籤的特徵,TSSCI 中文文本的階層式分群架構共 138 群,共有
‧
‧
magnitud、inductor 都為電晶體相關詞彙,但由於表中詞彙許多都為該技術的專 有詞彙,且經過詞幹化後更加難以解讀詞彙原本的詞義,因此較難以判別MEDITECK MERK Microsoft Toyota
特徵1 61% 0% 6% 8%
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
附表 5 為 1949 年建國前文本的關鍵詞與該 1 個語意的所有關鍵詞情形,
而這1 個語意底下共 76 個詞彙,有 72 個詞彙出現 1949 年建國前文本的關鍵 詞,而佔該文本底下的關鍵詞總數的29.49%,從表「1949 年建國前文本的關鍵 詞 - 1 群語意下的關鍵詞」中可看到大部分詞彙為國共內戰中出現的戰爭傷亡 詞彙,相較於「1949 年建國前文本的關鍵詞 – 非 1 群語意下的關鍵詞」 的詞 彙則不侷限於該時期使用,而是通用於各個年間的詞彙,因此以這1 個語意下 的關鍵詞代表該1949 年建國前的特徵是符合直覺的,而表 6-5 顯示 1949 年建 國前的文本有19%歸類在這 1 個語意下,斜對角線的數值也相對低,考量可能 是文本主題在各年間並沒有改變,僅是風格與用詞上的差異使得主題分類上本 身就無較明顯的區別,再加上由於文本數量龐大,然而僅以一層階層式網絡分 群,許多詞義並未被明顯分開,再加上該報導型文本相較於前兩個文本不同,
主題間的差異在此四個時期並無區分得如此明顯,例如幾乎每年都會談論各省 選舉的情形,因此選舉的主題將無法成為區隔這四個時期重要的特徵,因此導 致文本歸類情形並無其他兩個文本明顯。
表 6-5 人民日報文本分群結果
1949 年以前 1949 至 1965 1966 至 1978 1979 以後
特徵1 19% 1% 1% 0%
特徵2 0% 10% 0% 0%
特徵3 0% 1% 7% 0%
特徵4 0% 1% 0% 12%
無歸類 81% 87% 92% 88%