國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
19
第五節 文字探勘工具
Sullivan(2001)定義文字探勘(Text Mining)為一種編輯、組織及分析大 量文件的過程,用以符合使用者的特定資訊需求及發現某些特徵間的關聯,文件 中的關鍵資訊包括人、事、時、地、物、關鍵字及關鍵概念階層。因文件型資料 的內容冗長,文件的特徵和屬性不易明確的定義和界定。所以文字探勘需要龐大 的人力篩選,以及對複雜的特徵和屬性進行擷取,進行文字探勘工作較常見的執 行活動有中文斷詞、特徵擷取及向量空間模型。
詞是自然語言處理上最基本的單位,所謂的詞是指語言學家所定義的「能夠 獨立運用,具有完整語意的最小語言成分」。在進行中文斷詞時無法直接使用英 文斷詞方式作為分析基礎,因英文的每個單字都可以成為詞,具有自己的意義,
且每個單字之間都有明顯的空白作為分隔,沒有詞法分析上的困擾。而中文在書 寫時,詞與詞之間並不會以空白做為區分,也就是說,單就文字的表現形式來看,
中文並沒有詞這個單位,且中文詞並不像英文詞一樣有時態或是單複數的變化,
可能會發生同一個詞擔任不同語法功能時,形式卻是完全相同的情況。因此,如 何將正確的詞切割出來,就成為中文斷詞系統的重要工作。中文斷詞系統的目的 主要是對句子句法及語意進行初步分析,藉由分析過程,電腦可辨識出文件中各 關鍵字及片語所扮演的角色、句子的基本構造間的關係。並將輸入的字串分隔成 串,以便找出正確的詞串,例如輸入的字串為“我昨天下午到電影院看電影”,理 論上應該產生正確的詞串為“我;昨天;下午;到;電影院;看;電影”,但也有 可能產生不正確的詞串為“我昨;天下午;到電影;院看電影”。因此,斷詞結果 的正確性與完整性及其效率,就顯得相當重要,因為斷詞系統效能的優劣將會影 響到後續的處理工作。
無論台灣或大陸地區,近幾年都開發出很多重要的資源,目前有些現有的斷 詞處理系統可供相關的研究者使用,較著名的有中研院中文斷詞系統和漢語詞法 分析系統。
‧
‧
多層隱碼模型的漢語詞法分析系统(Institute of Computing Technology, Chinese Lexical Analysis System),此系統的分類功能有:中文分詞、詞性標註、未登錄 詞識別等,關於詞性標註集如表 2-2。‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
22
立索引的方法為針對系統中整體文件集合 D,找出一組屬性為(W1,W2,…,Wk),
並在文件集合 D 中找出某一文件 Di 能有一組屬性值為(Wi1,Wi2,…,Wik),使得 文件 Di 具有足夠的資訊以代表文件集合 D。該組屬性值稱為文件 Di 的索引向量 元素,即所謂的權重。利用向量代表各個文件,不但可以清楚呈現各個文件間的 關係,且彼此間的相似度也較易計算,當文件意義相近時,可能會有很多相同的 關鍵詞,若利用向量空間作表達時,這些向量會較接近。
在一份文件集中,每個索引關鍵詞都代表空間中的一個維度,維度上的值代 表該文件在此維度上的重要程度,此值稱為該索引關鍵詞的權重值。而權重值之 計算方式則有,IDF(Inverse Document Frequency)加權模式、TF(Term Frequency)
加權模式、TFIDF(Term Frequency / Inverse Document Frequency)加權模式及 TFITF(Term Frequency / Inverse Total Term Frequency)加權模式等。
IDF 概念由 Spark(1972)提出,TF 概念則是 Salton and McGill (1983)所提,至 於 TFIDF 加權模式是以相關性回饋(Relevance Feedback)演算法為基礎所提出的 一系列相關研究,為了進行特徵擷取所發展出的一個演算法,有兩個重要的組成 部分,TF(Term Frequency;詞頻)與 IDF(Inverse Document Frequency;逆向文件 頻率),主要用途在於幫助判斷詞在一份文件的重要性,藉由這個模式計算後可 得到關鍵詞的權重值,最後得到每份文件的詞鍵權重列表,也就是文件的向量。
詞頻計算(TF)為統計某一特定文字檔中,特定詞彙的次數,邏輯為若同一個 詞彙於一篇文章中出現越多次,則此詞彙越不重要。公式如下:
為詞彙 j 在文件 i 出現總數
為文件 i 中關鍵詞總數
逆向文件頻率(IDF)是用來測驗一個詞彙之普遍重要性,邏輯為若同一個詞 彙於所有文章中出現越多次,則此詞彙越是重要。公式為:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
23
N:文件總數。
:詞彙j 出現的文章總數。
計算出詞頻與逆向文件頻率後,可計算出詞義在文件中的權重值(Weight),
也可說是其顯著值。當詞義出現在多份的文件中時,則此項因子會修正其重要 性。
= *
:即為詞義 j 在文件 i 中的權重值
關鍵詞相似度是一個主觀性較強的概念,很難得到一個統一的定義,因為詞 彙間的關係複雜,相似與差異其實很難用一個簡單的數值衡量。從某一角度看,
兩詞語可能具有極高的相似度,但從另一角度看,相似度的差異可能就顯得非常 大。相似度是一個數值,值的範圍通常介於 0 與 1 之間。一個詞語本身的相似度
為 1。如果兩個詞語與其上下文完全無法互相替代,那麼兩詞語的相似度為 0。
當文件以向量空間模型呈現以後,就可利用相似度的計算公式計算文件或文 句間的相似度,更明確的表達詞彙間的關係。本研究採用 Cosine 係數計算 (Salton ,1988),其概念是要計算代表兩文件的向量夾角,夾角越小表示兩文件越 相似。公式如下:
|X∩Y| / 或
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
24
第參章 研究設計
本章共分成四節:第一節推導出本文之研究假說、第二節為本研究之研究方 法介紹、第三節為研究模型之建立、第四節詳細的定義了研究模型所使用的變數 以及變數衡量方法、第五節說明本研究所使用的樣本及資料蒐集的方式。