國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
23
五、文字探勘工具
文字探勘(Text Mining)係針對非結構化文件資料進行分析,所謂的非結構 化文件資料是指以自由形態方式呈現的自然語言內容,像是新聞、會議紀錄電子 郵件、手冊、公司章程等,其內容並無一定的格式,組成元件不容易明確切割、
命名,或須有特殊語法加以描述。Sullivan (2001)定義文字探勘為一種編輯、組 織及分析大量文件的過程,用以符合使用者的特定資訊需求及發現某些特徵間的 關聯,文件中的關鍵資訊包括人、事、時、地、物、關鍵字及關鍵概念階層。
文字探勘所面臨的技術挑戰是文件型資料的內容冗長,文件的特徵和屬性不 易明確的定義和界定。所以文字探勘需要龐大的人力篩選,以及對複雜的特徵和 屬性進行擷取,進行文字探勘工作常見的執行活動有中文斷詞、特徵擷取及向量 空間模型,將介紹如下:
1、中文斷詞
詞是自然語言處理上最基本的單位,所謂的詞是指語言學家所定義的「能夠 獨立運用,具有完整語意的最小語言成分」。英文的每個單字都可以成為詞,具 有自己的意義,且每個單字之間都有明顯的空白作為分隔,因此沒有詞法分析上 的困擾。相反的,中文在書寫時,詞與詞之間並不會以空白做為區分,也就是說,
單就文字的表現形式來看,中文並沒有詞這個單位。另外,中文詞並不像英文詞 一樣有時態或是單複數的變化,因此可能會發生同一個詞擔任不同語法功能時,
形式卻是完全相同的情況。
基於以上提到的特點,在進行中文斷詞時無法直接使用英文斷詞方式作為分 析基礎,應用上因而與英文斷詞有所差異,將正確的詞切割出來,就成為中文斷 詞系統的重要工作。很多與中文自然語言應用相關的研究,如文件檢索、中文輸 入、機器翻譯等,都需要利用斷詞系統作為前置處理器。主要是因為中文語義的 基本單位是詞而不是字,一般的電腦無法直接從文字上辨別出詞的意義,所以在 進行計算詞彙的權重之前,必須利用斷詞系統進行斷詞。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
24
中文斷詞系統的目的主要是對句子句法及語意進行初步分析,藉由分析過程,
電腦可辨識出文件中各關鍵字及片語所扮演的角色、句子的基本構造間的關係。
因此,好的斷詞系統的主要工作,就是把輸入的字串分隔成串,以便找出正確的 詞串,例如輸入的字串為“我昨天下午到電影院看電影”,理論上應該產生正確 的詞串為“我 昨天 下午 到 電影院 看 電影”,但也有可能產生不正確 的詞串為“我昨 天下午 到電影 院看電影”。因此,斷詞結果的正確性與完 整性及其效率,就顯得相當重要,因為斷詞系統效能的優劣將會影響到後續的處 理工作。
無論台灣或大陸地區,近幾年都開發出很多重要的資源,目前有些現有的斷 詞處理系統可供相關的研究者使用,較著名的有以下兩種系統:
(1) 中研院中文斷詞系統5
此系統由中央研究院詞庫小組(CKIP)開發,具有自動抽取新詞、建立領 域用詞及線上即時分詞的功能,為一具新詞辨識能力且附加詞類標記的選擇性功 能系統。分詞系統進行分詞並解決分詞歧義問題的依據主要為詞彙庫及定量詞、
重疊詞等構詞規律及線上辨識的新詞,除了基本詞彙庫外,使用者依據不同領域 文件,補充以領域詞典做為分詞之用。此系統含有五百萬個以上的詞彙,分類有 詞料分類、詞料選取、分類標準與詞類標記。詞類標記為選擇性功能,可附加文 本中切分詞的詞類解決詞類歧義並猜測新詞之詞類。總計 178 個詞類,經過簡化 後共有 46 個標記(表 2-1)。
5 詳見中研院斷詞系統網站 http://ckipsvr.iis.sinica.edu.tw/
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
25
表 2-1 中央研究院詞庫之簡化詞類標記集表
詞類標記 說明 詞類標記 說明
A 非謂形容詞 Nh 代名詞
Caa 對等連接詞,如:和、跟 I 感嘆詞
Cab 連接詞,如:等等 P 介詞
Cba 連接詞,如:的話 T 語助詞
Cbb 關聯連接詞 VA 動作不及物動詞
Da 數量副詞 VAC 動作使動動詞
Dfa 動詞前程度副詞 VB 動作類及物動詞
Dfb 動詞後程度副詞 VC 動作及物動詞
Di 時態標記 VCL 動作接地方賓語動詞
Dk 句副詞 VD 雙賓動詞
D 副詞 VE 動作句賓動詞
Na 普通名詞 VF 動作謂賓動詞
Nb 專有名稱 VG 分類動詞
Nc 地方詞 VH 狀態不及物動詞
Ncd 位置詞 VHC 狀態使動動詞
Nd 時間詞 VI 狀態類及物動詞
Neu 數詞定詞 VJ 狀態及物動詞
Nes 特指定詞 VK 狀態句賓動詞
Nep 指代定詞 VL 狀態謂賓動詞
Neqa 數量定詞 V_2 有
Neqb 後置數量定詞 DE 的,之,得,地
Nf 量詞 SHI 是
Ng 後置詞 FW 外文標記
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
26
(2) 漢語詞法分析系統
此系統由中國科學院計算技術研究所開發,耗時一年多研發出基多層隱碼 模型的漢語詞法分析系统(Institute of Computing Technology, Chinese Lexical Analysis System),此系統的分類功能有:中文分詞、詞性標註 (表 2-2)、未登 錄詞識別等。
表 2-2 中國科學院計算技術研究所之詞性標注標記集
詞類標記 說明 詞類標記 說明
Ag 形容詞性語素 ns 地名
a 形容詞 nt 機構團體
ad 直接作狀詞的行詞 nz 其他專名 an 具有名詞功能的形容詞 o 擬聲詞
b 區別詞 p 介詞
c 連詞 q 量詞
Dg 副詞性語素 r 代詞
d 副詞 s 處所詞
e 嘆詞 Tg 時間詞性語素
f 方位詞 t 時間詞
g 語素:絕大多數語素都能 Vg 動詞性語素。
作為合成詞的“詞根”。 v 動詞
u 助詞 vd 副動詞,直接作狀語的動詞
h 前接成分 vn 名動詞,具名詞功能的動詞。
i 成語 w 標點符號
j 簡稱略語 x 非語素字
k 後接成分 y 語氣詞
l 習用詞 z 狀態詞
m 數詞 n 名詞
Ng 名詞性語素 nr 人名
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
27
2、向量空間模型
向量空間模型(Vector Space Model , VSM)的概念最早是由 Salton (1983)所 提出的,由於概念相當簡單,所以為目前學者們常用的方法。基本上,空間向 量模型是一種由關鍵詞與文件所組成的向量空間,具有增強擷取的效能。
(1)向量表示法
Salton 認為,為了幫助檢索的進行,必須在檢索前對資訊本身進行分析。
這個分析的過程被稱為建立索引,索引的主要目的在表徵文件的內容,並給予 索引字詞一定的權重,以顯示該詞彙在文件中的重要價值。建立索引的方法為 針對系統中整體文件集合 D,找出一組屬性為(W1,W2,…,Wk),並在文件集合 D 中找出某一文件 Di 能有一組屬性值為(Wi1,Wi2,…,Wik),使得文件 Di 具有足夠 的資訊以代表文件集合 D。該組屬性值稱為文件 Di 的索引向量元素,即所謂的 權重。利用向量代表各個文件,不但可以清楚呈現各個文件間的關係,且彼此 間的相似度也較易計算,當文件意義相近時,可能會有很多相同的關鍵詞,若 利用向量空間作表達時,這些向量會較接近。圖 2-3 顯示三維度的向量空間模 型,向量模型的概念是將文件與索引關鍵詞都轉換成在相同高維空間中的向量,
以索引關鍵詞與文件中對應關鍵詞的權重來評估其相關性,而相關性即為計算 兩向量的夾角所求得的相似值。因此,空間中的每篇文件皆由三個不同的索引 關鍵詞(W1,W2,W3)所組成,文件依索引關鍵詞權重的不同,在空間中的位置亦 不同。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
28
圖 2- 3 空間向量模型
擴展三維度之向量空間,可以延伸至 n 個維度,且可利用「關鍵詞-文件矩 陣」的方式作為表達。圖 2-2 為一有 k 份文件集合與 i 個關鍵詞的「關鍵詞-文件矩陣」;其中,Wik為字詞 i 在文件 k 的權重。
W11 W12 … … W1i W21 W22 … … W2i
… … … … …
… … … … …
… … … … … Wk1 Wk2 … … Wki
圖 2- 4 關鍵詞-文件矩陣
(2)權重值計算
在一份文件集中,每個索引關鍵詞都代表空間中的一個維度,維度上的值 代表該文件在此維度上的重要程度,此值稱為該索引關鍵詞的權重值。而權重 值之計算方式則有,IDF(Inverse Document Frequency)加權模式、TF(Term Frequency)加權模式、TFIDF(Term Frequency / Inverse Document Frequency)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
29
加權模式及 TFITF(Term Frequency / Inverse Total Term Frequency)加權模式等。
TFIDF 加權模式是以相關性回饋(Relevance Feedback)演算法為基礎所提出 的一系列相關研究。TF 概念是 Salton 和 McGill (1983)提出的,而 IDF 概念則 是 Spark(1972)所提的。TFIDF 是為了進行特徵擷取所發展出的一個演算法,主 要用途在於幫助判斷詞在一份文件的重要性,藉由這個模式計算後可得到關鍵 詞的權重值,最後得到每份文件的詞鍵權重列表,也就是文件的向量。TFIDF 有兩個重要的組成部分,TF(Term Frequency;字頻)與 IDF(Inverse Document Frequency;反文件頻率),以下介紹其公式:
詞頻計算(TF):
詞頻計算為統計某一特定文字檔中,特定詞彙的次數,邏輯為若同一 個詞彙於一篇文章中出現越多次,則此詞彙越不重要。公式如下:
為詞彙 j 在文件 i 出現總數
為文件 i 中關鍵詞總數
逆向文件頻率(IDF):
逆向文件頻率是用來測驗一個詞彙之普遍重要性,邏輯為若同一個詞 彙於所有文章中出現越多次,則此詞彙越是重要。公式為:
N:文件總數。
:詞彙j 出現的文章總數。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
30
權重(Weight):
詞義在文件中的權重值,也可以說是其顯著值。當詞義出現在多份的 文件中時,則此項因子會修正其重要性。
= *
:即為詞義 j 在文件 i 中的權重值
(3)相似度計算
關鍵詞相似度是一個主觀性較強的概念,很難得到一個統一的定義,因為詞 彙間的關係複雜,相似與差異其實很難用一個簡單的數值衡量。從某一角度看,
兩詞語可能具有極高的相似度,但從另一角度看,相似度的差異可能就顯得非常 大。相似度是一個數值,值的範圍通常介於 0 與 1 之間。一個詞語本身的相似 度為 1。如果兩個詞語與其上下文完全無法互相替代,那麼兩詞語的相似度為 0。
當文件以向量空間模型呈現以後,就可利用相似度的計算公式計算文件或文
當文件以向量空間模型呈現以後,就可利用相似度的計算公式計算文件或文