• 沒有找到結果。

第二章 文獻探討

第四節 文字探勘

立 政 治 大 學

Na tiona

l Ch engchi University

第四節 文字探勘

隨著科技及網路的進步,數位世界裡充斥著各式各樣的數位資料,一般人 電腦中會存在著大量的檔案,除了應用程式外,大多是記載各式資料的文件檔,

企業中也存在著各種不同的文件資料,如新聞、會議記錄、電子郵件…等,網 際網路上也存在著大量的數位資料,且大多以文字的方式儲存網頁資料、電子 書、資料庫、報告、數位新聞、研究文獻、產品資訊...等。這些文字資料中常 存在著大量的珍貴資訊,為了分析這些資訊並從中萃取出資料有用的資訊,資 料探勘的相關技術常被用於文字的處理及分析,這種資料探勘技術用來分析文 字資訊就稱為文字探勘(丁一賢、陳牧言,2005),文字探勘可以說是資料探勘 (Data Mining)的延伸(Fayyad & Simoudis, 1996)。

根據 Sullivan 定義文字探勘為一種編輯、組織及分析大量文件的方法和過 程,為了可提供特定使用者特定的資訊,以及發現特定資訊的特徵之間的關聯 (Sullivan, 2001)。文字探勘的技術還包含了不同領域的技術,如資料探勘、資訊 檢索、人工智慧、機器學習、統計…等技術,每個技術都是一個專門的領域,

且都有成熟的發展(黃孝文,2010)。而文字探勘則是利用這些技術從非結構或 半結構化的文字內容中萃取出未知、隱含的知識。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

13

4.1 文件表示法

在資訊檢索系統中,文件通常會將文件以最小單位"詞"的集合所組成,因 此文件會被做斷字斷詞的處理來得到詞的集合,文件集經過訓練後會得到字典 檔(所有文件集中文字的集合)。而文件通常由向量 d={w1, w2,.., w𝑛}表示,其意 義是旨被視為特徵的字詞出現在每篇文件的現象,此種表示法稱為 bag-of-word 或是向量空間模型(VSM)。其中w𝑖表示字典檔中的字詞在文件中的權重值,其 向量的維度則為字典檔中字詞的總數 。

文件集可由字詞文件矩陣表示,其中w𝑖𝑗表示字典中第 i 個字詞在第 j 篇文 件的權重,如圖 2-2 所示:

圖 2- 2 文件集向量

[資料來源: Salton and McGill,1983)]

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

4.2 布林模式

布林模式是由 Heap(1978)所提出,是資訊擷取的模式中最簡單的方式,主 要是以集合理論(Set Theory)和布林代數(Boolean Algebra)為基礎,布林模式是很 直覺的概念,通常能夠透過一些關鍵詞與邏輯運算元(Logical operators)所組成 的交集、聯集等布林語句,來表示使用者想檢索的資訊需求。在此模式中只關 心檢索文字是不是存在於同一份文件中,索引字詞的權重以 0 和 1 來表示,若 其權重值為 1 則表示此字詞存在於文件中,反之則表示此字詞不存在於文件中。

因此一個布林表示式的查詢能夠以分離標準形式(DNF)的方式來呈現(吳恩典,

2007)。以圖 2-3 為例,一查詢 q= k𝑎∩ ( k𝑏∪ ¬ k𝑐),其 DNF 為q𝑑𝑛𝑓=(1,1,1) ∩ (1,1,0) ∩ (1,0,0),每一個元素都是與(k𝑎, k𝑏, k𝑐)有關的二元權重向量,如果有一 篇文件d𝑗其 DNF 為 df=(0,1,0),表示這篇文件中含有字詞k𝑏,但是對於

q= k𝑎∩ ( k𝑏∪ ¬ k𝑐)的查詢式來說,d𝑗會被視為不相關的文件。

圖 2- 3 布林模式

[資料來源:吳恩典,2007]

布林模式的缺點是使用不是為 0 就是為 1 的二分法來表示文件,只關心字 詞是不是有出現於文件中,因此只能區分文件是否相關,字詞在文件中出現的 頻率並不會影響文件與查詢的相關程度,因此結果較不準確。

𝑘𝑎

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

15

4.3 向量模式

圖 2- 4 文件於向量模式表示方式 [資料來源:Salton,1975]

向量模式(Salton and Lesk, 1968)主要是為了彌補布林模式中二元權重的不 足而發展出的,能做到布林模式所無法做到的部分比對。向量模式中索引的字 詞並不是以 0 和 1 的二元的數值表示,而是以字詞在文件中權重的方式表示,

且此權重能被用來計算使用者查詢系統每篇文件的相似度,計算後以相似度對 文件做排序,則表示文章和使用者查詢的相關程度,就算文件只有部分符合使 用者查詢,還是會有相似度的值,因此和布林模式相較之下所能擷取的文件集 會有更大的彈性(吳恩典,2007)。

一篇文件可以透過文件向量方式表示,d𝑗=(𝑤1𝑗, 𝑤3𝑗, 𝑤3𝑗,…, 𝑤𝑡𝑗),其中𝑤𝑖𝑗 代表字詞𝑘𝑖於文件d𝑗中的權重,而查詢可以表示為𝑞=(𝑤1𝑞, 𝑤2𝑞, 𝑤3𝑞,…, 𝑤𝑡𝑞),同 樣,𝑤𝑖為字詞𝑘𝑖於查詢 q 中的權重值,t 則表示系統中索引字詞的總數量。因此 每一篇文件d𝑗及使用者查詢 q 皆會以 t 維向量表示,向量模式則能由計算此兩 向量所構成的 Cosine 夾角而得到使用者查詢與文件之間的相似度,計算公式如 下:

Cos

(

q, d𝑗

)=

d𝑗∗𝑞

|d𝑗|∗|𝑞|

...

(公式 1)

the,a,of,this…等字詞。因此通常w𝑖𝑗以及w𝑖𝑞的值會使用 tf-idf(Term Frequency and Inverse Document Frequency)來代表,其中 tf 視為單一文件內部的分布特性,可 以用來描述一篇文件對定義之索引項目的包含程度,也就是字詞在文件中出現

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

目前 Yahoo!的斷章取義及中央研究院 CKIP 中文詞知識庫小組所發展的中 文斷詞系統已有相當發展,除了基本的斷詞功能,此系統也對於未知詞做了人 名、譯名、複合詞等擷取動作,並對各個詞彙賦予詞性標籤,這些皆簡化了文 字探勘所需的前處理階段,尤其當我們使用新聞做為研究的對象時,新聞所出 現的未知詞也隨著時間不斷成長,因此使用這些現成的服務能簡化研究時所需 的中文斷詞作業,使我們能進一步對研究做出分析。

則中最經典的例子為啤酒與尿布規則(Berry and Linoff, 1997);探勘關聯規則的 演算法也是在上述的需求之下所產生出來的探勘方法(鐘明璇,2002)。

在探勘關聯規則的領域中,主要方法可以分為兩大類:(1)Apriori-like 的方 法產生 Candidate Set,並找出符合最小支持度的大項目集合(Large Itemsets),再 依據大項目期和產生關聯規則;(2)使用 Non Apriori-like 的方法找出大項目集合 (鐘明璇,2002)。

Apriori-like 的方法是以 Apriori 演算法為基礎所發展的相關方法,Apriori 演算法也是關聯規則探勘技術中,最早被提出且運作穩健的演算法。Apriori-like 的方法的特點是第一次的 Candidate Set(C1)是直接掃過一次資料庫而得到,而第 C𝑘(k>1)次產生方式都包含了兩個主要步驟:首先合併產生 Candidate Set,另一 則是將這些項目集合中,含有不是前一次作業的大項目集合者去除,再對所留 下來的 Candidate Set,計算支持度,去除不滿足最小支持度的項目集合後則得 到最後的大項目集合(鐘明璇,2002)。

相關文件