文字探勘 - 文獻探討 - 應用文件探勘技術於概念股股價共同移動之研究

第二章文獻探討

第四節文字探勘

國

立政治大學

‧

Na tiona

l Ch engchi University

第四節文字探勘

隨著科技及網路的進步，數位世界裡充斥著各式各樣的數位資料，一般人電腦中會存在著大量的檔案，除了應用程式外，大多是記載各式資料的文件檔，

企業中也存在著各種不同的文件資料，如新聞、會議記錄、電子郵件…等，網際網路上也存在著大量的數位資料，且大多以文字的方式儲存網頁資料、電子書、資料庫、報告、數位新聞、研究文獻、產品資訊...等。這些文字資料中常存在著大量的珍貴資訊，為了分析這些資訊並從中萃取出資料有用的資訊，資料探勘的相關技術常被用於文字的處理及分析，這種資料探勘技術用來分析文字資訊就稱為文字探勘(丁一賢、陳牧言，2005)，文字探勘可以說是資料探勘 (Data Mining)的延伸(Fayyad & Simoudis, 1996)。

根據 Sullivan 定義文字探勘為一種編輯、組織及分析大量文件的方法和過程，為了可提供特定使用者特定的資訊，以及發現特定資訊的特徵之間的關聯 (Sullivan, 2001)。文字探勘的技術還包含了不同領域的技術，如資料探勘、資訊檢索、人工智慧、機器學習、統計…等技術，每個技術都是一個專門的領域，

且都有成熟的發展(黃孝文，2010)。而文字探勘則是利用這些技術從非結構或半結構化的文字內容中萃取出未知、隱含的知識。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

4.1 文件表示法

在資訊檢索系統中，文件通常會將文件以最小單位"詞"的集合所組成，因此文件會被做斷字斷詞的處理來得到詞的集合，文件集經過訓練後會得到字典檔(所有文件集中文字的集合)。而文件通常由向量 d={w₁, w₂,.., w_𝑛}表示，其意義是旨被視為特徵的字詞出現在每篇文件的現象，此種表示法稱為 bag-of-word 或是向量空間模型(VSM)。其中w_𝑖表示字典檔中的字詞在文件中的權重值，其向量的維度則為字典檔中字詞的總數。

文件集可由字詞文件矩陣表示，其中w_𝑖𝑗表示字典中第 i 個字詞在第 j 篇文件的權重，如圖 2-2 所示：

圖 2- 2 文件集向量

[資料來源: Salton and McGill,1983)]

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

4.2 布林模式

布林模式是由 Heap(1978)所提出，是資訊擷取的模式中最簡單的方式，主要是以集合理論(Set Theory)和布林代數(Boolean Algebra)為基礎，布林模式是很直覺的概念，通常能夠透過一些關鍵詞與邏輯運算元(Logical operators)所組成的交集、聯集等布林語句，來表示使用者想檢索的資訊需求。在此模式中只關心檢索文字是不是存在於同一份文件中，索引字詞的權重以 0 和 1 來表示，若其權重值為 1 則表示此字詞存在於文件中，反之則表示此字詞不存在於文件中。

因此一個布林表示式的查詢能夠以分離標準形式(DNF)的方式來呈現(吳恩典，

2007)。以圖 2-3 為例，一查詢 q= k_𝑎∩ ( k_𝑏∪ ¬ k_𝑐)，其 DNF 為q_𝑑𝑛𝑓=(1,1,1) ∩ (1,1,0) ∩ (1,0,0)，每一個元素都是與(k_𝑎, k_𝑏, k_𝑐)有關的二元權重向量，如果有一篇文件d_𝑗其 DNF 為 df=(0,1,0)，表示這篇文件中含有字詞k_𝑏，但是對於

q= k_𝑎∩ ( k_𝑏∪ ¬ k_𝑐)的查詢式來說，d_𝑗會被視為不相關的文件。

圖 2- 3 布林模式

[資料來源:吳恩典，2007]

布林模式的缺點是使用不是為 0 就是為 1 的二分法來表示文件，只關心字詞是不是有出現於文件中，因此只能區分文件是否相關，字詞在文件中出現的頻率並不會影響文件與查詢的相關程度，因此結果較不準確。

𝑘_𝑎

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

4.3 向量模式

圖 2- 4 文件於向量模式表示方式 [資料來源:Salton,1975]

向量模式(Salton and Lesk, 1968)主要是為了彌補布林模式中二元權重的不足而發展出的，能做到布林模式所無法做到的部分比對。向量模式中索引的字詞並不是以 0 和 1 的二元的數值表示，而是以字詞在文件中權重的方式表示，

且此權重能被用來計算使用者查詢系統每篇文件的相似度，計算後以相似度對文件做排序，則表示文章和使用者查詢的相關程度，就算文件只有部分符合使用者查詢，還是會有相似度的值，因此和布林模式相較之下所能擷取的文件集會有更大的彈性(吳恩典，2007)。

一篇文件可以透過文件向量方式表示，d_𝑗=(𝑤_1𝑗, 𝑤_3𝑗, 𝑤_3𝑗,…, 𝑤_𝑡𝑗)，其中𝑤_𝑖𝑗 代表字詞𝑘_𝑖於文件d_𝑗中的權重，而查詢可以表示為𝑞=(𝑤_1𝑞, 𝑤_2𝑞, 𝑤_3𝑞,…, 𝑤_𝑡𝑞)，同樣，𝑤_𝑖為字詞𝑘_𝑖於查詢 q 中的權重值，t 則表示系統中索引字詞的總數量。因此每一篇文件d_𝑗及使用者查詢 q 皆會以 t 維向量表示，向量模式則能由計算此兩向量所構成的 Cosine 夾角而得到使用者查詢與文件之間的相似度，計算公式如下：

Cos

(

q, d_𝑗

)=

^d^𝑗^∗𝑞

|d_𝑗|∗|𝑞|

...

(公式 1)

‧

the,a,of,this…等字詞。因此通常w_𝑖𝑗以及w_𝑖𝑞的值會使用 tf-idf(Term Frequency and Inverse Document Frequency)來代表，其中 tf 視為單一文件內部的分布特性，可以用來描述一篇文件對定義之索引項目的包含程度，也就是字詞在文件中出現

‧

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

目前 Yahoo!的斷章取義及中央研究院 CKIP 中文詞知識庫小組所發展的中文斷詞系統已有相當發展，除了基本的斷詞功能，此系統也對於未知詞做了人名、譯名、複合詞等擷取動作，並對各個詞彙賦予詞性標籤，這些皆簡化了文字探勘所需的前處理階段，尤其當我們使用新聞做為研究的對象時，新聞所出現的未知詞也隨著時間不斷成長，因此使用這些現成的服務能簡化研究時所需的中文斷詞作業，使我們能進一步對研究做出分析。

‧

則中最經典的例子為啤酒與尿布規則(Berry and Linoff, 1997)；探勘關聯規則的演算法也是在上述的需求之下所產生出來的探勘方法(鐘明璇，2002)。

在探勘關聯規則的領域中，主要方法可以分為兩大類：(1)Apriori-like 的方法產生 Candidate Set，並找出符合最小支持度的大項目集合(Large Itemsets)，再依據大項目期和產生關聯規則；(2)使用 Non Apriori-like 的方法找出大項目集合 (鐘明璇，2002)。

Apriori-like 的方法是以 Apriori 演算法為基礎所發展的相關方法，Apriori 演算法也是關聯規則探勘技術中，最早被提出且運作穩健的演算法。Apriori-like 的方法的特點是第一次的 Candidate Set(C₁)是直接掃過一次資料庫而得到，而第 C_𝑘(k>1)次產生方式都包含了兩個主要步驟：首先合併產生 Candidate Set，另一則是將這些項目集合中，含有不是前一次作業的大項目集合者去除，再對所留下來的 Candidate Set，計算支持度，去除不滿足最小支持度的項目集合後則得到最後的大項目集合(鐘明璇，2002)。

在文檔中應用文件探勘技術於概念股股價共同移動之研究 - 政大學術集成 (頁 19-26)

文字探勘

第二章 文獻探討

第四節 文字探勘

國

立 政 治 大 學

‧

第四節 文字探勘

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

(

)=

...

‧

‧

‧ 國

立 政 治 大 學

‧

‧

第二章文獻探討

第四節文字探勘

立政治大學

第四節文字探勘

立政治大學

立政治大學

立政治大學

立政治大學