文字探勘 - 探勘技術 - 文獻探討 - 整合文件探勘與類神經網路預測模型之研究 -以財經事件線索預測台灣股市為例

第二章文獻探討

第二節探勘技術

2.2. 文字探勘

3. 分群分析（Clustering Analysis）

透過觀察將大量資料分割、分群，使群集內資料的相似度提高，而群集間的相似度降低，分群以統計的基礎對資料做分析，由於分群時目標值並不存在，屬於非監督式學習。Han & Kamber（2006）將分群法分成五大類：分隔式分群

（Partitioned）、階層式分群（Hierarchical）、密度基礎分群（Density-based）、網等關聯，期待能從中尋找文件趨勢，甚至進一步進行預測（Han & Kamber, 2001）。

袁立安（2007）將文字探勘分成三個步驟：文件準備、文件處理與文件分析‧

‧

代表性的詞彙，找出特徵值（Liu & Motoda, 1998）。常見的特徵值的選擇方式包括：文件頻率（Document Frequency）挑選出現於文件數量較高的字詞，將其當效較佳（Yang & Pedersen, 1997；Aas & Eikvil, 1999）。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3. 權重值計算

縱然文件準備後能得到斷詞結果，卻難以評斷哪些字詞具有文件代表性，而權重值計算則是為了此目的產生。根據 Popescu（2001）研究整理，權重值可由三個部分組成，包括區域權重（𝐿_𝑖𝑗）、全域權重（𝐺_𝑖）及文件之正規化因子（𝑁_𝑗），區域權重以字詞於「特定文件」中出現的頻率為基礎，而全域權重則以字詞於「所有文件」中出現的頻率為基礎，正規化因子則是為了讓不同字詞的權重得以比較而產生。

舉例來說，Jing 等學者（2002）研究中權重值之區域函數為字詞於一篇文章中出現的次數，全域函數為字詞於所有文章出現次數之倒數值，並給予對數以做調整，最後則採用餘弦正規化。此方法即為 TFIDF（Term Frequency–Inverse Document Frequency），也是常被使用的權重計算方式之一。

2.2.2. 文件處理

1. 向量空間模型

向量空間模型是目前資訊檢索中效果較好的方式（Salton, 1988），也是目前最廣泛使用的資訊檢索模型（戴尚學，2003）。每篇文件以一組向量表示，維度代表的是關鍵字詞，而維度的數值則代表該字詞的權重，如圖 2.2.2 所示。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 2.2.2 向量空間模型資料來源：Salton et al., 1975

此外，為了使文件間能互相比較，使用向量空間模型時必頇轉化為單位向量，

以避免文件長短不一所造成的誤差。當文件數量增加時，可利用「詞彙─文件矩陣」表達詞彙與文件間的關係。以圖 2.2.3 為例，文件集選出 i 個特徵字，而每一列則代表一篇文章中各個特徵字的權重值。

圖 2.2.3 詞彙─文件矩陣資料來源：Salton & Gill, 1983

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

2. 相似度計算

將文件以向量空間模型表達後，可藉由相似度計算實現分群或分類技術。常用的相似度計算方式有 Jaccard 係數及 Cosine 係數（Salton, 1988），前者計算文件字詞出現於交集之機率意即_{|𝑥|∪|𝑦|}^{|𝑥∩𝑦|}，而後者則計算兩向量間之餘弦值。

3. 分類、分群技術

(1) 貝氏分類器

此分類器以貝氏定理為基礎，且假設屬性間彼此獨立下，以事前機率計算事後機率，再判斷資料屬於哪個類別（黃孝文，2010；章秉純、許清琦，2001）。

透過大量的學習，能有效處理欲分類的資料。

(2) kNN分類器

此演算法搜尋與新文件最相似的 k 份文件，並比較兩者之相似度，選擇各分類中相似度最高的類別，因此演算過程中，最重要的即為 k 值大小之決定。一般採用 M-way kNN，演算步驟如下（戴尚學，2003）：

Step1、將文件以向量空間模型表示。

Step2、取出前 k 份與新文件相似度最高之文件，此 k 份文件之類別則為候選類別。

Step3、將文件與新文件之相似度以類別為基礎做加總，分數最高之類別則為新文件之所屬類別。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

(3) 支援向量機

支援向量機（Support Vector Machines, SVM）由 Vapnik 於 1979 年提出，分類方式是在多維度空間中，以超帄面（Hyperplane）對資料作分割，使分類邊界最大（章秉純、許清琦，2001）。

(4) K-means分群

此演算法由 J. B. MacQueen 於 1967 年所提出，分群之前頇先設定群集數量 k，以質心的概念對群集做迭代，直到質心趨於穩定，群集收斂為止（A Tutorial on Clustering Algorithms, 2011）。K-means 雖然能得到較佳的分群結果，質心的概念卻容易受到資料的離散程度影響，分析者在事前未必能正確決定群集數量，若資料量龐大將造成整體效率降低。圖 2.2.4 為群集及群集質心之示意圖。

圖 2.2.4 分群與群集質心示意圖資料來源：Salton et al., 1975

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

K-means 分群步驟(A Tutorial on Clustering Algorithms, 2011)如下：

Step1、隨機選取 k 個資料當作質心。

Step2、將資料與此 k 個質心計算相似度，選擇較近的分為同一群，最後再計算 k 群資料所產生的新質心。

Step3、若質心產生變動，意即尚未收斂，則重複 Step2，直到質心收斂為止。

2.2.3. 文件分析

通常，文字處理後需透過客觀的方法評估其效用，根據 Sebastiani(2002)的整理，評估方法較常使用的有 Accuracy、Precision、Recall，以及 F-measure 等，其中，Accuracy 評估預測結果中分類預測結果的機率；Precision 評估預測結果正確中分類預測結果亦為正確的機率；Recall 評估預測結果與分類預測結果相同中，

預測結果正確之機率；F-measure 綜合 Precision 及 Recall 之評估方式而成。此四種為資訊擷取領域中常用之評估指標（Sebastiani, 2002）。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

在文檔中整合文件探勘與類神經網路預測模型之研究 -以財經事件線索預測台灣股市為例 (頁 17-24)

文字探勘

第二章 文獻探討

第二節 探勘技術

2.2. 文字探勘

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第二章文獻探討

第二節探勘技術

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學