分類與分群技術 - 文字探勘 - 文獻探討 - 應用文字探勘文件分類分群技術於股價走勢預測之研究─以台灣股票市場為例

第二章文獻探討

第五節文字探勘

2.5.4 分類與分群技術

國

立政治大學

‧

Na tiona

l Ch engchi University

量，以避免文件長短不一所造成的誤差。當文件數量增加時，可利用「詞彙

─文件矩陣」表達詞彙與文件間的關係。如下圖 2.3 為例，文件集選出 i 個特徵字，而每一列則代表一篇文章中各個特徵字的權重值(歐智民，2011)。

圖 2.3 詞彙─文件矩陣 (資料來源：Salton & Gill, 1983)

將文件予以向量化後，各篇文件皆有其相同的比較單位，於向量空間中可以進行不同文件的相似度計算，以實現分類或分群。相似度計算尤以餘弦相似度計算(Cosine Coefficient)較常見，當兩互相向量平行，則其夾角為 0，

兩向量的餘弦係數為 1，代表著這兩文件有極高的相似度；若當兩文件的維度比例不盡相同時，餘弦係數將降低，代表著兩文件並不相似。

2.5.4 分類與分群技術

文字探勘的過程中，使用者能針對資料的範圍和類型，選擇適當的演算法做分析，因此所採用的演算法成為知識挖掘的關鍵因素。常見的演算法包 括分類分析及分群分析。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1. 分類分析（Classification Analysis）：

分類就是將每一個類別特徵清楚定義，並透過訓練資料，建立出模型，

將未歸類的資料分門別類（Berry&Linoff,1997），因此分類可以說是一種監督式學習法(supervised learning)。分類技術包含簡單貝氏分類（Naïve BayesClassification）、kNN（k-Nearest Neighbor）、支援向量機（Support Vector Machine,SVM）等。而 Joachims（1998）將此三種分類器與最小平方誤差法

（LLSF）及類神經分類（ANN）以統計方法比較效率與分類結果，優異程度為：｛kNN、SVM｝＞LLSF＞ANN＞NB(歐智民，2011)。

貝氏分類法是一種以機率、統計學為基礎的分類法，且因為貝氏分類法利用事件發生的機率來推測為之資料的類別，在新資料加入時只需局部調整某些機率值，即可得到新的分類模型，因此，在資料不斷增加的情況下，可以得到較好的分類效果(曾憲雄等，2005)。

kNN 則是另一種常見且使用簡單的分類器，透過局部資訊來確定類別邊界，將與測試資料最近的 k 篇資料所屬的主類別指定為測試資料之類別，

其基本依據在於，根據鄰近假設，一篇測試資料將與其鄰域中的訓練資料具有相同的類別(Christopher et al.，2008)。

使用 kNN 進行分類時必須將資料以向量空間模型表示，並取出前 k 份與新文件相似度最高之資料，並將此 k 份資料之類別則記為候選類別。將資料與新資料之相似度以類別為基礎做加總，分數最高之類別則為新資料之所屬類別，如下圖 2.4 所示，當 k 為 3 時，新進資料會與最鄰近的兩個黑色類別資料點和一個白色類別資料點做以類別為基礎的相似度計算加總，如黑色類別的數值較高，則新加入的資料分為黑色類別。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 2.4 kNN 分類器示意圖 (資料來源：L da F Costa et al.,2010)

2. 分群分析（Cluster Analysis）：

分群分析又稱為非監督式分類(unsupervised classification)，透過演算法計算每筆資料的相似程度，將擁有相似特徵的資料組成一個群集(Ham &

Kamber，2001)，因此該群集內的資料會有很高的相似度，而與其他群集內的資料會很不相似(Ham & Kamber，2003)。一個好的群集方法可以產生高品質的群集，以確保群集間(inter-clustering)的資料相似度是最低的，而群集內(intra-clustering)的資料相似度式最高的(陳鴻基、嚴紀中，2004)。Han &

Kamber（2006）將分群法分成五大類：分隔式分群（Partitioned）、階層式分群（Hierarchical）、密度基礎分群（Density-based）、網格式分群（Grid-based）

與類神經網路分群（Neural network），常見的方法包括分隔式分群的 K-means 和階層式分群的凝集群法(agglomeration)。

另外 kNN 技術也可應用於分群分析上，經過改良的 2-way kNN(戴尚學，

2003 ; Yang et al., 2000 ; Yang et al., 1999)針對每個候選事件獨立判斷是否應該被歸類在其中。在 2-waykNN 中，比較的對象可分為目標群集及其他群集。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

對於新進文件與件群集計算兩者的相關分數，若相關分數大於一設定的門檻值，則判斷新進文件屬於此候選群集。

在文檔中應用文字探勘文件分類分群技術於股價走勢預測之研究─以台灣股票市場為例 - 政大學術集成 (頁 22-25)

分類與分群技術

第二章 文獻探討

第五節 文字探勘

2.5.4 分類與分群技術

國

立 政 治 大 學

‧

2.5.4 分類與分群技術

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第二章文獻探討

第五節文字探勘

立政治大學

立政治大學

立政治大學

立政治大學