資料探勘

第二章文獻探討

第二節探勘技術

2.1. 資料探勘

國

立政治大學

‧

Na tiona

l Ch engchi University

吳昀錚（2008）以線上財經新聞分類為基礎，決定投資者的短期之投資策略，

並以台灣股票加權指數評估系統之績效。實驗結果顯示，由投資策略所獲得之報酬率可勝過銀行定存利率，具有參考價值。

第二節探勘技術

2.1. 資料探勘

隨著科技的進步，資料產生的速度亦突飛猛進，資料量隨著時間大量成長，

從大量資料中萃取有意義的特徵或規則，並集結成有用的知識，成了各領域期望能獲得的分析能力，而資料探勘即為萃取資訊的技術之一。許多人認為「資料探勘」和「從資料中發掘知識」（Knowledge Discovery in Database, KDD）是同義的，

然而，資料探勘僅為 KDD 的重要程序之一，研究亦顯示兩者之間有著相輔相成的關係（Fayyed, 1996；Han & Kamble, 2001；黃孝文，2010）。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

Han & Kamber（2001）提出 KDD 的程序可分成四個步驟，如圖 2.2.1：

圖 2.2.1 資料探勘為 KDD 的程序之一資料來源：Han & Kamber，2001

1. 過濾與整合：欲對龐大的資料庫進行知識萃取前，由於資料可能有錯誤、不完整、遺失或重複的狀況，因此必頇先過濾資料中的雜訊或整合同義資料，

使資料成為有意義的訊息，並放置資料倉儲中。

2. 選擇與轉換：從資料倉儲中選擇特定的知識領域後，資料量仍可能相當龐大，

因此需要適當的將資料簡化、轉換成適當的格式，使後續的工作能順利進行。

3. 資料探勘：此為 KDD 之重要過程，透過關聯規則、分類預測、分群分析等演算法，分析並挖掘資料中隱藏的規則。

4. 評估與解釋：為了檢驗前一步驟所發現的規則是合理的，需要對其作出合理的評估或解釋，此結果可透過簡易的圖表呈現，讓使用者能評估是否可成為決策分析的依據。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

資料探勘的過程中，使用者可以根據資料的類型與範圍，選擇適當的演算法做相關分析，因此資料探勘所採用的演算法成為知識挖掘的關鍵因素。常見的演算法包括關連規則分析、分類分析及分群分析（Han & Kamber，2001；黃孝文，

2010）。

1. 關連規則分析（Association Analysis）

此演算法以統計機率為基礎，從大量的資料中發掘出，在某一規則下兩種不同類型的項目經常共同出現之現象。商業上透過市場決策分析，了解客戶購買商品的隱性規則，經過有效的推測後，有助於主管執行有效的策略決定。

2. 分類分析（Classification Analysis）

資料分類包括兩步驟，首先要先透過分類演算法訓練資料，得到分類的規則，

通常規則形式為「IF … , THEN …」，然後分類器經過訓練後，才能透過分類規則預測測詴資料所屬的分類。分類的技術包含簡單貝氏分類（Naïve Bayes Classification）、kNN（k-Nearest Neighbor）、支援向量機（Support Vector Machine, SVM）等。而 Joachims（1998）將此三種分類器與最小帄方誤差法（LLSF）及類神經分類（ANN）以統計方法比較效率與分類結果，優異程度為：

｛kNN、SVM｝＞LLSF＞ANN＞NB。

‧

3. 分群分析（Clustering Analysis）

透過觀察將大量資料分割、分群，使群集內資料的相似度提高，而群集間的相似度降低，分群以統計的基礎對資料做分析，由於分群時目標值並不存在，屬於非監督式學習。Han & Kamber（2006）將分群法分成五大類：分隔式分群

（Partitioned）、階層式分群（Hierarchical）、密度基礎分群（Density-based）、網等關聯，期待能從中尋找文件趨勢，甚至進一步進行預測（Han & Kamber, 2001）。

袁立安（2007）將文字探勘分成三個步驟：文件準備、文件處理與文件分析‧

在文檔中整合文件探勘與類神經網路預測模型之研究 -以財經事件線索預測台灣股市為例 (頁 14-17)

第二章 文獻探討

第二節 探勘技術

2.1. 資料探勘

國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

第二章文獻探討

第二節探勘技術

立政治大學

立政治大學

立政治大學