• 沒有找到結果。

第二章 文獻探討

第二節 探勘技術

2.1. 資料探勘

立 政 治 大 學

Na tiona

l Ch engchi University

5

吳昀錚(2008)以線上財經新聞分類為基礎,決定投資者的短期之投資策略,

並以台灣股票加權指數評估系統之績效。實驗結果顯示,由投資策略所獲得之報 酬率可勝過銀行定存利率,具有參考價值。

第二節 探勘技術

2.1. 資料探勘

隨著科技的進步,資料產生的速度亦突飛猛進,資料量隨著時間大量成長,

從大量資料中萃取有意義的特徵或規則,並集結成有用的知識,成了各領域期望 能獲得的分析能力,而資料探勘即為萃取資訊的技術之一。許多人認為「資料探 勘」和「從資料中發掘知識」(Knowledge Discovery in Database, KDD)是同義的,

然而,資料探勘僅為 KDD 的重要程序之一,研究亦顯示兩者之間有著相輔相成 的關係(Fayyed, 1996;Han & Kamble, 2001;黃孝文,2010)。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

6

Han & Kamber(2001)提出 KDD 的程序可分成四個步驟,如圖 2.2.1:

圖 2.2.1 資料探勘為 KDD 的程序之一 資料來源:Han & Kamber,2001

1. 過濾與整合:欲對龐大的資料庫進行知識萃取前,由於資料可能有錯誤、不 完整、遺失或重複的狀況,因此必頇先過濾資料中的雜訊或整合同義資料,

使資料成為有意義的訊息,並放置資料倉儲中。

2. 選擇與轉換:從資料倉儲中選擇特定的知識領域後,資料量仍可能相當龐大,

因此需要適當的將資料簡化、轉換成適當的格式,使後續的工作能順利進 行。

3. 資料探勘:此為 KDD 之重要過程,透過關聯規則、分類預測、分群分析等 演算法,分析並挖掘資料中隱藏的規則。

4. 評估與解釋:為了檢驗前一步驟所發現的規則是合理的,需要對其作出合理 的評估或解釋,此結果可透過簡易的圖表呈現,讓使用者能評估是否可成為 決策分析的依據。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

7

資料探勘的過程中,使用者可以根據資料的類型與範圍,選擇適當的演算法 做相關分析,因此資料探勘所採用的演算法成為知識挖掘的關鍵因素。常見的演 算法包括關連規則分析、分類分析及分群分析(Han & Kamber,2001;黃孝文,

2010)。

1. 關連規則分析(Association Analysis)

此演算法以統計機率為基礎,從大量的資料中發掘出,在某一規則下兩種不 同類型的項目經常共同出現之現象。商業上透過市場決策分析,了解客戶購買商 品的隱性規則,經過有效的推測後,有助於主管執行有效的策略決定。

2. 分類分析(Classification Analysis)

資料分類包括兩步驟,首先要先透過分類演算法訓練資料,得到分類的規則,

通常規則形式為「IF … , THEN …」,然後分類器經過訓練後,才能透過分類規 則預測測詴資料所屬的分類。分類的技術包含簡單貝氏分類(Naïve Bayes Classification)、kNN(k-Nearest Neighbor)、支援向量機(Support Vector Machine, SVM)等。而 Joachims(1998)將此三種分類器與最小帄方誤差法(LLSF)及 類神經分類(ANN)以統計方法比較效率與分類結果,優異程度為:

{kNN、SVM}>LLSF>ANN>NB。

3. 分群分析(Clustering Analysis)

透過觀察將大量資料分割、分群,使群集內資料的相似度提高,而群集間的 相似度降低,分群以統計的基礎對資料做分析,由於分群時目標值並不存在,屬 於非監督式學習。Han & Kamber(2006)將分群法分成五大類:分隔式分群

(Partitioned)、階層式分群(Hierarchical)、密度基礎分群(Density-based)、網 等關聯,期待能從中尋找文件趨勢,甚至進一步進行預測(Han & Kamber, 2001)。

袁立安(2007)將文字探勘分成三個步驟:文件準備、文件處理與文件分析‧

相關文件