• 沒有找到結果。

本研究利用資料探勘演算法進行數據分析及預測,分別為隨機森林(Random Forest)、規則歸納(Rule Induction)與深度學習(Deep Learning),茲將三種演算法 概述如下:

一、隨機森林

由於隨機森林是決策樹(Decision Tree)演化而成的,故介紹隨機森林之前,

首先要了解決策樹,其建構目的主要以探索及預測為主。決策樹的結構如圖 3-3 舉例,概述以天氣與氣溫等測試條件來決定是否在家煮、在外吃或買回家吃。首 先由根節點(Root Node)開始,依照分類的問題或變數向下展開,連接節點稱為分 支(Branches),一個分支代表一種分類準則(Splitting Criterion),內部節點(Internal Node)是依據不同分類準則所產生的資料,不斷重複此過程,最終到達葉節點(Leaf Node),並將葉節點存放的類別作為決策結果(簡禎富、許嘉裕,2015)。

圖 3-3 決策樹結構圖 資料來源:參考許郁文(2018)

葉節點 葉節點

分支 內部節點 根節點

葉節點

葉節點

≥21 時 <21 時 晴天 or 陰天

下雨

天氣

在家煮

30˚C ≤30˚C

在外吃 時間

買回家吃 在家煮 氣溫

決策樹的建構概念,主要將原始資料分成「訓練資料」與「測試資料」,首先 以訓練資料來建立決策樹模式,接著透過測試資料的分類表現進行決策樹修剪,

進而提升分類或預測的正確性,並避免發生過度配適(Overfitting)。而在每一個內 部節點進行分類程序時,主要以資訊增益(Information Gain)作為分類準則,並選 擇最大的資訊增益值作為分類屬性。

隨 機森 林 是 由 許 多決 策樹組 合 而 成 的 , 在 機器學 習 領 域 中稱為 「整 體 (Ensemble)」,而「整體學習(Ensemble Learning)」的概念主要是結合多個「弱學 習器(Weak Learner)」來建構一個「強學習器(Strong Learner)」,其目的為降低學 習演算法的偏差(Bias)與變異(Variance),以及產生過度配適的問題(Kotu &

Deshpande, 2014)。

隨機森林是以隨機方式建立一組決策樹,每一棵決策樹代表一個分類器 (Classifier),且彼此間相互獨立。隨機森林的簡單架構如圖 3-4,首先將樣本資料 輸入,每一棵決策樹會產生 1 個預測結果,接著透過袋裝(Bagging)法集合所有的 預測結果,以多數決方式對預測的類別進行投票,最後將投票次數最多的類別作 為最終的預測結果。

圖 3-4 隨機森林模型圖

資料來源:參考 Will Koehrsen(2017)

二、規則歸納(Han, Kamber, & Pei, 2011)

規則歸納主要目的是從龐大數據資料中,探索資料間的關聯性,其邏輯規則 之推理常使用順序覆蓋算法(Sequence Coverage Algorithm)進行分類。順序覆蓋算 法的演算過程是依照順序去學習每一個規則,當一條規則產生後,同時刪除該規 則所覆蓋的訓練元組(Tuple),接著執行剩餘的訓練元組繼續尋找下一條規則,直 到滿足某終止條件。順序覆蓋算法又包括 AQ、CN2 和 RIPPER,本研究使用的規 則歸納演算法類似於「重複增量修剪(Repeated Incremental Pruning to Produce Error Reduction,簡稱 RIPPER)」,其主要功能是將每個變數條件添加到規則中並 修剪規則,以減少誤差產生,最後選出具有最高資訊增益的變數。

規則歸納演算步驟參考蔡明富(2005),以原始測試資料如表 3-8 為例,其中 No.為資料編號,A1~A4 為資料變數,Class 為已知的類別,舉例如下:

No. A1 A2 A3 A4 Class 一 0 1 0 2 Three 二 1 1 0 2 Two 三 0 0 0 1 Three 四 0 1 1 0 One 五 0 0 1 3 Three

表 3-8 原始測試資料表

(一)首先將原始測試資料依照類別排列順序後,產生如表 3-9。

No. A1 A2 A3 A4 Class 四 0 1 1 0 One 二 1 1 0 2 Two 一 0 1 0 2 Three 三 0 0 0 1 Three 五 0 0 1 3 Three

表 3-9 原始測試資料表(排序後)

(二)由第一個類別搜尋符合此類別的規則,直到所有類別尋找完畢,如類別 One 尋找規則:

If A4=0 then Class=One

(三)持續搜尋類別 Two,找出類別 Two 規則:

If A1=1 then Class=Two

(四)繼續尋找類別 Three,找出類別 Three 規則:

If A2=0 then Class=Three

(五)若未能用單一個變數作為判斷條件,故必須增加一個變數來合併判斷,最後 找出一條規則:

If A1=0 And A3=0 then Class=Three (六)最後得到規則歸納後的關係圖,如圖 3-5。

圖 3-5 規則歸納關係圖 A4

A2 =0 Class=Three

A1 A3

Class=Two

=0

=1

=0 Class=One

=0

三、深度學習(吳嘉芳,2018)

機器學習(Machine Learning)歸於人工智慧(Artificial Intelligence, AI)體系的 一部分,此外,運用深度神經網路(Deep Neural Networks, DNN)進行機器學習,

稱為「深度學習」,故「深度學習」又屬於機器學習的一個分支。

深度學習是運用類神經網路(Neural Network, NN)的技術之一,類神經網路是 以生物的神經元結構為模型,最簡單的類神經網路模型是由輸入層和輸出層所組 成,每層有多個神經元,如圖 3-6,僅由輸入層和輸出層形成的「單純感知器」

模型,相當於人類的感覺模型。在輸入層和輸出層之間,插入中間層,從感覺模 型轉換成思考模型,如圖 3-7,而深度神經網路是利用多層化,透過增加神經元 數量進行深度思考模型,如圖 3-8。

深度學習擅長辨識圖像與波形等資料,從輸入層輸入圖像之後,便能進行階 段 式 學 習, 普 遍使 用的 類 神 經 網 路 為「 卷積 神 經 網路 (Convolutional Neural Networks, CNN)」與「循環神經網路(Recurrent Neural Network, RNN)」。卷積神 經網路主要將素材仔細分解、剖析,接著逐步擴大檢視範圍來分析特徵量,則循 環神經網路用於分析時間序列(Time Series)資料。

圖 3-6 類神經網路感覺模型 神經元 神經元

輸出 輸入層 輸出層

輸入

圖 3-7 類神經網路思考模型

圖 3-8 類神經網路深度思考模型 資料來源:參考吳嘉芳(2018)

神經元 神經元

輸出 輸入層 中間層 輸出層

輸入

神經元

神經元 神經元

神經元 神經元

輸出 輸出層

輸入層 中間層

輸入

第肆章 實證分析

相關文件