演算法概述

本研究利用資料探勘演算法進行數據分析及預測，分別為隨機森林(Random Forest)、規則歸納(Rule Induction)與深度學習(Deep Learning)，茲將三種演算法概述如下：

一、隨機森林

由於隨機森林是決策樹(Decision Tree)演化而成的，故介紹隨機森林之前，

首先要了解決策樹，其建構目的主要以探索及預測為主。決策樹的結構如圖 3-3 舉例，概述以天氣與氣溫等測試條件來決定是否在家煮、在外吃或買回家吃。首先由根節點(Root Node)開始，依照分類的問題或變數向下展開，連接節點稱為分支(Branches)，一個分支代表一種分類準則(Splitting Criterion)，內部節點(Internal Node)是依據不同分類準則所產生的資料，不斷重複此過程，最終到達葉節點(Leaf Node)，並將葉節點存放的類別作為決策結果(簡禎富、許嘉裕，2015)。

圖 3-3 決策樹結構圖資料來源：參考許郁文(2018)

葉節點葉節點

分支內部節點根節點

葉節點

≥21 時＜21 時晴天 or 陰天

下雨

天氣

在家煮

＞30˚C ≤30˚C

在外吃時間

買回家吃在家煮氣溫

決策樹的建構概念，主要將原始資料分成「訓練資料」與「測試資料」，首先以訓練資料來建立決策樹模式，接著透過測試資料的分類表現進行決策樹修剪，

進而提升分類或預測的正確性，並避免發生過度配適(Overfitting)。而在每一個內部節點進行分類程序時，主要以資訊增益(Information Gain)作為分類準則，並選擇最大的資訊增益值作為分類屬性。

隨機森林是由許多決策樹組合而成的，在機器學習領域中稱為「整體 (Ensemble)」，而「整體學習(Ensemble Learning)」的概念主要是結合多個「弱學習器(Weak Learner)」來建構一個「強學習器(Strong Learner)」，其目的為降低學習演算法的偏差(Bias)與變異(Variance)，以及產生過度配適的問題(Kotu &

Deshpande, 2014)。

隨機森林是以隨機方式建立一組決策樹，每一棵決策樹代表一個分類器 (Classifier)，且彼此間相互獨立。隨機森林的簡單架構如圖 3-4，首先將樣本資料輸入，每一棵決策樹會產生 1 個預測結果，接著透過袋裝(Bagging)法集合所有的預測結果，以多數決方式對預測的類別進行投票，最後將投票次數最多的類別作為最終的預測結果。

圖 3-4 隨機森林模型圖

資料來源：參考 Will Koehrsen(2017)

二、規則歸納(Han, Kamber, & Pei, 2011)

規則歸納主要目的是從龐大數據資料中，探索資料間的關聯性，其邏輯規則之推理常使用順序覆蓋算法(Sequence Coverage Algorithm)進行分類。順序覆蓋算法的演算過程是依照順序去學習每一個規則，當一條規則產生後，同時刪除該規則所覆蓋的訓練元組(Tuple)，接著執行剩餘的訓練元組繼續尋找下一條規則，直到滿足某終止條件。順序覆蓋算法又包括 AQ、CN2 和 RIPPER，本研究使用的規則歸納演算法類似於「重複增量修剪(Repeated Incremental Pruning to Produce Error Reduction，簡稱 RIPPER)」，其主要功能是將每個變數條件添加到規則中並修剪規則，以減少誤差產生，最後選出具有最高資訊增益的變數。

規則歸納演算步驟參考蔡明富(2005)，以原始測試資料如表 3-8 為例，其中 No.為資料編號，A1～A4 為資料變數，Class 為已知的類別，舉例如下：

No. A1 A2 A3 A4 Class 一 0 1 0 2 Three 二 1 1 0 2 Two 三 0 0 0 1 Three 四 0 1 1 0 One 五 0 0 1 3 Three

表 3-8 原始測試資料表

(一)首先將原始測試資料依照類別排列順序後，產生如表 3-9。

No. A1 A2 A3 A4 Class 四 0 1 1 0 One 二 1 1 0 2 Two 一 0 1 0 2 Three 三 0 0 0 1 Three 五 0 0 1 3 Three

表 3-9 原始測試資料表(排序後)

(二)由第一個類別搜尋符合此類別的規則，直到所有類別尋找完畢，如類別 One 尋找規則：

If A4=0 then Class=One

(三)持續搜尋類別 Two，找出類別 Two 規則：

If A1=1 then Class=Two

(四)繼續尋找類別 Three，找出類別 Three 規則：

If A2=0 then Class=Three

(五)若未能用單一個變數作為判斷條件，故必須增加一個變數來合併判斷，最後找出一條規則：

If A1=0 And A3=0 then Class=Three (六)最後得到規則歸納後的關係圖，如圖 3-5。

圖 3-5 規則歸納關係圖 A4

A2 =0 Class=Three

A1 A3

Class=Two

=0 Class=One

三、深度學習(吳嘉芳，2018)

機器學習(Machine Learning)歸於人工智慧(Artificial Intelligence, AI)體系的一部分，此外，運用深度神經網路(Deep Neural Networks, DNN)進行機器學習，

稱為「深度學習」，故「深度學習」又屬於機器學習的一個分支。

深度學習是運用類神經網路(Neural Network, NN)的技術之一，類神經網路是以生物的神經元結構為模型，最簡單的類神經網路模型是由輸入層和輸出層所組成，每層有多個神經元，如圖 3-6，僅由輸入層和輸出層形成的「單純感知器」

模型，相當於人類的感覺模型。在輸入層和輸出層之間，插入中間層，從感覺模型轉換成思考模型，如圖 3-7，而深度神經網路是利用多層化，透過增加神經元數量進行深度思考模型，如圖 3-8。

深度學習擅長辨識圖像與波形等資料，從輸入層輸入圖像之後，便能進行階段式學習，普遍使用的類神經網路為「卷積神經網路 (Convolutional Neural Networks, CNN)」與「循環神經網路(Recurrent Neural Network, RNN)」。卷積神經網路主要將素材仔細分解、剖析，接著逐步擴大檢視範圍來分析特徵量，則循環神經網路用於分析時間序列(Time Series)資料。

圖 3-6 類神經網路感覺模型神經元神經元

輸出輸入層輸出層

輸入

圖 3-7 類神經網路思考模型

圖 3-8 類神經網路深度思考模型資料來源：參考吳嘉芳(2018)

神經元神經元

輸出輸入層中間層輸出層

輸入

神經元

神經元神經元

輸出輸出層

輸入層中間層

輸入

第肆章實證分析

在文檔中以資料探勘分析五行生剋與財務指標對台灣股價之影響 (頁 45-51)

一、隨機森林

二、規則歸納(Han, Kamber, & Pei, 2011)

三、深度學習(吳嘉芳，2018)

第肆章 實證分析

第肆章實證分析