資料採礦演算法 - 運用資料採礦技術及企業評價模式建立投資策略之研究-以台灣上市櫃非金融類公司為例

3.3.1 資料採礦工具

本研究使用的資料採礦工具為 SQL SERVER 2005 企業版試用版，此版本整合資料庫的管理功能與商業智慧運用功能，提供 9 種資料採礦的演算法，另外文字資料採礦功

能也在開發之中，各演算法與適用於解決那類型問題整理如表 6 ，企業價值計算與相關性分析，則使用 Excel 作為工具。

表 6 SQL Server 2005 演算法一覽表

適用的狀況說明 SQL Server 2005 所提供的演算法預測一個分離的屬性。例如:在一次

郵寄行銷的活動中預測使用者將較接受買那一種產品。

決策樹演算法 (Decission TreesAlgorithm) 貝氏機率演算法 (Naïve Bayes Algorithm) 群集演算法 (Clustering Algorithm)

類神經演算法 (Neural NetworkAlgorithm) 預測一個連續的屬性。例如:預測下

一年的銷售量。

決策樹演算法 (Decission TreesAlgorithm) 時間序列演算法 (Time Series Algorithm) 預測一個順序。例如:進行一個公司

的網站的使用習性分析。

群集演算法 (Clustering Algorithm)

在交易中找出一群有關聯的項目。

例如:使用購物籃分析為以找出給客戶購買另一產品的建議。

關聯分析演算法 (Association Algorithm) 決策樹演算法 (Decission TreesAlgorithm)

找出許多相似項目的群組。例如:將所有資料做相似項目的分組以提供了解這組資料更好的方法。

群集演算法 (Clustering Algorithm)

時序群集演算法 (Sequence ClusteringAlgorithm)

資料來源:譯自 SQL SERVER 2005 企業版試用版說明文件

3.3.2 線性迴歸與羅吉斯迴歸

在定量分析的實際研究中，線性迴歸模型(Linear Regression Model)是最流行的統計方式，是一種建立變數關係的數學方程式之統計程序：將研究的變數區分為因變數與自變數，並建立因變數為自變數之函數模型，其主要目的是用來解釋資料過去的現象及由自變數來預測因變數未來可能產生之數值。但有許多社會科學問題的觀察，都只是分類而非連續的，此時線性迴歸就不適用了。而羅吉斯迴歸就是針對二元因變數，即是 1 或

0。在 Logistic Curve 中有一個臨界遞增的 S 型函數，適用於分析一機率模型，羅吉斯迴歸因極負彈性且容易使用，在因變數為離散型，且分類只有兩類或少數類時，變成了一個最標準的分析方法。

SQL2005 羅吉斯迴歸為類神經網路的變型，也就是類神經網路完全不具備隱藏層神經元(類神經網路參數 HIDDEN_NODE_RATIO 為 0)，就會變成羅吉斯迴歸，也因此能夠同時處理預測連續變數和類別變數。

3.3.3 群集演算法

群集演算法（Clustering），為非監督式學習沒有所謂最佳模型，不需要事先知道資料該分成幾個已知的類型，而可以依照資料間彼此的相關程度來完成分類分群的目的。

SQL2005 提供 E-M(Expectation Maximization)期望值最大化演算法與 K-means 兩種演算法，K-means 演算法在 1967 年由學者 J. B. MacQueen 所提出，以群集內資料平均值為群集的中心劃分群集，因為其簡單易於瞭解使用的特性，對於球體形狀，中小型資料庫的資料採礦有不錯的成效，可算是一種常被使用的群集演算法，也是最早的組群化計算技術。必須事前設定群集數量，以距離作為相似性的依據，所以群集之間是互斥不可重疊，稱為『剛性群集』，演算法的進行步驟如下所述：

輸入資料：群集的個數 K，n 個資料的訊息輸出資料：K 個群集的資料集

1、任意由 n 個資料物件中選取 K 個物件當作起始群集的中心

2、對於所有的 n 個物件，一一找其最近似的群集中心 (一般是以距離近者相似度較高)，然後將該物件歸到最近似的群集。

3、根據步驟二的結果，重新計算各個群集的中心點 (叢集內各物件的平均值)

4、重複步驟 2 到 3，直到所設計的停止條件發生(一般是以沒有任何物件變換所屬群集為停止絛件)。

E-M 與 K-means 演算法計算流程很像，但是 E-M 演算法使用高斯分配(常態分配) 來描述案例隸屬於某群集的機率密度，以機率函數取代剛性群集的距離函數，通常以累積機率 95%來作為群集邊界稱為『柔性群集』，本研究採用 K-means 演算法。

3.3.4 決策樹與迴歸樹

決策樹（Decision Tree）是屬於監督式學習，以昆蘭(J.Ross Quinlan)開發一系列以亂度（Entropy）為基礎的決策樹演算法最為知名，從 ID3(Iterative Dichotomiser 3)到 C4、

C4.5、C5，都受到資料採礦者的信賴。早期的 ID3 是使用資訊報酬（Information Gains）

作為分岔準則，但應用上發現，資訊報酬會偏好選舉項數較多的變數作為分岔變數，因此使用該分岔準則所建立出來的決策樹規則數目偏多，較容易造成過度學習的效應，為了修正這項系統偏誤，昆蘭重新定義出『增益比值（GainRatio）』的計算公式取代原有的分岔準則，但根本的概念還是所謂的亂度（Entropy）。

決策樹的建立過程是兩種力量互相拉扯所產生的結果。第一種是利用變數產生分岔的成長力量；另外一股力量則是透過修剪機制，來抑制決策樹的成長。決策樹學習可能遭遇模型過度學習（overfitting）的問題，過度配適是指模型過度訓練，導致模型記住的不是訓練集的一般性，反而是訓練集的局部特性。為避免過度學習問題的發生，規則的學習流程應如下所述：

1、演算法將輸入資料隨機切割成訓練組以及鑑效組。

2、跟據分岔準則，利用訓練組資料產生第一個分岔點。

3、利用鑑效組資料驗證第一個分岔點是否為最佳分岔，若規則可再現，則繼續進行後續分岔，若否則捨棄該變數，重新從剩餘變數中篩選最佳分岔變數。

4、反覆進行以上步驟，一直到沒有更純淨的子節點可產生為止，此時末端的子節點稱為『葉節點(Leaf Node)』

5、利用修剪技術，將多餘或是無效的分岔點修剪掉。

決策樹與迴歸樹之差異在預測變數是屬於類別變數或連續變數，在變數離散化處理

後（本研究中由人工指派），就可以用迴歸樹等演算法進行資料採礦分析。

3.3.5 類神經網路

類神經網路的原始想法與基本構造皆與神經生物學中的神經元構造相似，類神經網路是一種模仿生物神經網路的資訊處理系統，它使用了大量簡單的相連人工神經元來模仿生物神經網路的能力。而在一個網路模型當中，一個人工神經元將從外界環境或其它人工神經元取得資訊，依據資訊的相對重要程度給予不同的權重(weight)，並予以加總後再經由人工神經元中的數學函數轉換，輸出其結果到外界環境或其它人工神經元當中。

將神經元彼此連結就構成了類神經網路架構，網路架構型態有許多不同的種類，其中倒傳遞類神經網路為目前應用最為廣泛的模式之一（SQL2005 也用此種架構）。倒傳遞類神經網路之結構包含三層：輸入層（input layer）、隱藏層（hidden layer）及輸出層

（output layer），其中隱藏層之數目可以是一層或多層，在輸入層部分，只從外部環境接收資訊，該層的每個神經元相當於自變數，不完成任何計算，只為下一層傳遞資訊；

而輸出層中神經元的輸出結果則為網路最後的輸出值；隱藏層則主要是增加類神經網路

的複雜性，以能夠模擬複雜的非線性關係，就如同人的神經突觸連結越多人就越聰明一般，但過度複雜的模型反而容易造成過度學習的問題，降低預測力。

類神經網路和迴歸分析不同，沒有任何假設的機率分佈，是模式識別和誤差最小化的過程，而在選取轉換函數時，不能使用傳統的線性函數，通常會選取兼具正向收斂與負向收斂的 S 型函數，SQL2005 所使用的轉換函數是 Logistic 分配(Y=1/(1+e-x))，即當輸入變數趨近無限大時，輸出趨近 1，當輸入變數趨近負無限大時，輸出趨近 0，可同時處理連續數值和類別型的資料，對類別變數之處理是先轉為虛擬變數(每個選項轉為 1 或 0 的編碼)，因此如果類別選項過多，會導致模型收斂困難之問題。

3.3.6 貝式機率分類

貝氏定理為貝耶斯由條件機率所推導出來的，貝耶斯認為機率計算可以逆推，也就是說根據後面的事件『已發生』的結果下，計算前面『條件』發生的機率。

條件機率定義：若 A、B 為樣本空間 C 中二事件,且 P(A)>0，則在給定 A 發生之下

B 之條件機率為 P(B|A)＝P(B∩A)/P(A)；A 成為新的樣本空間 P(A|A)=1 也就是原先的樣本空間 C 修正為 A 所有事件發生之機率, 都要先將其針對與 A 的關係做修正：解釋為

『在發生 A 的條件下，發生 B 的機率等於 AB 同時發生的機率除以 A 發生的機率』。

條件機率也可用來求非條件下的機率，由前式中得 P(A∩B)＝P(B)×P(A|B)：解釋為

『AB 同時發生的機率為 B 發生的機率乘上在 B 的條件下發生 A 的機率』，只要 P(B)>0 之條件成立下；結合前 2 式可得 P(B|A)＝P(A∩B)/P(A)＝P(B)×P(A|B)/P(A)即為貝氏定理。

當輸入變數並非單一時依貝氏理論則假設所有的輸入變數都是獨立事件，因此同時符合各條件的機率就是把各條件的機率相乘即可。但真實世界中，輸入變數通常並非彼此為獨立事件，也因此貝氏機率分類會被稱為天真(Naïve)。

貝氏分類器 (Naïve Bayes Classifier)是一種結合事前機率與條件機率(額外資訊),已導出事後機率的過程，簡單且實用的分類方法。在某些領域的應用上，其分類效果優於類神經網路和決策樹採用監督式的學習方式，只能處理類別變數，分類前必須事先知道分類型態，透過訓練樣本的訓練學習，有效地處理未來欲分類的資料。執行步驟如下：

1、計算各屬性的條件機率。

2、預測推論新測試樣本所應歸屬的類別。

在文檔中運用資料採礦技術及企業評價模式建立投資策略之研究-以台灣上市櫃非金融類公司為例 (頁 50-56)