分析方法 - 資料採礦於乘用汽車產業之顧客關係管理研究

類神經網路（Neural Network）最初的概念來自於人內腦中運作的神經元，

這些神經元彼此具有連結，互相傳遞電荷至鄰近的神經元。而人內腦中包含數十

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

φ( )：稱之為活化函數（Activation Function），通常是非線性函數，有數種不同的型式，其目的是將 S 的值做映射得到所需要的輸出。

Y：稱之為輸出（Output），亦即我們所需要的結果。

圖 3- 3 類神經傳遞網路圖資料來源：類神經網路概述及實例

類神經網路之優點有模型精確度高，對於未知的輸入變項仍能有正確的輸出結果、應用範圍十分廣泛，模型建構能力強，能夠建立非線性模型。反之其仍具有一些缺點與限制，如為建立最佳模型，計算量大，常耗費大量時間與設備資源、

訓練過程中需通過隱藏層，俗稱黑盒子、得出之結果效果雖好但較難以解釋。

二、決策樹

決策樹（Decision Tree）在資料採礦中屬於分類之演算法，又有人稱它為分類樹（Classification Tree），其主要概念為藉由將已知之觀察值變數屬性分類，產生一具先後順序之樹狀流程結構圖，並隱含統計學中貝式機率之概念。其可用於選擇模型顯著變數、觀察值分類預測等。示意圖如圖 3-4：

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 3- 4 決策樹示意圖

資料來源：http://www.time-management-guide.com/decision-tree.html

決策樹之優點為其可建立簡單易懂之規則，易於解釋其模型結果、相較於其它資料採礦模型，決策樹能在較短時間內得到效果良好的模型結果、決策樹對於數據資料之要求較寬鬆，不需事先對資料進行一般化或事先處理遺漏值，且能夠同時處理連續型變數及間斷型變數、決策樹能夠清楚的顯示哪個變數具有顯著的重要性。然而，決策樹的缺點則為容易對資料形成過度配適，需透過決策樹的剪枝來修正、決策樹對連續型的變數預測能力較低、在有時間順序的資料上，需要進行預先資料處理的工作、當變數類別過多時，模型誤差也較大。

本研究將使用 C5.0、C&RT、CHAID、QUEST 四種決策樹演算法來進行分析，其中各個演算法的特徵如下：

(一) C5.0：在每個決策樹分類節點下可產生不同數量的子節點，採用 Boosting 方式提高模型準確率，且計算時間與資源設備耗用上較少。

‧

度函數為各別的機率分配相乘，可得概似函數（Likelihood Function）為

‧

函數有最大值的(α̂, 𝜷̂)封閉解（Closed-Form）不存在，因此需利用電腦以數值分析的方法求得近似值，常用的方法有牛頓遞迴法（Newton-Raphson Method）。

(三) 參數檢定

‧

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3. 多類別變解釋變數

當解釋變數水準超過二個類別時，需建立一組虛擬變數（Dummy Variable）

代表其分類情形。當一個解釋變數有 I 個水準時則需要 I-1 個虛擬變數，從所有水準中挑選一類別作為參照類別（Reference Category），進而解釋各類別與參照類別的勝算比。

‧

在文檔中資料採礦於乘用汽車產業之顧客關係管理研究 - 政大學術集成 (頁 28-35)

分析方法

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

‧

立政治大學

立政治大學

立政治大學