• 沒有找到結果。

決策樹形式知識整合之研究

N/A
N/A
Protected

Academic year: 2021

Share "決策樹形式知識整合之研究"

Copied!
8
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

決策樹形式知識整合之研究

計畫類別: 個別型計畫 計畫編號: NSC93-2416-H-004-018- 執行期間: 93 年 08 月 01 日至 94 年 07 月 31 日 執行單位: 國立政治大學資訊管理學系 計畫主持人: 林我聰 計畫參與人員: 馬芳資、李亞暉、董惟鳳 報告類型: 精簡報告 報告附件: 出席國際會議研究心得報告及發表論文 處理方式: 本計畫可公開查詢

中 華 民 國 94 年 10 月 26 日

(2)

行政院國家科學委員會專題研究計畫成果報告

決策樹形式知識整合之研究

The Research on Decision-Tree-Based Knowledge Integration

計畫編號:NSC 93-2416-H-004-018

執行期限:93 年 8 月 1 日至 94 年 7 月 31 日

主持人:林我聰 政治大學資訊管理學系

計畫參與人員:馬芳資、李亞暉、董惟鳳

一、摘要

隨著知識經濟時代的來臨,掌握 知識可幫助組織提昇其競爭力,因此 對於知識的產生、儲存、應用和整合, 已成為熱烈討論的議題,本研究針對 知識整合議題進行探討;而在知識呈 現方式中,決策樹(Decision Tree)形 式知識為樹狀結構,可以用圖形化的 方式來呈現,它的結構簡單且易於瞭 解,本研究針對決策樹形式知識來探 討其知識整合的課題。 本研究提出決策樹合併修剪方法 DTBMPA (Decision-Tree-Based Merging-Pruning Approach)方法,此方 法包括三個主要程序:決策樹合併、 合併樹修剪和決策樹驗證。其做法是 先將兩棵原始樹經由合併程序結合成 一棵合併樹,再透過修剪程序產生修 剪樹,最後由驗證程序來評估修剪樹 的準確度。本研究提出的 DTBMPA 方 法藉由合併程序來擴大樹的知識,再 利 用 修 剪 程 序 來 取 得 更 精 簡 的 合 併 樹。 本研究利用實際信用卡客戶的信 用資料來進行驗證。在 DTBMPA 方法 的實驗中,合併樹的準確度優於原始 一棵樹的比率有 90%,而修剪樹的準 確 度 大 於 或 等 於 合 併 樹 的 比 率 有 80%。在統計檢定中,合併樹和修剪樹 的準確度優於一棵樹的準確度達顯著 差異。且修剪樹的節點數較合併樹的 節點數平均減少約 15%。 關鍵詞:知識整合、決策樹、決策樹 合併、決策樹修剪 Abstract

In the knowledge economy era, mastering knowledge can improve organization competitive abilities. Therefore, knowledge creation, retention, application, and integration are becoming the hot themes for discussion nowadays.

Our research focuses on the discussion of knowledge integration and related subjects. Decision trees are one of the most common methods of knowledge representation. They show knowledge structure in a tree-shaped graph. Decision trees are simple and easily understood; thus we focus on decision-tree-based knowledge in connection with the theme of knowledge integration.

First, this research proposes a method called DTBMPA (Decision-Tree-Based Merging-Pruning

Approach) to solve this problem. There are three steps in this approach. In the merging step, the first step, two primitive decision trees are merged as a merged tree to enlarge the knowledge of primitive trees. In the pruning step, the second step, the merged tree from the first step is pruned as a pruned tree to

(3)

cut off the bias branches of the merged tree. In the validating step, the last step, the performance of the pruned tree from the second step is validated.

We took real credit card user data as our sample data. In the DTBMPA simulation experiments, the percentage accuracy for the merged tree will have 90% of chance that is greater than or equal to the accuracy for those primitive trees, and the percentage accuracy for the pruned tree will have 80% of chance that is greater than or equal to the accuracy for merged tree. And we also find that the average number of nodes of the pruned tree will have 15% less than that of the merged tree.

Keywords: Knowledge Integration, Decision Tree, Decision Tree Merging, Decision Tree Pruning.

二、計畫緣由與目的

在機器學習範疇內的歸納學習法 是從實際發生的案例資料中,以自動 化的方式來進行知識的擷取與學習。 歸納學習法在適當應用領域中確實可 以有效地替代知識工程師,來完成知 識擷取的工作。近年來決策樹歸納法 已有相當多的學者投入研究,並且將 演算法進行改良且提昇其效果。甚至 已發展出許多商業軟體,其具有學習 決策樹的功能,而且它們成功的應用 在解決實際的問題中。對於經由學習 演算法的複雜運算所獲得的決策樹形 式知識之後續知識整合是值得進一步 研究的課題;再者決策樹可用圖形化 的方式來呈現其知識結構,且層級式 結構十分簡單而易於瞭解,因此本研 究針對決策樹形式知識整合課題來進 行探討。 首先有關決策樹形式知識的合併 方面,有些學者利用投票表決、加權 投票、或其他演算法來綜合多棵樹的 知識,而這些處理方法並沒有實際整 合決策樹形式的知識,僅是外加一個 結合策略來綜合多棵樹的預測結果 值。另外有些學者是把決策樹的樹形 結構轉換成多條法則,再利用法則的 形式來整合多棵決策樹,但是這樣的 處理方法會失掉原有樹形知識的結 構,且轉換為法則後,亦會引發其間 法則順序的安排、法則修剪、法則重 複與法則衝突等問題。 而 Quinlan 以兩兩合併的方式把 三棵決策樹合併成一棵決策樹,而他 所提出的合併演算法是把第二棵樹取 代第一棵樹的葉節點,如此增長了決 策樹的路徑,而且使得合併樹的節點 數大幅成長。為了減少合併樹的節點 數,他採用簡化策略,刪除沒有例子 落入的葉節點,然而卻使得合併樹的 平均準確度降低,甚至低於一棵樹的 平均準確度。有鑑於此,本研究提出 新的合併方法,在結合多棵決策樹形 式知識的同時,不會大幅成長合併樹 的節點數,且期能提昇其預測準確度。 其次在修剪決策樹方面,傳統決 策樹修剪的目的是為了避免演算法過 於配合訓練例子集來進行分群,或是 因為資料內含雜訊而形成過度分支的 現象,因而造成產出的決策樹過於龐 大且複雜,因此將過度分支進行修剪 處理。本研究針對已合併後的決策樹 進行修剪處理,期能藉由修剪方法, 讓合併樹在保有原有預測能力下,能 減少其樹的節點數,換句話說,修剪 的目的在於取得一棵較精簡合併樹。 綜合上述,本研究的目的在於探

(4)

討如何把決策樹形式知識進行整合, 使多棵決策樹形式知識能整合包含於 一棵決策樹中,以達成知識累積的目 的;同時藉由適當的修剪方法,使合 併後的決策樹在保有其良好的預測能 力下,能減少其樹的節點數/複雜度。

三、結果與討論

3-1 決策樹形式知識管理架構 本研究提出一決策樹形式知識管 理架構(請參考圖一),此架構包括五 個主要元件,『決策樹建立』、『決策樹 前置處理』、『決策樹知識整合』、『決 策樹儲存』,及『決策樹應用』;其中 『決策樹知識整合』元件,為本研究 的研究範圍,包含了三個處理程序, 即『決策樹合併』、『合併樹修剪』和 『決策樹驗證』。 決策樹形式知識管理架構其運作 流程說明如下:首先依據研究問題搜 集其相關的原始資料,經由前置資料 處理,去除雜訊並處理空缺值,然後 進行隨機抽樣,把案例資料分成訓練 例子集和測試例子集。接著把訓練例 子集放入『決策樹建立』來產生出決 策樹。再者為了進行決策樹的知識整 合,我們建立兩棵原始決策樹,然後 將此兩棵決策樹放入『決策樹前置處 理』,進行修剪過度分支、處理代表性 不足的葉節點、及重複子樹等問題, 以及決策樹資料的轉檔等清理動作。 接著進行決策樹知識整合的處理 (請參考圖二),即將處理過的兩棵決 策樹經由『決策樹合併』程序,合併 成一棵決策樹。然後再將合併後的決 策樹,利用『合併樹修剪』程序來進 行修剪,最後將修剪過後的決策樹放 入『決策樹驗證』,利用額外的測試例 子集來進行評估,以瞭解合併修剪後 決策樹的準確度,即評估其預測未知 案例的能力。經檢視並分析測試結果 後,倘若準確度符合期望值,則將此 合併修剪樹利用『決策樹儲存』單元, 儲存在資料庫內,以供『決策樹應用』 將來使用。未來有新進例子載入時, 我們只需針對這些新進例子集建立決 策樹,再將此新建的決策樹合併於我 們原有儲存的合併修剪樹之中,即可 達成知識整合與累積的目的。 綜合上述,圖一所示架構如同一 個 知 識 管 理 工 廠 , 裡 面 包 括 知 識 產 生、知識清理、知識整合、知識重整、 知識評估、知識儲存和知識應用等知 識管理的功能。 3-2 『決策樹知識整合』元件說明 1. 決策樹合併 決策樹合併的目的在於把兩棵原 始決策樹合併成一棵決策樹。而它的 做法是由上而下比對兩棵決策樹的相 對 應 節 點 , 當 發 現 兩 個 節 點 型 態 不 同,或型態相同但選取不同分徑屬性 時,則在既有決策樹新增一個連結節 點,將兩個比對節點及其下所有分支 子節點,接枝到此連結節點下,而成 為其子節點。換句話說,即利用接枝 (Grafting)的技術,把新的決策樹 中不同於既有決策樹的分支,利用一 個連結節點,接枝到既有決策樹,以 擴增既有決策樹的知識。 2. 合併樹修剪 合併樹修剪的目的在於取得一棵 較精簡的樹,同時也避免合併樹經由 合併程序而產生龐大的合併樹。由下 而上計算每一子樹之估計錯誤率及把 它還原成葉節點之錯誤率,倘若子樹

(5)

的錯誤率大於還原成葉節點的錯誤率 時,就把此子樹還原成一個葉節點。 以下為計算公式: y 葉節點之估計錯誤率 N z N z N f N f z N z f et 2 2 2 2 2 1 4 2 + + − + + = f = E/N 為節點的誤判率,而其中 E 是錯誤分類的例子數,N 是此落入此 葉 節 點 的 總 例 子 數 ; 當 信 賴 水 準 為 25%,則 z 值為 0.69。 y 子樹之估計錯誤率 i k i i T e N N e

= = 1 其中 N 是子樹 T 的根節點的總例 子數,Ni是 T 的第 i 子節點的例子數, 而 T 有 k 個子節點。 3. 決策樹驗證 目的在於評估決策樹在合併修剪 前後之績效的差異。本研究中,決策 樹的績效評估指標包括複雜度和準確 度;複雜度衡量決策樹的大小,即決 策 樹 的 節 點 數 、 法 則 數 ( 葉 節 點 個 數)、及樹的層級等;準確度衡量決策 樹分類測試例子集的正確命中比率。 驗證的進行方式採用保留法(Holdout Method),即在建立決策樹之前,先將 例子集分為兩群,其中一群用來建立 決策樹,另一群則保留來驗證此決策 樹。這個程序主要是利用測試例子來 評估合併修剪樹的預測未知例子的能 力及計算其節點數目。 3-3 實驗設計與結果分析 本研究採用發卡銀行之信用卡客 戶歷史信用資料來進行實驗,經過資 料整理,刪除無效樣本及空缺值,共 計可用樣本為103,653筆。在目標值選 取上,本研究以正常流通卡為信用良 好客戶,而以強制停卡者為信用不良 客戶。 實驗樣本內所搜集到的屬性包括 年齡、學歷、年收入、有無甲存、有 無不動產、行業別、公司等級、職等、 一般卡張數及金卡張數,以及帳款餘 額和六個月的繳款記錄等,共計有十 七個;其中年齡、年收入及帳款餘額 為 數 值 性 線 索 , 其 餘 為 非 數 值 性 線 索。期能讓系統充分學習信用良好與 信用不良客戶之特徵,所以將此十七 個屬性完全納入學習之範圍。 實驗結果與發現,列示如下: 1. 準確度的比較分析:合併樹的準確 度比原始一棵樹的準確度有顯著 提昇。就七十次的準確度比較之 中,合併樹優於一棵樹之比率為 90%。就統計檢定分析而言,在顯 著水準α值為0.05且自由度是69的 情況下,合併樹的準確度優於一棵 樹的準確度達顯著差異。由此可 見,藉由樹形知識合併,可以擴大 決策樹的知識涵蓋面,提昇其預測 未知例子的準確度。 2. 合併樹的節點數成長問題:合併 樹的平均節點數是原始樹的平均 節點數的1.8倍,其中在最差的情 形下是合併樹的節點數是原始兩 棵 樹 的 節 點 數 加 總 ; 相 對 於 Quinlan的合併方法,其在合併三 棵樹的規模下,合併樹的平均節 點數約為一棵樹的平均節點數的 73.09倍;由此可見,本研究所提 出的方法所產生的合併樹之節點 數較不會大幅成長。而比較合併 樹與修剪樹的節點數,得知修剪 樹的平均節點數約為合併樹的平

(6)

均節點數的百分之八十五;換言 之,修剪方法使得合併樹的節點 數減少約15%。 3. 結合的順序:本研究採用兩兩合 併的方式進行多棵決策樹的知識 合併,對於決策樹的合併順序是 否影響合併後決策樹的準確度, 本研究經由統計檢定得知合併順 序並不影響合併樹的準確度。 4. 判定最終預測值策略:當有多條 法則在預測某一案例時,其預測 值互相衝突或預測之葉節點內的 各類別例子數之比例相當時,則 以 此 策 略 來 綜 合 出 最 佳 之 預 測 值。在此我們利用強態葉節點來 加強預測之準確度。經由實驗結 果得知,藉由設定強態法則可以 提升合併樹的準確度(優於原始 樹的準確度約26%)。 5. 知識累積:本實驗案例中,持卡 人的消費資料是與日俱增,發卡 銀行不需就所有資料重新去產生 一棵完整決策樹,而可僅就新增 資料部分產生一新增決策樹,再 利用本研究所提出之DTBMPA方 法將此新增決策樹加入原有決策 樹以擴充原有決策樹的知識。此 外,發卡銀行亦可將公司內部之 授信法則或專家知識法則,轉換 成樹形知識,然後再利用本研究 所提出之方法來整合至合併決策 樹內,以提昇決策樹內部知識的 廣度,以達知識累積的目的。

四、計畫成果自評

以往學者對於決策樹知識整合的 作法法大抵採用投票表決、轉換成法 則集的方法以綜合多棵樹的知識,而 這些處理方法或者沒有實際整合決策 樹形式的知識,或者失去了原有一棵 樹形結構的知識體系。而Quinlan提出 的合併方法雖可以將多棵樹合併成一 棵樹,然而產生的合併樹的節點數呈 乘數的巨幅成長;經修剪後,其準確 度低於一棵原始樹的準確度。有鑑於 此,本研究針對這個議題,提出一個 新的方法,進行決策樹形式知識的整 合,且讓合併後的決策樹之節點數呈 加數的成長;同時加入修剪方法,以 取得一棵較為精簡的合併樹。實驗結 果顯示合併樹的準確度優於一棵樹的 準 確 度 ; 而 在 保 有 合 併 樹 的 準 確 度 下,修剪方法可以減少合併樹的節點 數/降低樹的複雜度。 非常感謝國科會對本研究計畫執 行經費的補助,本研究經過一年的努 力,已達成當初研究計畫提出時的預 期成果。本研究兼顧理論創新與實務 應用,相關成果已著手整理成論文, 投稿至學術會議與期刊上,希冀能對 學術界相關研究及業界實際應用皆能 有所助益。

五、重要參考文獻

[1] Frank, E., Pruning Decision Trees and Lists, Department of Computer Science, University of Waikato, Hamilton, New Zealand. 2000.

[2] Mingers, J., An empirical comparison of pruning methods for decision tree induction, Machine Learning, Volume 4, 1989, pp.227-443.

[3] Quinlan, J. R., MiniBoosting Decision Trees, Journal of Artificial Intelligence Research, 1998.

(7)

[4] Quinlan, J.R., C4.5: Programs for Machine Learning, San Mateo: Morgan Kaufmann, 1992.

[5] Quinlan, J.R., Simplifying decision trees. International Journal of Man-Machine Studies, 1987, 27(3), pp.221-234.

[6] Williams, G., Induction and Combining Multiple Decision Trees, Ph.D. Dissertation, Australian National University, Canberra, Australia, 1990.

[7] Windeatt T. & Ardeshir G., An empirical comparison of pruning methods for ensemble classifiers, Proc. of Int. Conf Intelligent Data Analysis, Sept 13-15, Lisbon, Portugal, Lecture notes in computer science, Springer-Verlag,

2001, pp.208-217.

[8] Witten, I. H. & Frank, E, Data Mining: Practical Machine Learning Tools and Techniques with JAVA Implementations, Morgan Kaufmann, 2000. [9] 馬芳資,信用卡信用風險預警範 例學習系統之研究,第十屆全國 技職及職業教育研討會,技職研 討 會 , 商 業 類 I , 1995 年 , pp.427-436。 [10] 陳重銘,結合直線最適法於決策 樹修剪之影響研究,國立中山大 學資訊管理研究所碩士論文, 1995 年。

(8)

合併程序 舊的決策樹 合併決策樹 新的決策樹 驗證程序 測試例子集 修剪程序 修剪後合併決策樹 比較測試 結果資料 繼續合併下一 棵新的決策樹 選取並儲存 最佳的決策 樹為舊的決 策樹

n

o

p

圖一:決策樹形式知識管理架構 c 決 策 樹 建 立 d決策 樹前置 處理 n決策樹 合併 o合併樹修剪 p決策樹驗證 g決策樹應用 原始資料 測試 例子 集 處理過的決策樹 合併樹 修剪過的合併樹 f決策樹 儲存 新進資料 原始決策樹 已儲存的決策樹 處理過的決策樹 新的決策樹 首次知識整合建樹 後續知識整合建樹 知識整合處理流程 資料取樣

e

決策樹知識整合 圖二:DTBMPA 方法之運作流程

參考文獻

相關文件

• If we add the spread uniformly over the short rates in the tree, the model price will equal the market price.. • We will apply the spread concept to option-free

The main disadvantage of the Derman-Kani tree is the invalid transition probability problem, in which the transition probability may become greater than one or less than zero.

Therefore, the “Buddhism for this World” is a movement, in certain aspects, of “returning to the India’s primitive Buddhism and early Mahāyāna Buddhism.” The proposing of

Primal-dual approach for the mixed domination problem in trees Although we have presented Algorithm 3 for finding a minimum mixed dominating set in a tree, it is still desire to

• Content demands – Awareness that in different countries the weather is different and we need to wear different clothes / also culture. impacts on the clothing

• Examples of items NOT recognised for fee calculation*: staff gathering/ welfare/ meal allowances, expenses related to event celebrations without student participation,

In this way, we find out that the Chern-Simons partition function is equal to the topological string amplitude for the resolved conifold... Worldsheet formulation of

We propose a primal-dual continuation approach for the capacitated multi- facility Weber problem (CMFWP) based on its nonlinear second-order cone program (SOCP) reformulation.. The