• 沒有找到結果。

複決策結果之歸納學習法Multiple-Decision Outcome Inductive Learning Method for Knowledge Acquisition

N/A
N/A
Protected

Academic year: 2021

Share "複決策結果之歸納學習法Multiple-Decision Outcome Inductive Learning Method for Knowledge Acquisition"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫成果報告

複決策結果之歸納學習法

Multiple-decision Outcome Inductive Lear ning Method for

Knowledge Acquisition

計畫編號:NSC89-2416-H-110-088

執行期限:89 年 8 月 1 日至 90 年 7 月 31 日

主持人:鄭炳強 國立中山大學資訊管理系

計畫參與人員:陳耀宗 國立中山大學資訊管理系

一、中文摘要 由現存的案例中建立決策樹的歸納學習對自 動化知識擷取是非常有用的。大部分現存於文獻中 的方法只處理單一決策結果的問題。在本計畫中, 我們將發展一個處理複決策結果的歸納學習法。我 們將空間分割重疊的觀念引入一般的歸納學習法 當中。此方法先將每一個單決策的決策樹轉換成同 一個特徵空間的分割,再將這些空間分割重疊以產 生一個對複決策結果的空間分割。我們也進行一連 串的實驗來顯示此方法的效果。 關鍵詞:歸納學習、機器學習、專家系統、複決策 結果 Abstr act

Inductive learning that creates a decision tree from a set of existing examples is shown useful for automated knowledge acquisition. Most of the existing methods however, handle only the problems with a single-decision outcome. In this paper, we present an inductive learning method for multiple-decision outcomes. It introduces an overlapped partition-space concept into a regular inductive learning process. The idea is to transform the decision tree for each decision variable into partitions on a feature space and overlaps them to create a partition for multiple-decision outcomes. Experiments are performed which show the effectiveness of the new method.

Keywor ds: Inductive learning, Machine learning, Expert systems, Multiple-decision outcomes

二、緣由與目的 近年來,專家系統己漸為人所熟知,而且也己 廣泛地被應用在各個領域。儘管目前己有許多專家 系統發展工具與環境,可是發展一個專家系統仍是 一件耗時費力的工作,其主要的關鍵便是在知識擷 取的過程。傳統上知識擷取的工作是由知識工程師 (Knowledge Engineer)與領域專家(Domain Expert)面 談的方式來進行,然而領域專家往往很難清楚地, 有系統地表達出他的專業知識,以致知識工程無法 有效率地獲得所需的知識,因而形成了所謂的知識 工程的瓶頸。機器學習則是研究利用電腦科技快速 運算的能力,以自動化的方式來進行知識的擷取與 學習。歸納學習是主要機器學習方法之一。此種學 習是指系統能經由輸入的事實,資訊,加以選擇, 歸納而成為一般化的知識。 這類方法目前在實作方面已獲得相當程度的 成功。最早以決策樹的架構來進行歸納學習的是 Hunt 等人的 CLS (Concept Learning System)[Hunt et al., 1966]。CLS 在建樹的過程中,使用類似 MinMax 的 Lookahead , 搜 尋 固 定 深 度 的 狀 況 空 間 (State Space),以獲得最小分類成本的決策樹。Quinlan 提 出的 ID3 (Iterative Dichmizer 3)[Quinlan, 1979] 基 本上承襲 CLS 架構,但以資訊理論的評估函數 (Information-theoretic Function) 替 代 最 小 成 本 的 Lookhead。另外有一些研究則採用其他的評估函 數,如:Gini index, chi-square test 等等[Breiman et al., 1984; Klosgen, 1996; Piatetsky-Shapiro, 1991; Weiss and Kulikowski, 1991]。

不論是 CLS 或 ID3 都限制了分類事物的描述方 式,即只能用有限項數的屬性來表示事物的特徵。 而後 Peterson and Niblett 的 ACLS (Analog Concept Learning System)[Perterson and Niblett, 1982] 則允 許使用不限項數的整數屬性。Kononenko 等人的 ASSISTANT [Kononenko et al., 1984]更進一步放寬 對實數屬性的限制。ID3 的一個延伸版本,C4.5 [Quinlan, 1993],則將分類的屬性由類別屬性延伸至 數字屬性。

ID3 或類似的方法應用在現實世界中常會遇到 雜訊過多的問題。有很多研究致力於改善此問題, Quinlan [Quinlan, 1987a]提出樹修剪(Tree Pruning) 的方法,他以建立子樹對整體的貢獻度來決定是否 將子樹刪除。Quinlan [Quinlan, 1987b]也討論了機率 決策樹的歸納法。Cleary [Cleary, 1987]則提出將機 率整合到建樹的過程中,將同節點中不一致的案例 以不確定性法則來處理。Liang [Liang, 1992]發展了 一個將名目屬性及非名目屬性分開處理的整合性 法則歸納法,機率資訊被用來分析非名目屬性來容 納資料雜訊並產生較正確的切割點。Liang 等人 [Liang et al., 1990]則一個整合統計與歸納學習的方 法。Jeng 等人[Jeng et al., 1997]的 FILM 則整合模糊 集合的理論以提高對雜訊的容忍度。 雖然上述的研究對知識擷取的瓶頸有重大的 突破。但目前的研究都只能針對單一的決策變數來 作處理,即使用一組預測屬性來對映單一決策變 數,對於現實世界中的複決策結果(Multi-Decision Outcome)的問題卻仍未被處理。複決策結果指的是

(2)

2 使用同一組預測屬性來對映不同的決策變數。例 如:在網路書店的應用中,根據顧客的特性預測對 甲類,乙類及丙類書籍的購買情形,如圖 1 所示。 本計畫的目的在於提出一套方法來解決上述複決 策結果的問題。 預測屬性 決策變數 性別 年齡 教育程度 ….. 甲類 乙類 丙類 ….. 男 20 大學 買 不買 買 女 21 高中 不買 不買 買 男 30 碩士 買 買 買 圖 1. 複決策結果問題 三、結果與討論 (一) 基本概念 本計畫所解的問題是要找出一組案例中的共 同特性,並根據決策樹將其分為不同類別。其中類 別包含複數的決策變數,如:將顧客資料分為買甲 類及乙類書籍的顧客,買乙類及不買丙類書籍的顧 客…等等。為建立此決策樹,需有一組資料集 E 被 當成訓練集。E 中的每一案例都含有相同的一組預 測屬性變數及另一組被預測決策變數。各決策變數 的所有可能值必須為有限集合的元素之一,彼此互 斥。各決策變數可以是歷史資料的實際結果,如股 市的漲與跌,或是領域專家對事物的判別,如股市 分析師對股市的預測,決策變數之間可以有相關或 獨立。案例中的屬性變數用以描述事物的特徵,以 做為學習判斷之依據。屬性變數依其可能值可分為 類別屬性及數值屬性,類別屬性的值無大小次序之 分別,數值屬性的值則有大小次序之分別。 (二) 演算法 在本演算法中,先假設訓練集是完美的,案例 的屬性可以適當的描述所有事件且資料間沒有衝 突,可讓決策樹完全分類,且各決策變數互相獨 立。但在後續實驗中,我們將會放寬這些假設,來 驗證這些假設對本演算法正確性的影響。本演算法 會先對單一決策變數以傳統的歸納學習法產出單 決策結果,再將這些結果合併成完整的複決策結 果。傳統的歸納學習法請參考研究背景中所提到的 研究。在本節中,我們將只介紹處理複數決策變數 的觀念及其演算法。 從 ID3 或類似的演算法得出的決策樹可以表達 成在特徵空間的分割。決策樹的歸納在某一方面來 說,是將分割的子空間的內部相似性最大化。每一 個葉節點都可以對應到一個子空間,每一個案例則 是空間中的一點。例如:圖 1 中的決策樹便可以表 達成圖 2 中(X,Y)的 2 維空間分割。 X Y x z o X<=0 X>0 Y<=5 Y>5 圖 2. 決策樹 x x x x x x x x x x x x x x x x x x x o o o o o o o o o z z z z z z z z X Y 0 5 圖 3. 空間分割 在本研究中,每一個決策變數都產生出一個決 策樹或空間的分割,並且都落在相同的特徵空間 (即資料集中用來預測的屬性)。因此將多個單一 決策樹的空間分割重疊便可以得到對複決策變數 的空間分割。如圖 4 所示,M 分割與N分割都是各 3 個單決策變數子空間的分割,重疊之後可以得到 7 個複決策變數子空間的分割。 X Y 0 5 X Y 1 0 X Y 0 5 X Y 1 0 M N 圖 4. 重疊空間分割 但以重疊的方法所產生的每一個子空間,乃是 將各決策變數視為獨立。所以每一個子空間所代表 的法則也就等於是各決策樹的葉節點所代表的法 則的連集,所有的法則數為葉節點數之乘積。實際 用在判斷新案例時,等於對每一個決策樹分別作 Traverse,只有在各個獨立問題都預測正確,整體 來說才是正確,因此預測正確率的上限等於各個獨 立問題正確率的最小值,而下限則等於 100%減去 各問題錯誤率之和。 上述的方法並未產生新的知識結構,所以重疊

(3)

演算法若要得到好處,就必須將空間上的分割線予 以合併及簡化,如圖 4 中的 x=0 及 x=1 兩條分割可 能合併成 x=0.5。然而在實作上,合併後的分割線 應如何產生是個大問題,因為電腦並不了解每一條 分割線的意義,而只是單純根據 entropy gain 或其 他衡量指標來切割。因此將空間重疊後再來合併執 行上較為困難。我們採用另一個概念,也就是在重 疊前先合併分割線。實際的作法上則需要修改分割 的衡量指標。例如,以 ID3 演算法為例,每一次的 分割所根據的,不再只是對單一決策變數的 entropy gain,而是對每一個決策變數的 entropy gain 之加 總。如此分割所用以判斷的資訊將來自於所有決策 變數的綜合效果,其所產生的知識結構,則是我們 所期望的結果。

四、實驗

我們採用 Wnek [1993]及 Wnek and Michalski [1993] 的 資 料 集 MONKS 來 實 證 上 述 的 想 法 。 MONKS 問題常被用來比較各種學習演算法是否能 產生預先設定的決策概念[Thrun et al., 1991],共有 三個決策概念可測試,且此三個概念並不完全獨 立,當然其預測屬性皆相同,共有 6 個預測屬性, 皆為離散屬性。一共有 432 筆資料,事先區分為訓 練集(124 筆)及測試集(308 筆)。三個決策概念的規 則分別是:

(1) (a1 = a2) 或 (a5 = 1),Class=1。

(2) {a1 = 1, a2 = 1, a3 = 1, a4 = 1, a5 = 1, a6 = 1} 中 的 任 兩 個 成 立 而 且 只 有 兩 個 成 立 , Class=1。

(3) (a5 = 3 and a4 = 1) 或 (a5 4 and a2 3) , Class=1 ( 含 5% 的 決 策 雜 訊 [Class Noise])。 在本研究中將比較三個方法:(1)方法一:將各 決策變數視為獨立:對各決策變數作空間分割(原始 的 ID3)再分別預測(也就重疊)、(2)方法二:仍將各 決策變數視為獨立,但將各決策變數的結果作排列 組合來產生一個新的決策變數(在此例中有 8 種可 能值)再以 ID3 分割、(3)方法三:不將各決策變數 視為獨立,而在 ID3 演算法中,對各決策變數之 entropy gain 的線性加總取代對單一決策變數的 entropy gain。表二是實驗的結果,分別比較三個方 法在各決策問題上的表現。方法一對 Monks-3 的預 測可達完美,對 Monks-2 則非常差。可能是 Monks-3 的預測屬性互相獨立,對 ID3 來說不需要太多訓練 集,同理,Monks-2 的預測屬性相關性很大,不到 一半的訓練集顯然無法產生完整的知識結構。而將 三個決策樹連集起來來解複決策問題,一共產生 52500 條法則(50*75*14)。按照前一節的推算,此複 決策問題的預測正確率之上限為 49%,下限為 18%,而實驗的結果顯示 34%,很明顯地介於上下 限之間。 方法二將複決策問題簡化為一個單一的決策 問題,整體正確率為 43.18%,略差於預測正確率的 上限,而產生法則數則只有 92 條,明顯優於方法 一。 方法三則是針對複決策問題設計,其預測的正 確率應比其他方法較佳,實驗的結果是確實如此, 整體正確率為 46.43%,約與預測正確率的上限相 當,而產生法則數與方法二相同有 92 條,都是三 個方法之最。不過本方法的預測正確率及法則數都 與方法二相當,可能是因為 MONKS 問題的預測屬 性都是離散型的,若為連續型的屬性,可能可以得 到更佳的結果,仍須進一步實驗。另外本方法對於 Monks-2 的正確率仍不及 50%,原因是 ID3 演算法 對此問題本身就預測不佳,所以複決策問題會受單 一決策(在本例中是 Monks-2)影響。 表 1 三個方法的實驗結果比較 Monks-1 Monks-2 Monks-3 複決策 方法一 218 (70.78) [47] 150 (48.70) [72] 308 (100) [14] 111 (36.04) [47376] 方法二 278 (90.26) 147 (47.73) 272 (88.31) 143 (46.43) [90] 方法三 278 (90.26) 147 (47.73) 272 (88.31) 143 (46.43) [90] 註:每一格是正確預測的筆數,括號內的數值是預 測正確的百分率,方括號內的數值是所產生的法則 數。 五、計畫成果自評 經由上述的實驗結果可以發現,本研究所提的 解複決策問題的方法確實有初步的可行性,其預測 的正確率比將複決策問題視獨立的決策問題的方 法要佳。但由於採用 ID3 的 entropy gain 來切割資 料集,所以仍遺留有 ID3 演算法的缺點。但本研究 所提的空間重疊概念初步確認應是正確的,但後續 仍應以其他的演算法及衡量指標整合空間重疊的 概念來進行實證,才能更確認此概念的正確性。

六、參考文獻

[1] L. Breiman, J. Friedman, R. Olshen and C. Stone,

Classification of Regression Trees, Wadsworth (1984).

[2] J. G. Clearly, Acquistion of uncertain rules in a probabilistic logic, Int. J. Man-Machine Studies 27 (1987) 145-154.

[3] E. B. Hunt, J. Marin and P. J. Stone, Experiments in Induction, New York, Academic Press (1966). [4] B. Jeng, Y. M. Jeng and T. P. Liang, FILM: a fuzzy inductive learning method for automated knowledge acquisition, Decision Support System21 (1997) 51-73.

[5] W. Klosgen, Explora: a multipattern and multistrategy discovery assistant, in: U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurusamy (Ed.),

Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press (1996) 249-271.

[6] I. Kononenko, I. Bratko, and E. Roskar, Experiments in automatic learning of medical diagnostic rules (Technical Report), Ljubljana,

(4)

4 Yugoslavia, Jozef Stefan Institute (1984).

[7] T. P. Liang, A composite approach to inducing knowledge for expert system design, Manage. Sci. 38 (1992) 1-17.

[8] T. P. Liang, J. S. Chandler and I. Han, Integrating statistical and inductive learning methods for knowledge acquisition, Expert Systems with Applications1 (1990) 391-401.

[9] A. Peterson and T. B. Niblett, ACLS Manual, Edinburgh, Intelligent Terminals Ltd. (1982).

[10] G. Piatetsky-Shapiro, Discovery, analysis, and presentation of strong rules, in: G. Piatetsky-Shapiro and W. J. Frawley (Ed.), Knowledge Discovery in Databases, AAAI/MIT Press (1991) 229-238. [11] J. R. Quinlan, Discovering rules by induction from large collection of examples, in: D. Michie (ed.),

Expert Systems in the Micro Electronic Age, Edinburgh, UK, Edinburgh University Press (1979). [12] J. R. Quinlan, Simplifying decision trees, Int. J. Man-Machine Studies27 (1987a) 221-234.

[13] J. R. Quinlan, Probabilistic decision trees, in : P. Langley (Ed.), Proceedings of the Fourth International Workshop on Machine Learning, Morgan Kaufman, Los Altos, CA (1987b).

[14] J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufman (1993).

[15] S.B. Thrun and et al., The MONK's Problems -A Performance Comparison of Different Learning algorithms, Technical Report CS-CMU-91-197, Carnegie Mellon University in Dec. 1991.

[16] S. M. Weiss and C. A. Kulikowski, Computer Systems that Learn: Classification and Prediction Methods from Statistics, Neural Nets, Machine Learning, and Expert Systems. Morgan Kaufman (1991).

[17] J. Wnek, Hypothesis-driven Constructive Induction, PhD dissertation, School of Information Technology and Engineering, Reports of Machine Learning and Inference Laboratory, MLI 93-2, Center for Artificial Intelligence, George Mason University, March 1993.

[18] J. Wnek and R. S. Michalski, Comparing Symbolic and Subsymbolic Learning: Three Studies, in Machine Learning: A Multistrategy Approach 4, R.S. Michalski and G. Tecuci (Eds.), Morgan Kaufmann, San Mateo, CA, 1993.

(5)

行政院國家科學委員會補助專題研究計畫成果報告

※※※※※※※※※※※※※※※※※※※※※※※※※※

複決策結果之歸納學習法

※※※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別:þ個別型計畫 □整合型計畫

計畫編號:NSC89-2416-H-110-088

執行期間:89年8月1日至90年7月31日

計畫主持人:鄭炳強

計畫參與人員:陳耀宗

本成果報告包括以下應繳交之附件:

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

執行單位:國立中山大學資訊管理系

(6)

1

參考文獻

相關文件

式中 、 、 為隨物質而定的常數﹐表面張力隨液體性質不同可有很大差別。例 如 20 C 時有機液體苯的表面張力是 28.88

Cauchy 積分理論是複變函數論中三個主要組成部分之一, 有了 Cauchy 積分理論, 複變 函 數論才形成一門獨立的學科, 並且導出一系列在微積分中得不到的結果。 我們先從 Cauchy

分類法,以此分類法評價高中數學教師的數學教學知識,探討其所展現的 SOTO 認知層次及其 發展的主要特徵。本研究採用質為主、量為輔的個案研究法,並參照自 Learning

能夠說出詳略 有別、主次分 明、徐疾有致 的故事。. 能以特定人物

學習範疇 主要學習成果 級別 級別描述 學習成果. 根據學生的認知發展、學習模式及科本

 學生能圍繞主題說話,能運用連接詞略述 事情的經過,高年級學生可以用較多形容

Rebecca Oxford (1990) 將語言學習策略分為兩大類:直接性 學習策略 (directed language learning strategies) 及間接性學 習策略 (in-directed

• 當我們在歸類一個問題為 問題時,等於不在乎他的複雜度是 還是 之類的,只要是多項式時間就好。.