第三章 、 研究方法
第二節 IDTBN 模式
經由第二章的文獻探討,可得知四種常見之資料分析方法的基本概念及優 缺點,決策樹及貝氏網路適合用以作為資料分析並建立出易於解釋分析的架構,
並可用機率分布的模型來表示變數間相互影響的關係與強度,在專家意見模型的 建構上,更能輕易歸納出專家意見的脈絡走向與所強調關鍵變數關係。
類神經網路雖然學習精確度高、可接受不同類型的變數作為輸入且可建構 非線性模型,或找出人類無法覺察出的關係,但缺點是執行速度緩慢,計算量大
相當耗費電腦資源,網路架構和網路動態的決定尚缺乏非常系統化的方法,並且 類神經網路之訓練與測試的細節無法得知,相對於貝氏網路以機率方式建構,類 神經網路中複雜的數學計算,較難解釋其涵義(Burnside 2005)。
案例式推理系統的優點是只需要加入與系統特徵與輸出結果相符的新案 例,便形同將新的知識涵括進來,不需要如同其它資料分析模型,例如:貝氏網 路或類神經網路,只要新資料加入仍需要經過重新計算,更新到新的架構上,案 例式推理也有其缺點,在使用其結果來解釋時需格外注意,因為它與類神經網路 類似的是,它仰賴的是其知識庫裡的所有案例,除非知識庫裡的某案例完全符合 新進入的未知案例,否則無法呈現出決策制定的機率(Burnside 2005)。
又貝氏網路相對於決策樹結構而言,較難直接萃取出推論法則,若將二者 結合則可呈現出複雜的決策制定過程(Janssens, Wets et al. 2006)。本研究乃提出 IDTBN 模式(Integrated Decision Tree and Bayesian Network),建構程序如下:
1. 以專家意見過錄後的資料,經過初步的資料前置處理,例如:必要時的資料 筆數擴充與數值資料離散化,再以 C4.5 決策樹演算法建構出決策樹架構,
並依其結果可分析出主要的關鍵屬性,亦即影響分類結果最主要的變數。
2. 於決策樹中被分類錯誤的實例資料,表示與整體資料的一致性較不吻合,因 此是可視為是離群值,於決策樹分析後將此種實例資料除去。
3. 由於決策樹依據關鍵屬性而呈現樹狀分支結構,在此階段將分類結果依據決 策樹分支的相關性分為幾組資料,以進行接下來的貝氏網路分析,以期貝氏 網路的結果能透過先行決策樹推論分類而更加收斂。
4. 依上一步驟資料分類各別進行貝氏網路的建構,經由參數學習(parameter learning)的過程,將不足的資訊以推算的方式補足,預期可得到準確度更 高且更符合各組貝氏網路連結關係所隱含的意義。
5. 所建構出之個別貝氏網路可用作目標變數之分類預測,並可分析變數之間的 相互關係以及機率分布值,藉此能瞭解變數間的影響強度。