• 沒有找到結果。

IDTBN方法應用於整合專家意見之實證研究——以電力長期負載預測為例

N/A
N/A
Protected

Academic year: 2022

Share "IDTBN方法應用於整合專家意見之實證研究——以電力長期負載預測為例"

Copied!
89
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺灣大學管理學院資訊管理學研究所 碩士論文 

Department of Information Management  College of Management 

National Taiwan University  Master Thesis 

IDTBN 方法應用於整合專家意見之實證研究 

———

以電力長期負載預測為例 

An Empirical Study on IDTBN Applied to  the Integration of Expert Opinions 

­­ The Case of Long­term Electric Load Prediction 

楊琇珊 

Yang, Hsiu­Shan 

指導教授:曹承礎 博士  Advisor: Chou Seng­Cho, Ph.D. 

中華民國 97 年 7 月 

July, 2008

(2)

IDTBN 方法應用於整合專家意見之實證研究 

———

以電力長期負載預測為例 

An Empirical Study on IDTBN Applied to  the Integration of Expert Opinions 

­­ The Case of Long­term Electric Load Prediction 

本 論 文 係 提 交 國 立 台 灣 大 學   資 訊 管 理 學 研 究 所 作 為 完 成 碩 ( 博 ) 士  

學 位 所 需 條 件 之 一 部 份  

研 究 生 : 楊 琇 珊 撰 中 華 民 國 九 十 七 年 七 月

(3)

獻給我親愛的家人

(4)

誌謝辭

如果論文是兩年研究所生活的總結,那麼誌謝辭就是用以感謝這一路上陪我 度過的人們。論文與口試得以順利完成,並非單靠個人努力完成,首先要感謝我 的指導教授曹承礎老師,在研究方向上給我許多建議,點出許多論文撰寫時應注 意的問題,讓我得以發現論文進行中的盲點;也要特別感謝台電的陳鳳惠學姐,

提供許多關於研究案例的資料,給予我寶貴意見並協助我擬定研究架構,也不斷 鼓勵我不要放棄,持續努力把事情作到最好;在論文寫作期間,數次寄信詢問味 亭學姐一些研究時遭遇的問題,她也非常熱心為我解答,非常感謝。

研究所生活中少不了一群陪著我成長的研究室夥伴們,我們有最堅強的研究 陣容:貝瑜、立穎、宇頎、亭光、鼎鈞、Roger(志成)、彥一(志光)、子林,

在課業上相互切磋,論文後期大家彼此間鼓勵加油的話語,也一路伴隨我到口試 結束。兩年裡常有聚餐和唱歌等活動,也因為有你們,為我的生活妝點了不少活 潑色彩,這些都是難以忘懷的回憶點滴。研究室的學長姐和學弟妹,也都很親切 熱心,儘管大家一起出現在研究室的時間不多,但有大家一起在研究室就會感覺 到格外溫暖和氣氛融洽,貼心的學弟妹在學期末為我們策畫的送舊烤肉聚會,讓 我們真的很捨不得離開這個大家庭,以後有空會回來看看大家的。此外,也要感 謝我的大學好友聆寧,總是在我面臨論文瓶頸時,以即時通訊軟體陪我聊天,分 享許多新鮮的訊息給我,稍稍舒緩我的論文壓力,並給予我論文摘要潤飾和文法 上的建議,非常感謝。最後,還有感謝陪我走過三年半的男友,雖然無法常相見,

但睡前的手機通話總是陪伴著我入夢,給予我心靈上莫大的支持。

我也要特別感謝我的家人,感謝一路支持栽培我到研究所的父母,養育我們 的辛苦從不掛在嘴邊,並常在我低潮或忙碌於課業時,關心並叮嚀我要注意身體 健康,回到家看到妹妹的笑容和她們貼心的問候,便遺忘生活中所遇到的一切不 愉快,也深刻認同「家是唯一的避風港」這句話。再次感謝所有在成長路上給予 我幫助及關懷的朋友,願將這份喜悅與你們分享。

(5)

論文摘要

論文題目:IDTBN 方法應用於整合專家意見之實證研究——以電力長期負載預 測為例

作者:楊琇珊 民國九十七年七月

指導教授:曹承礎 博士

企業在進行研發及生產等活動皆須仰賴大量資訊,因此,如何將資訊轉化為 輔助企業決策的知識,即成為資訊超載時代之下所面對的首要課題。而在獲取知 識的途徑中,通常針對特定專業領域,萃取並整合專家意見的作法是為較常見的 模式。

若能有效統整專家意見並將其以結構化模型呈現,則可提供日後分析與應 用,並進一步支援相關領域之決策制定。本研究先擷取專家意見與討論中所提及 的外生變數及對預測值之可能影響程度,再整合決策樹(Decision Tree)分析與 貝氏網路(Bayesian Network)方法,將所得之意見資料建立成完整的專家知識 脈絡。使原本僅能得到單一分析者觀點的預測值,現在能保存集合多元專家預測 觀點的推論架構,進而作為決策支援系統預測值之微調參考。

由於電力需求與供給面的整合,可大幅提升電力資源之使用績效,電力負載 預測也進而成為重要課題。而透過決策支援系統(Decision Support System, DSS)

的輔助,已能達到以長期歷史資料佐以專家意見來進行電力負載量之預測,再由 專家根據決策支援系統的預測值作微調,然而此傳統作法並無保存專家意見背後 據以判斷的龐大知識架構。本研究乃選定電力產業為實例應用研究之標的,以研 究中所提出之 IDTBN(Integrated Decision Tree and Bayesian Network)方法,期 能整合專家諮詢會議中所提出之意見並建立出分析模型,使專家對決策支援系統 之結果值進行微調時,能以此反映出未來發展趨勢的模型並作為參考,使電力負 載預測結果更具準確性。

關鍵字:貝氏網路、決策樹、資料探勘、專家意見整合、電力長期負載預測

(6)

THESIS ABSTRACT 

An Empirical Study on IDTBN Applied to the Integration of Expert Opinions 

­­ The Case of Long­term Electric Load Prediction 

By Hsiu­Shan Yang 

MASTER DEGREE OF BUSSINESS ADMINISTRATION  DEPARTMENT OF IMFORMATION MANAGEMENT 

NATIONAL TAIWAN UNIVERSITY  JULY 2008 

ADVISER : Dr. Seng­Cho Chou 

The enterprise rely on a lot of information to lead production, research and  development activities; therefore, how to transfer the information into knowledge  which assists enterprises in making decision, becomes one of the most important issue  in the age of information overload. Usually, extracting and integrating expert opinions  of specific fields are the common rule to acquire knowledge. 

Effectively converging expert opinions and showing the structure of the  knowledge model can be used for analysis and application in the future and the  decision­making of related areas. This thesis aims to extract the extraneous variables  and their impact degree toward predicting value. The goal is to integrate Decision  Tree analysis and Bayesian Network and construct a complete knowledge profile of  experts with those variables and data. Not only will the predicting value of single  analyst’s view but also an inferring structure including multiple views of experts be  acquired. 

Because the integration of demand and supply side for electric power could  enhance the utility performance of electric power resource, the prediction of power  load becomes more and more important. With the aid of Decision Support System  (DSS), the power load could be predicted by making use of historical records and

(7)

experts’ opinions and slightly adjusting the predicting value of DSS by experts, but  the great knowledge structure used for judgment was not kept. In this study, we select  the power industry as our research target, and use IDTBN (Integrated Decision Tree  and Bayesian Network) method presented in this paper, to integrate the opinions given  in the expert meeting and build an analysis model. As a result, it can improve the  prediction of electric power load and cope with the changing trend of the future. 

Keywrds:  Bayesian  Network,  Decision  Tree,  Data  Mining,  Integration  of  Expert 

Opinions, Long­term Electric Load Prediction

(8)

目錄

誌謝辭...I 論文摘要...II THESIS ABSTRACT...III 目錄...V 圖目錄...VII 表目錄...VIII

第一章 、緒論...1

第一節 研究動機...1

第二節 研究目的...2

第三節 研究步驟與流程...4

第四節 論文章節安排...6

第二章 、文獻探討...8

第一節 決策樹方法...8

2.1.1 決策樹分析介紹...9

2.1.2 決策樹之構建與修剪...10

第二節 貝氏網路模式...11

2.2.1 建構貝氏網路...12

2.2.2 貝氏網路之數學模式與架構...13

2.2.3 貝氏網路之學習模式...17

第三節 類神經網路...19

2.3.1 類神經網路理論及架構...19

2.3.2 倒傳遞類神經網路...22

第四節 案例式推理...24

2.4.1 案例式推理概念 ...25

第三章 、研究方法...28

第一節 應用實例—台電公司電力長期負載預測...28

第二節 IDTBN 模式 ...32

第三節 實證研究方法與設計...35

第四節 研究架構...37

第五節 專家意見內容過錄...37

第四章 、研究過程與結果...39

第一節 資料前置處理...39

第二節 效益衝量指標...42

第三節 決策樹方法結果...43

第四節 貝氏網路方法結果...47

第五節 IDTBN 方法應用結果 ...51

(9)

第六節 IDTBN 方法效益分析 ...55

第五章 、結論與建議...60

第一節 結論...60

第二節 建議...62

5.2.1 研究限制 ...62

5.2.2 未來研究方向 ...63

附錄一:專家諮詢會議資料過錄表(前 5 筆資料)...64

附錄二:資料過錄格式表...70

附錄三:原始資料檔案...72

參考文獻...74

(10)

圖目錄

圖 一­1  本論文研究流程 ... 6 

圖 二­1  DAG 圖形 ... 13 

圖 二­2  貝氏網路範例:family­out 問題... 15 

圖 二­3  貝氏網路範例:信用卡盜刷問題 ... 16 

圖 二­4  類神經網路單元之模型... 20 

圖 二­5  類神經網路的範例... 21 

圖 二­6  標準倒傳遞類神經網路... 22 

圖 二­7  案例表達方式 ... 25 

圖 二­8  CBR 系統推論流程... 26 

圖 二­9  案例式推理系統之範例... 27 

圖 三­1  本論文研究架構 ... 37 

圖 四­1  WEKA 交叉確認模式設定 ... 44 

圖 四­2  WEKA J48  參數設定介面... 45 

圖 四­3  WEKA J48 決策樹模型... 46 

圖 四­4  WEKA BayesNet  參數設定介面 ... 48 

圖 四­5  WEKA BayesNet Simple Estimator 參數設定介面 ... 49 

圖 四­6  WEKA BayesNet search algorithm:K2  參數設定介面... 49 

圖 四­7  WEKA BayesNet  貝氏網路模型 ... 50 

圖 四­8  參考決策樹模型之兩大類資料 ... 51 

圖 四­9  WEKA BayesNet  貝氏網路模型:分類一... 52 

圖 四­10  WEKA BayesNet  貝氏網路模型:去除錯誤資料之分類一... 53 

圖 四­11  WEKA BayesNet  貝氏網路模型:分類二... 54 

圖 四­12  WEKA BayesNet  貝氏網路模型:去除錯誤資料之分類一 與其部 分機率分布表 ... 57 

圖 四­13  WEKA BayesNet  貝氏網路模型:分類二 與其部分機率分布表  ... 58 

圖 四­14  各階段方法之 Accuracy 比較圖 ... 59

(11)

表目錄

表 三­1  常用支援進行長期電力負載預測之計量方法比較... 30 

表 三­2  個案公司電力用電預測結果—時間序列分析模式... 31 

表 四­1  資料分析所選取之變數名稱與代表意義 ... 40 

表 四­2  專家意見過錄對照表... 41 

表 四­3  confusion matrix 示意圖... 42 

表 四­4  WEKA J48 決策樹之參數設定 ... 44 

表 四­5  WEKA J48 分類結果衡量指標 ... 46 

表 四­6  WEKA J48 之 confusion matrix... 46 

表 四­7  WEKA BayesNet 貝氏網路之參數設定... 48 

表 四­8  WEKA BayesNet 分類結果衡量指標 ... 50 

表 四­9  WEKA BayesNet 之 confusion matrix ... 50 

表 四­10  WEKA BayesNet  分類結果衡量指標:分類一 ... 52 

表 四­11  WEKA BayesNet  之 confusion matrix:分類一 ... 52 

表 四­12  WEKA BayesNet 分類結果衡量指標:去除錯誤資料之分類一  53  表 四­13  WEKA BayesNet 之 confusion matrix:去除錯誤資料之分類一 54  表 四­14  WEKA BayesNet 分類結果衡量指標:分類二 ... 55 

表 四­15  WEKA BayesNet 之 confusion matrix:分類二... 55 

表 四­16  各階段方法之 F­measure 指標比較表... 59

(12)

第一章、緒論

本章將說明研究動機、研究目的、研究步驟與流程,以及論文章節安排。

第一節 研究動機 

20  世紀是資訊社會的時代,企業依賴大量資訊進行研發、生產、銷售和服 務的活動,因此,如何消化處理大量資訊即是以資訊為導向的時代中之重要課 題。而管理科學下的決策理論與數量方法等領域所著重的提供問題解決方案,在 問題的解決過程中,從界定問題與描述問題開始,及至建立問題的解決架構,其 中牽涉的也是如何處理資料、構建資料處理模型、形成決策、支援決策制定等過 程,實則也就是「將資訊轉成問題解決方案的過程」(許士軍,1982),進而提供 決策制定之參考。

進入 21 世紀,則是面臨知識暴漲的時代,社會科學和管理科學著重的是如 何將資訊轉化成知識,提供企業和組織在知識經濟的時代,保有競爭優勢,佔有 一席之地(Baupin and Zreik 2000)。在知識經濟的時代下,前一世紀所著重處理大 量資訊,進而將資訊轉成問題解決方案,仍屬重要,但如何從資訊到知識,或是 說如何進一步將資訊延展成知識,則是知識經濟時代下另一個重要的課題。

從狹義來看,將資訊轉化成知識,或者說進一步將資訊延展成知識,可以 有兩種途徑,其一是從大量資料庫中,藉由人工智慧的技術或方法,例如:應用 人工類神經網路(Neural Network)、案例式推理(Case Based Reasoning;CBR),

或是模糊規則(Fuzzy Rules)等,整理分析萃取出知識。其二則是更快捷的知識 獲取途徑,就是直接蒐集或詢問專家之意見,經由整理分析,而成有條理的知識 呈現出來(Burnside 2005)。

(13)

在實務上,藉由整合專家意見獲取快捷知識,係知識應用常見的模式。事 實上,整合專家意見內容分析出來的知識,也的確應用在很多層面,諸如:技術 預測、趨勢預測、未來發展預測等,也有應用計量方法預測出來的結果,再依賴 專家諮詢進行預測結果的微調,著名的德爾菲調查方法(Delphi Survey)就是專 門用來在其中搭配收斂專家意見的調查法。不過,這一類研究模式主要針對發展 專家意見調查,再進行調查意見之內容分析而得,其中,有關專家意見內容的分 析多應用規範性研究模式(Chava et al., 2003),進行內容分析整理,並未引用量化 分析方法,分析所得資料。

至於將專家調查意見內容進行計量模式處理者,例如:應用 AHP 方法、貝 氏網路模式(Bayesian  Network)或是貝氏整合方法等,其資料雖經計量方法分 析處理,但往往所得分析的結果,僅得資訊卻失卻當中豐富的知識脈絡。如應用  AHP  分析方法得出的是最佳化方案評選結果,應用貝氏網路模式重點在於進行 新案例的預測,應用貝氏整合方法則僅止於修正原先預測目標値等。基於整合專 家意見係獲取快捷知識重要的途徑,那麼如何將專家意見不僅達到內容整合的效 果,倘能夠應用計量方法,達到分析的目標,又保留其中重要的知識脈絡,換言 之,不只能夠處理大量資訊,又能將資訊進一步延展成知識,整理出知識的脈絡,

那也許將有助於增進當代社會知識之獲取。

第二節 研究目的

源於上述研究背景與研究動機,本論文擬根據此一研究旨趣,選取合適的 應用實例,然後依照案例資料的特性,發展 IDTBN 模式 (Integrated Decision Tree  and Bayesian Network),應用於整合分析專家意見,希冀能夠達到以下的效果:

Ø 整合專家意見內容(例如:技術預測的做法)。

Ø 應用計量模式處理專家意見資訊 (例如:貝氏網路模式或是決策樹方法等)。

(14)

Ø 將資訊延展成知識,且進一步保留其中重要的知識脈絡。

其次,更重要的是本研究針對專家意見的蒐集並不囿限於德爾菲專家問卷 調查,而是透過任何資訊平台,只要有提供社群互動功能者,均可作為資料蒐集 的來源。未來只要針對專家意見內容,進一步發展自動化內容擷取與分析機制,

替換本研究現階段人工資料過錄作業,即可將本研究模式與社群互動資訊平台結 合,達到自動化擷取與分析專家意見內容的效果,結合當前社群應用平台功能,

擴大應用範圍、有效處理大量資訊,發揮本研究之潛在研究效益,這部分將在本 論文結論的地方,詳加闡述。

具體而言,本論文研究的主要重點在於:

一、根據本論文之研究動機與研究目的,參酌相關文獻探討結果,規劃整體 研究設計、流程,以及研究架構,俾便突顯本研究之價值所在。

二、選取台電公司長期電力負載預測之應用實例,根據應用實例之資料特 性,搭配實務上待解問題的指引,結合計量方法和技術,發展  IDTBN  模式,進行個案專家整合意見之分析與處理。

三、以知識應用之觀點,探討本研究所提  IDTBN  模式與其他相關研究方 法,如:貝氏網路模式、決策樹方法、類神經網路或案例式推理等之間 的特點異同及其中的優劣。

四、從個案實際應用效益的觀點,比較本研究所提 IDTBN 模式與個案其他 既有相關處理模式,包括:電力長期負載預測 BAU 模式之間的優劣勢 分析。

五、驗證 IDTBN 模式在整合專家意見與萃取知識上所具有之實質效益。

六、以增進潛在研究效益的觀點,探討與分析本研究與專家社群互動資訊平 台結合的效益。

(15)

七、凝聚本研究的心得與結果,前瞻未來相關研究之展望。

第三節 研究步驟與流程

本論文的研究目的主要有兩大部分,其一是構建 IDTBN 模式,提供專家意 見整合分析之另一個可能處理模式;其二是以增進決策效益之觀點,將所構建的  IDTBN  模式,實際應用於個案實例上,藉以解決實務應用之需。根據上述本論 文在研究上的兩大需求,有關整體研究設計,如何滿足實務應用上之需,並且進 一步驗證所構建之 IDTBN 模式具備優質效益,係本論文之研究重點,也是本論 文在研究設計上需要特別費心處理的部分。

基於上述,本論文在研究步驟上主要規劃七個步驟,茲分別說明如下:

一、研究動機:

從新進相關研究文獻上,挖掘出研究的新議題,試圖從中尋找本論文在研究 上合適之相關研究題目及其未來研究上的可能貢獻與助益。

二、研究目的:

源於研究背景與研究動機,選定本論文之研究主題與目的,作為後續研究進 程之方向與依據。

三、研究問題與範圍界定:

在研究目的的指引下,進一步清楚定義本研究所要解決的研究議題,並界定 可行的研究範圍。

四、相關文獻探討:

根據研究的目的與主要研究內涵,蒐集與本研究相關之文獻,主要文獻蒐 集、整理與分析的方向,包括:貝氏網路模式、決策樹方法、類神經網路、

案例式推理等相關文獻探討,希冀能夠藉此彙整出較具週延的研究架構、模

(16)

式構建與研究設計,提供本研究作為後續研究的參考依據。

五、研究方法:

應用實證研究的方法蒐集相關專家意見,應用個案研究的方式進行模式與分 析方法之間的比較。

六、選取應用實例:

根據本論文所界定之研究目的與內容,並且考量相關資料之蒐集與整理之可 能支應情形,特選取台電公司長期電力負載預測應用實例,作為本論文的實 務應用案例,並於此章節介紹台電公司長期電力負載預測所使用之計量方 法。

七、發展 IDTBN 分析模式:

根據實例應用之需,規劃可行架構,蒐集相關所需資料,發展 IDTBN 資料 分析,並探討應用模式進行個案實例之分析結果。

八、IDTBN 模式驗證:

驗證 IDTBN 模式所具有之實質效益。

九、結論與建議

根據本論文整體研究的過程與結果,摘述主要研究發現、價值與貢獻,並進 一步探討相關研究限制,以及提出未來可行的研究方向。

(17)

本論文之具體研究流程架構,則如圖 一­1 所示。

圖 一­1  本論文研究流程

(資料來源:本研究整理)

第四節 論文章節安排

根據前述之研究背景、研究動機,以及本論文主要研究目的與內容,本論 文在章節架構之安排上共分五章,各章之大要分別為:

(18)

第一章緒論:說明研究背景、研究緣起、目的、範圍與具體研究步驟與流 程。主要在於試圖表達構建 IDTBN 分析模式,對於整合專家意見、萃取知識,

及其在知識經濟時代所具有的意義與效益,並說明論文整體研究方向、研究流程 與可能內容。

第二章相關文獻探討:本章分就五方面領域,包括:貝氏網路模式、決策 樹方法、類神經網路及案例式推理系統,進行相關文獻探討,藉此彙整出較具周 延的研究架構與內容,提供本研究進行後續研究之參考依據。

第三章研究方法:本章說明本論文選取應用實例的考量、案例的具體內容、

本研究所提 IDTBN 模式、實證研究方法之應用、研究設計、研究架構以及具體 之專家意見蒐集與過錄的人工處理過程等。

第四章說明整體實質研究的過程與結果:先進行各別僅應用決策樹或貝氏 網路分析的實驗,並進一步應用本研究所提 IDTBN 模式分析處理個案資料,各 別詳述分析的過程與結果,藉此突顯 IDTBN 模式所具的效益與優勢。

第五章結論與建議:於本章中將整體論文研究的過程與結果作一綜觀,指 出其中的研究價值與意義、重要研究成果、後續改進建議,並進一步探討本論文 在研究上的限制以及未來可能的研究發展方向,俾有助於本論文在研究上之延伸 以及供後續相關研究參考使用。

(19)

第二章、文獻探討

本章將對貝氏網路、決策樹、類神經網路與案例式推理等資料分析技術,

進行相關文獻探討,以期對於本論文進行後續研究之參考。

第一節說明貝氏網路之構建、數學模式及其學習模式;第二節將說明決策 樹之構建與修剪方法;第三節將介紹類神經網路的理論與架構,及最常使用之倒 傳遞類神經網路運作方式;第四節將介紹案例式推理系統之概念及運作模式。將 於第三章第二節提出本研究之 IDTBN 方法,討論在上述四個方法裡為何選擇決 策樹與貝氏網路,並整合兩者之優點,使結果能優於上述方法各別作單一使用的 效果。

第一節決策樹方法

分 類 分 析 是 從 已 知 類 別 的 物 件 實 例 ( Instance ) 集 合 中 , 根 據 其 屬性

(Attribute)來建立類別(Class)的過程,其中物件屬性是可能影響物件類別之 描述。 

1.  類別:用來代表決策或所屬分類。例如,在視力檢查結果之範例中,類 別可能有近視與末近視兩種,類別的所有可能值必須為有限集合的元 素之一,彼此互斥。在訓練資料集中,須包含有各種類別之範例,方 能獲得有效之歸納結果。 

2.  屬性:用以描述範例的特徵,亦及用來分辨兩個不同的範例。屬性依其 值可以分為兩類: 

a.  類 別 屬 性 ( Categorical  Attribute ) 或 稱 名 目 屬 性 ( Nominal  Attribute) :在這類屬性中,各值之間並無大小或次序間的關係。

(20)

b.  數值屬性 (Numerical Attribute) 或稱有序屬性 (Ordered Attribute) : 各值之間存在有大小或次序間的關係,數值屬性又分為整數屬性 與實數屬性。

因此,分類分析目的是要產生一個分類模式,可用以描述物件屬性與類別 之間的關係,進而對未知類別或新資料進行類別預測。而決策樹分析即為一種分 類分析方法。 

2.1.1  決策樹分析介紹

決策樹建構是利用監督式學習法,從訓練集合中以適當之屬性挑選函數,

從 所有 屬 性中 挑選 出 可 用 以建 構 決 策 樹 根 節 點(root  node) 及各個內部節點  (internal  nodes)的屬性,用以建構決策樹,並對物件進行分類處理。主要優點在 於可產生容易瞭解與運用的決策法則。 

1.  ID3 

決策樹包括很多衍生的模型,不同模型之間除了可以判別的資料型態不同 外,對於決定分類屬性先後順序的演算法也不同。ID3 為一決策樹歸納技術,在 構建決策樹過程中,ID3  以資訊增益(Information Gain)為依據,選擇最佳屬性 當成決策樹的節點,使得所建立的決策樹為一最簡單 (或接近最簡單) 的決策樹。

資訊增益(Information Gain)是由以某一屬性為決策樹節點所產生的子決策樹之 熵值(Entropy)與物件集合的熵值所決定(Quinlan 1986)。ID3  選擇分類屬性的方法 對於一般學習問題已經有不錯的結果,但是以資訊增益的屬性挑選準則偏好於選 擇屬性值較多的屬性。倘若資料集合依據屬性C的可能值進行分類,而每個屬性 

C可能值的分支僅存在單一筆資料時,則該屬性C將具有最大的資訊增益;但在 實際決策上,屬性C並不具決策價值。為了改進資訊增益的缺失,Quinlan  提出 資訊增益率(Gain­Ratio Measure)的方法作為選擇適當決策屬性的根據(Quinlan

(21)

1993)。資訊增益率方法是利用屬性資訊增益除以屬性可能值數量的正規化方 法,避免決策屬性的選擇偏向於具有多個屬性值的屬性。 

2.  C4.5 

但 ID3 無法處理分析性資料屬性,而 C4.5 則使用連續性數值分割方法,因 此可處理分析性資料。C4.5 是目前最常用的決策樹分類法,是由學者 Quinlan  改 進著名的 ID3  學習演算法而發展出的決策樹歸納學習法(Quinlan  1986)。該連續 性數值分割法是:先將資料集合根據數值屬性的屬性值大小進行排序,再計算出 兩個可能屬性數值的中點,稱為分割點(Cut point) ,先將資料集合分為兩部分,

再以決策屬性挑選評估函數計算該分割點所得之決策屬性評估值;最後,將在眾 多的分割點中選擇具有最佳屬性評估值的分割點作為該數值屬性的資料樣本區 分點。 

3.  CART 

能處理連續性資料的決策樹也可稱為迴歸樹(Regression  Tree) ,CART 

(Classification And Regression Trees) 就是其中一種,對於分類屬性的先後順序, 

CART 採用 Gini 索引法(Gini index) 。當決策樹要預測一筆新資料時,會先從根 節點進入,隨後會按照各非葉節點作分類判斷,等到分到葉節點時,則該葉節點 所代表的意義,就是該筆新資料的預測結果。 

4.  CHAID 

CHAID(Chi­squared  Automatic  Interaction  Detection)主要運用卡方檢驗

(Chi­square)選擇具有統計顯著性區分力的屬性作為樹狀結構的內部節點。 

2.1.2  決策樹之構建與修剪

基本的決策樹建構演算法如下:

(22)

1.  從設定決策樹的根節點(Root Node)開始,設定根節點為目前節點C, 此時所有訓練物件將都屬於C的物件集合。若C中所有的物件都屬於 同一類別(Class) ,則將此類別設定為C之決策結果,然後停止,否則 繼續執行步驟 2。 

2.  對C中所有的物件,針對所有尚未出現在從根節點到目前節點路徑的所 有屬性 A (稱之為候選屬性) ,利用屬性挑選函數挑選出一個具有最佳 類別區分力的屬性 A 作為節點 C的分類屬性。 

3.  在節點C,根據所挑選出的屬性 A 的 m 個屬性值,在節點 C下建立子 節點 C 、  C  、… 、  C  ,並根據分類屬性值將 C中的所有物件分派至 適當的子節點中。 

4.  將每個子節點 C  當成目前節點 C,並分別由步驟  1  繼續執行決策樹的 建構。

當決策樹成長完成之際,雖然能夠完整地描述訓練範例中所有的物件,但 卻不夠一般化地來預測其它未觀察到的範例。因此,犧牲一些對訓練範例描述的 正確性,來換取對其它眾多的未觀察範例的一般化描述,便構成決策樹修剪的原 因。成本-複雜修剪法(Cost­Complexity Pruning) 、臨界值修剪法(Critical Value  Pruning ) 、 最 小 誤 差 修 剪 法 ( Minimum­Error  Pruning ) 、 降 低 誤 差 修 剪 法

(Reduced­Error  Pruning) 、悲觀誤差修剪法(Pessimistic  Error  Pruning)等修剪 方法相互比較,其顯示前三者有較佳的結果(Mingers 1989)。

第二節貝氏網路模式

貝氏網路(Bayesian  Network)是一種對於不確定之事物加以描述與推論的工 具  (Pearl  1988)。貝氏網路可用以表示機率之關聯性,常用於描述許多真實世界 中所可能面臨的問題,其中包含決策支援、問題診斷、預測、自動監控、製程控

(23)

制與資訊萃取等層面  (Heckerman, Mamdani et al. 1995)。 

2.2.1  建構貝氏網路

貝氏網路的建立包含下列五個步驟(Enrique, Jose et al. 1997): 

1.  決定在該問題領域相關之變數的集合,如 X = { ,x x x1 2, ,...,x 。  2.  將該集合中的變數做適當排列。 

3.  由變數集合中選擇一變數 x  作為貝氏網路中對應的一個節點。 

4.  在已建立的網路中,針對 x  尋找出集合:  Parents x  成為 ( )  x  的 『因』, 並 確保網路中條件獨立(Conditional Independence)的情況。 

5.  定義出 x  的條件機率表。

貝氏網路具備下列三項優點(Heckerman 1996) (Shachter 1988): 

1.  貝氏網路結合貝氏統計方法能輕易整合領域知識(domain knowledge)

與資料(data) 。在現實世界中,系統建構者重視與問題有關之領域知 識,尤其與此問題相關的資料量很龐大或昂貴時。貝氏網路能將關於問 題的知識以因果關係表示之,並以機率表示因果關係的強度。 

2.  貝氏網路允許使用者對因果關係進行學習。學習能力乃貝氏網路一項極 重要的能力,特別是當網路建構者對欲求解問題的領域知識不足時。 

3.  貝氏網路可處理資料不完整的問題。貝氏網路在建構之時,若建構網路 時資料不完整,使用者可以主觀的設定未知的參數值,如事前機率 (prior  probability)等,以彌補資料的完整性。

(24)

2.2.2  貝氏網路之數學模式與架構

貝氏網路包含了一組隨機變數相互之間的關連性與聯合機率分配,其中每 個變數可能是有限的離散變數或是連續變數(Heckerman  and  Breese  1995)。貝氏 網路由問題的領域知識與資料所構成,因此若以 B 表示貝氏網路,則 B =( D, P )。

其中 D 表示一有方向性的非循環圖形(directed acyclic graph;DAG),即表示問題 的領域知識,此外,網路中不允許有向性循環(directed  cycles)存在。P  為  DAG  中某一變數的聯合機率分配(joint probability distribution;JPD),即表示關於問題 的資料。如圖 二­1  所示,其中每節點(node)代表一個隨機變數,節點間的連線 則代表隨機變數之間所存在的因果關係,及彼此相互獨立的假設,而獨立假設可 決定於隨機變數之間的機率分布,亦即所需要的機率資訊  (Charniak 1991)。 

X

X

X

X

X

X

圖 二­1  DAG 圖形

貝氏網路中一個問題包含一組變數 X = ,..., } ,以及一組條件機率分配 關 係 , 這 包 含 一 些 條 件 相 關 (Conditional  Dependent) 與 條 件 獨 立 (Conditional  Independent)的假設或認知,這讓我們得以建構出的聯合機率分配函數,根據 機率的連鎖律(Chain Rule),我們將之表示成為:

Õ

=

-

p x 

,...,  )  (  |  ,...,  ) 

(  (1)

(25)

對於每一個 x  ,令  Í { 1 ,..., - } 為一個表示 { 1 ,..., 中與 x  相關的子集 合,因此我們得到: 

|  (  )  ,..., 

p x 

p = P (2) 

其概念是將 x  的分配用  P 取代 i 1 ,..., } 去描述之,如此一來問題就被簡化 了。有了這些關係,貝氏網路可以將變數的關連性以一個具方向性的、非循環性 的圖形去描述,其中每一個 x  ,...,  分別對應到圖中的一個節點(Node),而該節 點所有父節點的集合即是 P 。在之後的論述中,我們將以 i x  同時表示該節點與 該節點所對應的變數。

結合式(1)與式(2),我們得到貝氏網路聯合機率的基本表示法:

Õ

=

P

n

p x 

,...,  )  (  |  ) 

(  (3) 

因此,圖 二­1 之影響程度可藉由條件機率來表達,如下式所示: 

1 2 3 4 5

6 5 5 2 3 4 1 2 3 1 2 1

(X , X , X , X , X , X ) 

(X | X ) (X | X , X ) (X | X , X ) (X | X ) (X | X ) (X ) 

P P P P P P

=

這是最基本的架構,其中變數的順序安排必須經過適當的選擇,若選擇不 當,則最後產生的結果將無法成功的利用條件獨立所帶來的簡化效果。在實作 上,專家們通常可以輕易地對於變數間之因果關係與條件相關性做出假設,而我 們 可 以 直 接 利 用 這 些 假 設 去 建 構 出 貝 氏 網 路 而 不 用 先 去 排 列 這 些 變 數  (Heckerman 1996)。

貝氏網路中的因果關係是推測性而非決定性的。在貝氏網路中,沒有父節 點的節點須指定其事前機率,而每一個擁有父節點的節點都有一個條件機率表,

用以表示其直接影響的父節點之間的可能組合。

(26)

圖 二­2  貝氏網路範例:family­out 問題

(資料來源:Charniak,1991)

圖 二­2 是一個包含機率表的範例  (Charniak 1991)。這是一個用以推測「家 人是否在家」的問題,首先要決定問題的變數:family­out(家人不在家)、 

bowel­problem(狗的排便問題)、dog­out(狗在房子外面)、hear­bark(聽到狗叫 聲)、light­on(門外燈亮著)。其中 family­out 代表家人是否出門;bowel­problem  表示狗是否想要排便;dog­out  表示狗是否在房子外面;hear­bark 表示是否聽到 自家狗吠的聲音;light­on  表示門外燈是否亮著。每個隨機變數都擁有其事前機 率表或條件機率表來表示其與相鄰節點之間的影響關係。

根據經驗,我們假設家人是否出門和狗的排便問題,與狗是否在房子外面 是相關的,同時家人是否出門也會影響門外燈是否亮著,而狗是否在房子外面也 影響著是否聽到自家狗吠的聲音之可能性。依據過去累積的記錄可以得到上述變 數的條件機率,以建立圖 二­2 中的條件機率表和貝氏網路結構。

另一個以貝氏網路解決問題的例子是關於信用卡盜刷的問題。首先定義問

(27)

題的變數如下:盜刷(F)、加油(G)、買珠寶(J)、年齡(A)、以及性別(S)

等。其中 F 表示該筆交易是否為盜刷;G 表示在之前 24 小時之內是否有去加油; 

J 表示在之前 24 小時之內是否有去買珠寶首飾;年齡 A 在此可以為一連續變數,

表示該信用卡持有者之年齡;性別  S  表示該持有者為男性或女性。(Heckerman  1996) 

圖 二­3  貝氏網路範例:信用卡盜刷問題

(資料來源:Heckerman,1996)

根據經驗,我們假設是否為盜刷、持卡者年齡與性別是與其購買珠寶之慾 望和需求相關的,同時是否盜刷也影響著是否有加油的行為。根據這個關係,我 們可以從以往信用卡消費的統計資料中得到相關的條件機率,藉此我們建立了圖  2­2 的貝氏網路。注意,在這個模型中,我們同時意涵著以下的條件獨立性: 

)  ,  , 

|  (  )  ,  ,  , 

|  ( 

|  (  )  ,  , 

|  ( 

)  (  )  , 

|  ( 

)  (  ) 

p

=

=

=

(4) 

由於貝氏網路給我們的是整個問題的聯合機率,因此我們可以藉由機率的 定理來求得任何我們想知道的條件機率。舉例來說,我們想知道某一筆交易是否

(28)

為盜刷,我們可以這樣計算:

=

å

(  ' ,  ,  ,  ,  )  )  ,  ,  ,  ,  (  ) 

,  ,  ,  ( 

)  ,  ,  ,  ,  )  ( 

,  ,  , 

a s g 

(5) 

然後根據方程式 3 的定義,方程式 5 可以再展開成為:

å å

=

)  ,  ,  ' 

|  (  )  ' 

|  (  )  '  ( 

)  ,  , 

|  (  ) 

|  (  )  ( 

)  ,  ,  ' 

|  (  )  ' 

|  (  )  (  )  (  )  '  ( 

)  ,  , 

|  (  ) 

|  (  )  (  )  (  )  )  ( 

,  ,  , 

(6) 

2.2.3  貝氏網路之學習模式

貝氏網路的學習模式可分為 Structural  learning  與 Parametric  learning  兩種  (Enrique,  Jose  et  al.  1997)。此兩種學習模式皆需要評量網路結構品質的函數

(quality measure)以及搜尋演算法(search algorithm) 。傳統貝氏網路的建構,

通常是由問題領域的專家依據經驗法則或問題領域特有的知識,建立出變數與變 數之間的關聯。但若遇上較複雜之問題領域,結構關聯性之建立的複雜度則會大 幅增加。為解決複雜度的問題,多數學者傾向利用搜尋演算法將資料隱含的結構 建立出來,同時搭配一個評量網路結構品質的函數,以選出與資料最為相符合的 結構。 (范樹根,2005)

一般貝氏網路學習模式需要下列三個步驟:(Enrique, Jose et al. 1997) 

1.  選擇 quality measure 與 search algorithm。 

2.  利用 search  algorithm 找出一些高品質的貝氏網路子集合。這步驟需要 估計方法來估計參數,並以評估方法來評估所選之子集合中所有的貝氏 網路。 

3.  由前一步驟中的子集合找出品質最高的網路結構。

(29)

利用 search  algorithm 建立貝氏網路的結構主要有兩大類的方法。一是限制 基 礎( Constraint­Based )的演 算法, 此種方 法主要是 以所有 結點全 部連結

(Fully­Connected)的貝氏網路為初始結構,經由兩兩變數節點間條件獨立測 試,消除沒有關係的連結,並給予一個衡量貝氏網路品質的方程式,最終得到與 資料最為相符的貝氏網路結構。另一類的搜尋演算法則是 Search  and  Score,此 種方法則是搜尋變數間所有可能形成的貝氏網路,並給予一個衡量貝氏網路品質 的方程式,搜尋出品質最好的貝氏網路,常見的方法有 K2 Algorithm  與 Structural  EM Algorithm 等。 

quality measure 是當面對一群貝氏網路時,用以評估網路是否適合欲解之問 題的準則,並可對這些網路依評估結果好壞作排序。quality measure 由三個元素 所構成,其構成式子如下: 

Q = f (prior information) + g (available data) + h (network complexity)  一般常見的 quality measure 方法如下列三項:(Enrique, Jose et al. 1997)  Ÿ  The Guiger and Hererman measure 

Ÿ  The Cooper­Herskovits measure  Ÿ  The standard Bayesian measure 

參數學習基本架構如下:

根據貝氏定理,每一步驟的事前機率(prior)與可能性(likelihood) 加以 計算得到事後機率(posterior) 。再以該事後機率作為下一步驟的事前機率,持續 循環。

在參數的學習方面,最通用的方法則是運用 EM algorithm。EM algorithm  主  prior + likelihood  posterior

(30)

要分為兩步驟:

Ÿ 在 E 步驟中為運用現有的資料中的預估參數去補足不完整的資料;

Ÿ 在 M 步驟則是運用補足的資料去求得與資料最相符的參數,如此 E 步驟、 

M 步驟反覆計算,求得最符合資料的條件機率分配。

第三節 類神經網路

人類腦內複雜的神經網路組織,經由神經細胞的突觸構造(synapses)作彼 此之間的訊息傳導,於是人類得以對許多變化作不同反應。從神經網路所得到的 靈感,人工智慧學者嘗試著來模擬仿造人類大腦的組織及運作方式,以求增進電 腦的能力,使之能夠具有思考、判斷、組織等能力。近年來由於倒傳遞類神經網 路的出現及資訊科技的進步,使類神經網路無論在學術研究或其他應用領域皆有 不錯的表現。 

2.3.1  類神經網路理論及架構

類神經網路(Artificial Neural Networks)是一種平行分散式處理計算模式。

其基本的運作原理是以大量、簡單的處理單元互相連接,藉由整體處理單元對外 界輸入訊號的簡單運算來處理資訊,擁有類似於人腦的許多特性及優點。與傳統 的專家系統需要事先定義好規則不同,類神經網路乃藉由自我學習來處理問題。

對於類神經網路這個以神經網路為背景所發展出來的模式,經由不斷強化它的方 法,盡可能達到人類所擁有的學習能力 (Learning Ability)、適應力 (Adaptivity)、 前後相關資訊處理能力(Inherent  Contextual  Information  Processing)、容錯能力

(Fault Tolerance)等。

然而經由許多研究證實,類神經網路在許多方面具有以往電腦系統所未能

(31)

擁有的特性,可應用於許多以往的電腦系統所未能達到的領域,例如:財務預測、

樣式辨認等。除此之外,類神經網路更具有對於時間序列模型與預測以及無母數 估計等等的潛在能力(Kuan and White 1994)。

類神經網路是由許多處理單元 (類神經元) 組成,各處理單元結構如圖 二­4  所示。它包括下面幾個重要概念(Berry and Linoff 1997):

圖 二­4  類神經網路單元之模型

(資料來源:張振魁,2000)

Ø 輸入單元(inputs unit):來自外界環境或其他處理單元,每個輸入單元 均對應於一個實際的屬性質。輸入資料須利用前處理(pre­processing)

將其正規化至 0 至 1 之間。

Ø 輸出單元(outputs  unit):類神經網路結果輸出,成為某一特定問題之 解。也可能輸出至其他處理單元,成為該處理單元輸入訊號的一部份。

Ø 權重(weights):代表前一層或外界輸入對該處理單元的相對強度。權 重在類神經網路中相當重要,因為網路的學習基本上即是透過不斷地 調整權重以減少誤差。

Ø 結合函數Σ(combination function):將所有的輸入單元( X  )合併成 一個單一的值( Y ) : 

i i

Y X W

=

å

。函數有一內定的門檻值, Y 越接近

(32)

此門檻值,則對輸出單元有較強烈的影響。

Ø 轉換函數T(transfer function):將結合函數合併的單一值 Yi  轉換為輸 出訊號。最常見的轉換函數為 S 形的函數(Sigmoid function)。 

Sigmoid =  ( ) =  1  1+  f x  e -

一個類神經網路是由許多上述的處理單元所組成,並可以組成各種不 同的網路模式(張振魁,2000)。

圖 二­5  類神經網路的範例

(資料來源:Burnside,2005)

(33)

2.3.2  倒傳遞類神經網路

圖 二­6  標準倒傳遞類神經網路

(張振魁,2000)

在眾多的類神經網路模型中,以倒傳遞演算法的監督式前饋網路應用最為 廣泛,常用的非線性轉換函數為雙彎曲函數和雙曲線正切函數,適合診斷、預測 等應用。倒傳遞類神經網路(Back­Propagation Neural Network, BPN)是 1986 年 由  McClelland  和  Rumelhart  兩位 學 者共 同發 表 ,為 層狀 前饋 式網 路 架 構

(Layered  Feedforward  Network),其學習演算法乃採用倒傳遞式學習演算法

(Backpropagation Learning Algorithm),屬於監督式學習網路,轉換函數為 S 形 的函數(Sigmoid function)。

倒傳遞演算法是一種監督式學習的類神經網路,它會將錯誤的訊號反饋回 來,以便及時修正權重。在利用訓練樣本「訓練」網路時,其實就是在調整網路 權重,使得之後的樣本輸入至網路後,可以得到想要的結果輸出。

其基本原理是利用最陡坡降法(the  gradient  steepest  descent  method)的觀 念,向後傳回輸出誤差,將誤差函數予以最小化,使輸出的預測值得以逐漸接近 實際值。在學習階段裡會反覆執行兩個步驟:

(34)

1.  向前階段(Forward phase) :網路系統會對於每一個供學習用的外界資 料,執行前饋的動作而依次地計算出所有隱藏節點和輸出節點的對應 激發狀態值;然後,對於每個輸出節點,其實際輸入值會與期望輸出 值作比較,以得到該樣本誤差訊號。 

2.  向後階段(Backward phase)  :第二個步驟則牽涉到網路系統的誤差訊 號後向傳遞(Backward  Pass)的運作現象。在輸出層所產生的誤差訊 號會倒傳遞到每個隱藏節點,並且會適當地調整在輸出節點和隱藏節 點之間的權重(Weight)以及輸出節點之間的偏倚值(Bias) ;然後,

這個誤差訊號會更進一步地傳遞到每個輸入節點,同樣地,在隱藏節 點和輸入節點之間的權重以及隱藏節點之間的偏倚值也會被調整,使 網路向理想狀態收斂,縮小輸出的預測和實際值誤差。

以上稱為一個學習循環(learning  cycle) ,可以設定訓練樣本反覆學習數個 學習循環,直至收斂狀況為止(林蔓蓁,1993) 。但有時為求網路的推廣,訓練 循環不宜設得太長久,以免權重過度符合訓練樣本的特性,新的樣本輸入時無法 正確推導。

倒傳遞類神經網路的優點如下: (楊孟龍,2000) (葉怡成,1997) 

1.  輸出值為連續,適用樣本辨識、分類、函數合成、雜訊過濾等,應用 範圍最廣。 

2.  學習精確度高,處理複雜的樣本識別問與高度非線性的函數合成問題。 

3.  回想速度快。 

4.  可以建構非線性的模型。 

5.  有良好的推廣性,對於未知的輸入亦可得到正確的輸出。 

6.  可以接受不同種類的變數作為輸入,適應性強。

(35)

7.  可應用的領域相當廣泛。

倒傳遞類神經網路的缺點如下: (葉怡成,1997) 

1.  學習速度慢且執行時間太長,訓練循環動輒上千次或萬次,需要等待 時間。 

2.  可能會遭遇到處理單元飽和的問題 

3.  局部最小值,只找到局部最佳解,而非理想最佳解。 

4.  網路架構和網路動態的決定尚缺乏非常系統化的方法。 

5.  以迭代方式更新鍵結值與閥值,計算量大,相當耗費電腦資源。 

6.  其解有無限多組,無法得知哪一組的解為最佳解。 

7.  訓練過程中無法得知需要多少神經元個數,太多或太少的神經元均會 影響系統的準確性,因此往往需以試誤的方式得到適當的神經元個數。 

8.  輸入變數的和輸出結果需自行尋找,若二者因果關係過於薄弱,則更 改多樣網路架構、網路動態亦難以收斂。

第四節案例式推理

案例式推理(Case­Based  Reasoning,CBR)為近年於人工智慧領域所發展 的一種推理方法,發展起源於美國 1980 年代末期,繼之在歐洲興起,過去大家 都是使用人工智慧領域中專家系統(Rule­Based Expert System)來解決問題,但 在專家系統中存有明顯的限制,例如:規則難以獲取、專業知識難以清楚表達、

程式設計者無法清楚了解問題等,為了避免發生上述問題重覆發生,而有新的研 究方法出現,因此有了案例式推理方法的誕生,利用案例(Case)以取代規則

(Rule),並隨著人工智慧領域的蓬勃發展,案例式推理愈來愈受重視,且已被

(36)

廣泛應用於各領域之中。 

2.4.1 案例式推理概念

案例式推理的基本概念是在解決問題的過程中,當決策者遭遇到新的問題 時,充分運用過去的經驗,運用相似性(Similarity)比對,尋求以過去的經驗模 式,以作為解決問題的思考方向與解決方式,或針對過去的案例再做進一步的修 正,以運用到目前決策的行為,稱之為案例式推理。

案例表達主要可分二大部分,如圖 二­7:問題描述(Problem Description)

和結果儲存(Stored Solution) ,資料擷取是透過回答問題的方式,以產生新的解 決方法(Kolodner 1993)。

圖 二­7  案例表達方式 

(  資料來源:Kolonder,1993 ) 

案例式推理完全以目前的問題與過去的案例的相似比較為基礎,這可以大 幅免除一般人工智慧技術在知識抽取(Knowledge  Elicitation)時所面臨的瓶頸  (Shi and Yeh 1999)。圖 二­8 是 CBR 系統的推論流程,圖 二­9 是 CBR 系統的一 個範例。

(37)

圖 二­8  CBR 系統推論流程

(資料來源:Montazemi & Gupta,1996)

(38)

圖 二­9  案例式推理系統之範例

(資料來源:Burnside,2005)

案例式推理和傳統的方法不同,使用案例式推理時不需要知道問題解決方 法,只需要去組織與蒐集我們過去所做過相似的例子,並且不需再去引出專家所 提出的理論與研究。

描述與使用案例式推理機制時,我們必然會使用到以下四個動作,資料擷 取(retrieve)、再使用(reuse)、修正(re vise)與保留(retain)。 

1.  資料擷取(retrieve):運用相似性比對從資料庫中擷取和過去最相似的 案例。 

2.  再利用(reuse):運用相似案例解決方法來處理目前的問題。 

3.  修正(revise):如果過去相似的案例不完全符合現今的問題,可以過 去的案例為基礎或參考,修正解決方法。 

4.  保留(retain):修正後的案例保存於資料庫中成為新的案例。

(39)

第三章、研究方法

如前所述,本研究重點在於發展一新的量化分析模式,藉以整合處理專家 意見,進而達到將資訊進一步延展成知識,彰顯其中重要的知識脈絡。在此研究 目的下,本章根據前一章文獻分析的結果以及相關研究流程的指引,規劃後續研 究所需之研究方法內涵。第一節首先說明選取的個案實例及其內涵;第二節介紹 本研究所提出的 IDTBN 模式之方法架構;第三節闡述本研究所應用的實證研究 方法與研究設計內容;第四節則說明本研究在研究設計規劃下,整體的研究架構 內涵;最後,第五節詳述本研究透過實證研究方法的應用,蒐集整理與過錄

(coding)專家意見內容的過程。

第一節 應用實例—台電公司電力長期負載預測

在選取個案實例上,本研究考量的標準有二,其一是個案實例能夠符合本研 究的目的所需,其二是個案實例本身亦具有實質應用上的價值;如此一來,不僅 符合研究創新之學術價值需求,研究結果也同時可以作為提供實務應用參考。基 於上述目的,本研究特選取「台電長期電力負載預測」作為應用實例。以下介紹 個案既有長期預測作業實施情形。

就個案公司而言,在現有體制規範下,台電的業務經營範圍涵蓋發電、輸電、

配電與售電,獨占整個電力市場,一個台電公司即等同於整個電力產業。目前,

台電擁有逾 1,000 萬用戶,24 個區營業處(包括台灣本島及澎湖),並負擔所有 用戶之供電義務與安全。從負有供電義務來看,個案公司一向以供給面資源進行 長期電力負載預測,其誤差水準低於 3%(賴正文,2001) ,符合學理以及實務之 需求。然而,自從 2000 年始,台灣出現第一次經濟成長率為負,當年度台灣三 大經濟研究機構,包括:中華經濟研究院、台灣經濟研究院、台灣綜合研究院,

以及中央研究院經濟研究所、政府主計處、經建會等,沒有任何一個經濟研究部

(40)

門精準預測到當年度的經濟成長率。自那時起,大家普遍驚覺到台灣社會發展正 面臨結構轉換或劇變的來臨。個案公司進行長期電力負載預測之作業,由於預測 期間長達 15 至 20 年,其受到的整體經濟社會結構轉變的影響,衝擊更大。

以個案公司來說,進行長期電力負載預測作業主要的目標在於提供未來電源 開發、網路規劃、電業經營管理、電價結構及需求面管理之重要參考依據,期使 電力供需得以整合。特別因為個案公司擁有的全台灣的電力系統,係獨立於其他 國家電力網路之外,一旦發生電力短缺,無法自他國進口電力以供奧援;此外,

過剩的電力供給則將嚴重浪費珍貴的能源資源,對於自產能源不足的台灣,以及 現階段各種燃料價格不斷節節升高之際,個案公司終將難以支應。因此,在面臨 台灣經濟社會結構轉變之際,如何在既有以供給面資源為預測基礎的作業模式 下,納入各方影響因素之考量,特別是針對未來長期需求面可能的各種發展狀 況,包括:經濟成長趨勢、環保議題、社會人口成長、產業發展、重大投資案等 各式會影響未來電力負載的因素等,納入更精確的考慮,進行合宜之長期負載預 測,作為電力供給資源規劃之基礎,可能是現階段在台灣有關電力事業發展一項 重要的課題。

以長期電力負載預測作業模式之發展來看,鑑於電力為經濟發展之基礎,並 與國計民生息息相關,因此,合宜的長期負載預測實與經濟、產業、人口、電價、

氣溫及需求面管理等諸種變動條件,關係密切。在 1970 年代以前,世界各國之 電力公司常使用簡單統計方法來進行負載預測,如:趨勢分析法、外插法等(許 哲強,2002)(賴正文,2001) 。其後各類方法逐漸發展,包括:計量經濟模式  (econometric model)、時間數列分析(time series analysis)、人工類神經模型等(許 哲強,2002)(賴正文,2001) 。常用支援進行長期電力負載預測之計量方法比較 如表 三-1 所示。一般而言,應用各種計量分析預測方法,只要預測誤差在 10% 

以下(賴正文,2001) ,均可接受;而個案公司的長期電力負載預測誤差更達 4% 

以下,詳見表 三-2 所示。個案公司面臨的問題不是計量分析預測方法選用的問

(41)

題,而是如何面對未來社會經濟結構劇變的問題,傳統的計量分析模式並無法涵 蓋解決此一議題。

預測方法 特色 限制

趨勢分析法 Ÿ 模型簡易。 Ÿ 難以反映複雜現 象。

時間序列法 Ÿ 毋需加入外生變數,即 可建構模型。

Ÿ 可掌握週期性,季節性 及循環性之變動趨勢。

Ÿ 模型選擇需高度 技巧與經驗。

傳統迴歸模式 Ÿ 模型變數間具有因果關 係,易於解釋。

Ÿ 較難處理自我相 關問題。

動態迴歸模式 Ÿ 具傳統迴歸分析與時間 序列分析整合之效果。

Ÿ 模型估計參數固 定,降低模型對 外來的衝擊反應 能力。

灰色預測 Ÿ 模型操作簡單,原始數 列操作較少。

Ÿ 不適合作長期預 測。

類神經網路 Ÿ 適用於各種型態的輸出 輸入對映關係。

Ÿ 容易產生樣本內 資訊過度配適的 問題。

投 入 產 出 模 型

( 產 業 關 聯 分 析)

Ÿ 一般均衡分析可對所有 相關產業部門作全面投 入與產出的關聯分析。

Ÿ 模型所需資料複 雜。

Ÿ 預測時間較短。

混合模型 Ÿ 具擷長補短,增加模型 應用上的彈性。

Ÿ 建模成本高,求 解不易。

終端需求模型 Ÿ 模型結合工程法,可有 效反映未來結構變遷。

Ÿ 建模成本高,模 型更新不易。

脊迴歸 Ÿ 可解決變數之間共變的 效應問題。

Ÿ 模型結構複雜 Ÿ 缺乏明顯的經濟

涵意。

表 三­1  常用支援進行長期電力負載預測之計量方法比較

(資料來源:台電公司)

(42)

表 三­2  個案公司電力用電預測結果—時間序列分析模式

(資料來源:台電公司)

就個案公司的長期負載預測作業而言,所需進行的預測項目很多,包括:電 燈用電預測、電力用電預測、尖峰負載預測、平均負載預測、區域別負載預測,

以及產業別負載預測等;所需輸入與研析之各式相關資料源龐雜,包括:國內外 經濟情勢、經濟成長預測、產業結構預測、能源情勢分析、大型開發案以及人口 成長、電價和氣溫等相關情資分析;所需構建的預測模型,則須依據預測項目、

輸入資料性質,以及搭配合適預測方法,進行各式長期負載預測模型交替方案模

(43)

擬,始能定案。

然而,定案後的長期電力負載預測結果,僅是提供從過去預測未來所產生的 必要資訊而已,並無法從預測結果看出各項外生變數之間預測未來之後彼此的交 互作用關係,也無法得知外生變數和所要預測的標的之間的變動關聯。本論文即 在於協助個案公司,如何從既有資訊進一步延展成知識,從已被整合的單一觀點 的資訊,透過良好的分析架構之應用,進一步延展成可包括多元觀點的知識,來 呈現對於未來大型社會經濟結構可能變化趨勢之發展脈絡。而進一步以資訊管理 學的領域來看,本論文所做的研究,除了提供資訊進一步延展成知識之功用外,

以未來構建成資訊應用系統的觀點來看,其構建的核心應用程式則是從以模型為 導向進展成以知識為導向,則本論文所能提供的參考價值,不可謂不大。

經由上述討論得知,本論文所要進行的研究,就是奠基在個案公司既有長期 電力負載預測作業模式的基礎上,進一步透過本論文研究的結果,應用第二章文 獻探討分析所發展出來的 IDTBN 模式,整合領域專家對於各項影響長期電力負 載預測可能的因素之專家意見,輔助闡述既有計量分析預測模式的結果,讓原本 單一預測的結果,因此而有了豐富的內涵和未來發展趨勢的知識內容。以下繼續 說明本論文之整體研究設計和實證研究方法的應用。

第二節IDTBN 模式

經由第二章的文獻探討,可得知四種常見之資料分析方法的基本概念及優 缺點,決策樹及貝氏網路適合用以作為資料分析並建立出易於解釋分析的架構,

並可用機率分布的模型來表示變數間相互影響的關係與強度,在專家意見模型的 建構上,更能輕易歸納出專家意見的脈絡走向與所強調關鍵變數關係。

類神經網路雖然學習精確度高、可接受不同類型的變數作為輸入且可建構 非線性模型,或找出人類無法覺察出的關係,但缺點是執行速度緩慢,計算量大

(44)

相當耗費電腦資源,網路架構和網路動態的決定尚缺乏非常系統化的方法,並且 類神經網路之訓練與測試的細節無法得知,相對於貝氏網路以機率方式建構,類 神經網路中複雜的數學計算,較難解釋其涵義(Burnside 2005)。

案例式推理系統的優點是只需要加入與系統特徵與輸出結果相符的新案 例,便形同將新的知識涵括進來,不需要如同其它資料分析模型,例如:貝氏網 路或類神經網路,只要新資料加入仍需要經過重新計算,更新到新的架構上,案 例式推理也有其缺點,在使用其結果來解釋時需格外注意,因為它與類神經網路 類似的是,它仰賴的是其知識庫裡的所有案例,除非知識庫裡的某案例完全符合 新進入的未知案例,否則無法呈現出決策制定的機率(Burnside 2005)。

又貝氏網路相對於決策樹結構而言,較難直接萃取出推論法則,若將二者 結合則可呈現出複雜的決策制定過程(Janssens,  Wets  et  al.  2006)。本研究乃提出  IDTBN 模式(Integrated Decision Tree and Bayesian Network),建構程序如下: 

1.  以專家意見過錄後的資料,經過初步的資料前置處理,例如:必要時的資料 筆數擴充與數值資料離散化,再以 C4.5 決策樹演算法建構出決策樹架構,

並依其結果可分析出主要的關鍵屬性,亦即影響分類結果最主要的變數。 

2.  於決策樹中被分類錯誤的實例資料,表示與整體資料的一致性較不吻合,因 此是可視為是離群值,於決策樹分析後將此種實例資料除去。 

3.  由於決策樹依據關鍵屬性而呈現樹狀分支結構,在此階段將分類結果依據決 策樹分支的相關性分為幾組資料,以進行接下來的貝氏網路分析,以期貝氏 網路的結果能透過先行決策樹推論分類而更加收斂。 

4.  依上一步驟資料分類各別進行貝氏網路的建構,經由參數學習(parameter  learning)的過程,將不足的資訊以推算的方式補足,預期可得到準確度更 高且更符合各組貝氏網路連結關係所隱含的意義。

(45)

5.  所建構出之個別貝氏網路可用作目標變數之分類預測,並可分析變數之間的 相互關係以及機率分布值,藉此能瞭解變數間的影響強度。

(46)

第三節 實證研究方法與設計

本論文旨在於發展 IDTBN 模式,整合領域專家對於各項影響長期電力負載 預測可能的因素變化之專家意見,因此,資料的蒐集係以專家意見為標的,而為 讓專家意見能夠在最自然的情境下發表,讓研究者能在最自然的情勢下蒐集到專 家意見,所以,在意見蒐集上係搭配個案公司的經常性作業模式進行。換言之,

本論文係採經驗研究的方式進行相關資料的蒐集、研究觀察以及資料分析等過 程,基此,本論文即以實證研究的方法進行相關研究過程,而所謂的實證研究的 方法即是以經驗研究為基礎(Chava et al., 2003)。在整個實證研究的過程,本論文 所進行的研究步驟如下:

(一)研究方法:實證研究式參與及觀察。

(二)資料蒐集方式:蒐集個案公司次級資料、專家諮詢會議現場錄音、錄音資 料轉錄分析與處理。

(三)資料蒐集期間:參與及觀察  1  年、專家諮詢會議現場錄音自  2007  年  12  月至 2008 年 3 月。

(四)專家諮詢會議參與專家背景:專家諮詢會議共蒐集 3 場次,約 100 名人次 專家到場,專家背景涵蓋電力、電機、經濟、產業、環保等,任職單位涵 蓋電力公司、政府能源部門、政府產業經濟部門、政府環保單位、民間智 庫、環保團體、學界、產業界等。

(五)資料過錄處理:分成兩組進行交叉比對,先將專家諮詢會議現場錄音資料 轉錄成文字檔,再將文字檔資料轉錄成內容綱要檔,然後根據內容綱要檔 發展資料格式,最後再根據資料格式將內容綱要檔進一步轉錄成數值檔資 料,經由資料檢核與交叉比對過程確認資料無誤,始建檔提供後續資料分 析使用。

參考文獻

相關文件

表 2.1 停車場經營管理模型之之實證應用相關文獻整理 學者 內容 研究方法 結論

在與 WINS 有關的研究之中,除了研發感測器硬體這個領域之外,其它的領域均需要

譚志忠 (1999)利用 DEA 模式研究投資組合效率指數-應用

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用

本研究是以景觀指數進行對 1993 年、2008 年與擴大土地使用三個時期之評 估,其評估結果做比較討論。而目前研究提供研究方法的應用-GIS 與 FRAGSTATS 之使用方法。從 1993 年至

為完成上述研究目的,本文將於第二章依序說明 IPTV 的介紹與現況,以及詳述 e-SERVAUAL

以往運動鞋的相關研究,其研究對象皆以廣大市場消費者為對像,例如:消費者對量

渾沌動力學在過去半世紀已被學者廣為研究,但對分數階渾沌系 統及其應用之研究卻相當少。本篇論文主要研究分數階 Chen-Lee 電