Chapter 3
Knowledge Acquisition
知識擷取
知識擷取(Knowledge Acquisition)
的挑戰
知識擷取的目標是將專業領域的知識轉換成知識庫或
是其他電腦化的表達形式
Knowledge base Computerized Expertise TransferKnowledge acquisition is the bottleneck for
building knowledge-based systems.
KE TOOL
(KEE, SI, PC Plus,...) KNOWLEDGE SYSTEM DESCRIPTION =MODEL ○ ○ ○ WORLD TASK Knowledge Acquisition KNOWLEDGE ENGINEER EXPERT’S DESCRIPTION OF TASK
知識擷取的方式
藉由有經驗的知識工程師(knowledge engineer)
對專家進行晤談。
機器學習(Machine learning):直接從專家
提供的訓練範例(Training cases)中歸納出推
論規則。
知識擷取系統:專家在接受短時間(通常為
15-30分鐘)的說明後,即可透過知識擷取系
使用知識擷取系統的好處
1. 不需要依賴訓練案例的提供
2. 可對專家提供的知識進行即時的分析,包
括知識的完整性及一致性
3. 可與專家系建構工具整合,自動產生知識
庫,減少人為的疏失
知識擷取系統的種類
表象知識(Substantive Knowledge):
用以分辨所處的狀態
“Am I in danger of being attacked”
策略知識(Strategic Knowledge):
決定下一步的行動
Repertory Grid Approach Knowledge Acquisition (知識擷取) System Substantive Knowledge Strategic Knowledge Classification Decision making Control Planning MORE SALT MOLE ASK Other Approach AQUINAS
KITTEN KNACK RuleCon
KRITON TEIRESIAS
George Kelly-the Creator of
Repertory Grids (凱利方格)
April 28, 1905 –March 6, 1967
An American psychologist,
therapist and educator.
Best known for developing
表象知識的擷取
凱利方格法(Repertory Grid-Oriented
Methods):
元素(Elements):可能的決策、答案或選項;
例如天花、麻疹、水痘
配對屬性組(Constructs):可用以分辦一組元的
一對屬性;例如發燒(正屬性、Trait)與未發燒
(反向屬性、Opposite)的配對即為一個
Construct
連接機制(Linking mechanism):記錄元素與
屬性之間的關係;例如
“麻疹傾向會發燒”
凱利方格法的連接機制
1:該元素具備相當程度的正向屬性特徵。
2:該元素具備些許傾向正向屬性特徵。
3:該元素不傾向正反向屬性。
4:該元素具備些許傾向反正向屬性特徵。
5:該該元素具備相當程度的反向屬性特徵。
凱利方格法的進行步驟(1/5)
步驟一:由專家擷取出所有的元素,並將所有的元
素(即「麻疹」、「德國麻疹」、「登革熱」、
「天花」與「水痘」)置放在表格的上方列,如表
6.1所示。
麻疹
德國麻疹 登革熱
天花
水痘
凱利方格法的進行步驟(2/5)
步驟二:由專家擷取出配對屬性組(正向屬性及其
反向屬性),每次皆選擇三個元素,並區別出其中
兩個元素與另一個元素的差別。
例如系統可能問專家:「舉出一個屬性,是麻疹、德國
麻、疹登革熱其中二者具有,而另一個不具有的」。專
家可能提出「發高燒」的屬性;接著系統將詢問「發高
燒的反義是什麼」?專家可能回答「未發高燒」。
麻疹 德國麻疹 登革熱 天花 水痘 發高燒 未發高燒 出紅疹 未出紅疹凱利方格法的進行步驟(3/5)
步驟三:填入表格中
[元素,屬性]的等級,如表
6.3所示。
麻疹 德國麻疹 登革熱 天花 水痘
發高燒 1
5
1
2
3
未發高燒
出紅疹 1
5
1
1
2
未出紅疹
有紫斑 2
5
2
5
5
無紫斑
頭痛
5
4
2
2
4
無頭痛
凱利方格法的進行步驟(4/5)
步驟四:從凱利方格產生推論圖
(Implication
graph),以針對已獲得的知識內容下達結論。例如
我們可以發現,只要是「頭痛」值偏左(即1或
2),則相對的「出紅疹」值也偏左;因此可以提
出推論「頭痛的人必定出紅疹」。
頭痛
出紅疹
修改後的凱利方格
麻疹 德國麻疹 登革熱 天花 水痘 第五熱
發高燒 1
5
1
2
3
2
未發高燒
出紅疹 1
5
1
1
2
5
未出紅疹
有紫斑 2
5
2
5
5
2
無紫斑
頭痛
5
4
2
2
4
1
無頭痛
當凱利方格的內容不完整時,產生的推論圖將可能有“以篇概全”的現 象,而遭到專家的反駁 當專家提出反駁時,必須列舉具體的反例,因此可能使凱利方格內容 擴充而更接近完整。 以「頭痛的人必定出紅疹」為例,專家可能提出反例「患第五熱的人 會頭痛卻不會出紅疹」;因此,「第五熱」將被加入凱利方格中並要 求專家填入其他相關值
步驟五:從最終修正的凱利方格產生推
論規則。以第一列為例,將產生以下的
推論規則:
IF 發高燒 且 出紅疹 且 有紫斑 且無頭痛
THEN 診斷為 麻疹
凱利方格法的進行步驟(5/5)
凱利方格的優點
容易分析一致化格式的知識內容:
1. 配對屬性組的相似度分析.
2. 元素間的相似度分析.
3. 找出遺漏的配對屬性組或元素.
4. 偵查出邏輯上的矛盾或發現新的關係.
凱利方格在教學上之應用
凱利方格技術是研究教師教學信念應用最廣
的個別晤談技術(Mayer,1985)
Munby(1982,1983)運用此方法,要求教師
描述其教學行為,將反應寫在卡片上,並加
以分類分析,透過教師歸類的過程,建構出
教師的教學信念
Mayer(1987)曾利用它來分析實習教師與協
同教師(cooperating teachers)的教學信念
多資料型態的凱利方格
-Acquisition Table
dog
bird
fish
not 4-legs not 2-legs has-legs 5 1 1 1 5 1 1 1 5 4-legs 2-legs no-legs
dog
bird
fish
4,2
2,2
0,2
# of
legs
Acquisition Table的資料型態
單值:包括數值或字串,例如20、High、2.1
等。
集合:一組單值的集合,代表集合的任一個單值
都可能是推至該目標的屬性值,例如{9,10,12}。
數值範圍:例如13 < A1
16。
布林值(Boolean):包括YES和NO。
X:代表目標Object-i與屬性Aj無關。
U:代表目標Object-i與屬性Aj關係無法決定。
隱含知識(Embedded meanings)的
擷取
隱含知識意指在知識擷取專過程中,因擷
取技術或知識表示法的因素,而在最終產
生規則時被遺漏的知識
例如醫師在描述感冒時,提出「感冒的症狀有
咳嗽、疲倦、流鼻涕」,產生的推論規則是
IF
咳嗽 且 疲倦 且 流鼻涕
THEN 診斷為 感冒
病人的症狀必須很『完整』才能推論出
隱含知識的意義
實專家的真正意思是「如果一個人感冒,他可
能的症狀有咳嗽、疲倦、流鼻涕,但未必要所
有的症狀都具備,才稱為感冒」。
同樣的,以前述的麻疹為例,是否要發高燒、出紅疹、
有紫斑且無頭痛四個條件同時具備,才是麻疹的病患,
或是有些症狀沒有出現,仍可能是麻疹?
隱含知識的擷取技術─EMCUD
(Embedded
Meaning Capturing under Uncertainty Deciding)
EMCUD 的知識表達方式:
多資料型態的凱利方格
Acquisition Table
+
「屬性序列表格」
屬性序列表格(AOT)
AOT的值則可能是“
X”
、“
D”
或一個整數。
“
X”
意指屬性與目標無關
“
D”
代表屬性對目標的成立有絕對性的主導權
(Dominate),也就是說,如果該屬性的輸入值不符,
則該目標物不可能成立
D D 2 1 D 1 1 1 D D X X D 1 D A1 A2 A3Acquisition Table 範例
{9,10,12},2 20,2 (13-16],2 17,2 3,2
YES,1 NO,2 YES,1 YES,2 NO,2
X X 4.3,2 2.1,2 6.0,2
A1 A2 A3
Obj1 Obj2 Obj3 Obj4 Obj5
第三欄的為例,配合上述的AOT,其意思為:
A3 主導 Object-3:若 A3 不等於4.3, 則Object-3不可能成立
A1不主導權 Object-3:若A1 13 or A1 > 16, Object-3仍可能成立 A2 不主導權Object-3:若 A2是YES, Object-3仍可能成立
對於Object-3 而言,A1比A2重要, 因為AOT[Object-3, A1] >
AOT[Object-3, A2]。這意味 著當(13 < A1 16)被否定時對Object-3成立的影響程度大於(A2 = YES)被否定。因為A1對Object-3的影響 程度大,若是相對應的輸入值不符,推論結果的可信度受損的情況也
上述凱利方格的第三欄產生以下的推論規
則:
規則3:
IF (13 < A1
16)且(A2 = YES)且(A3 = 4.3)
THEN Object-3成立
原始推論規則(Original rules)
每個原始規則的屬性被逐項核對:如果AOT值為“
D”
,則
謂詞被保留和原來一致;若是一個整數,則將嘗試依各
種謂詞被否定的狀況產生新的規則
例如,規則3中A1和A2不具主導權,亦即當13 < A1
16
或
A2 =YES,或兩者被否定時Object-3仍可能成立;產
生隱含規則如下:
規則3-1:IF NOT(13 < A1 16)且(A2 = YES)且(A3 = 4.3) THEN Object-3成立
規則3-2:IF (13 < A1 16)且NOT(A2 = YES)且(A3 = 4.3) THEN Object-3成立
規則3-3:IF NOT(13 < A1 16)且NOT(A2 = YES)且(A3 = 4.3) THEN Object-3成立
隱含規則的可信度
Certainty Sequence (CS)
CS(規則i-j ) = SUM(AOT<Obji, Ak>) 代表規則i-j中被否定的元素/ 屬性AOT值之總合
CS(規則3-3 ) = AOT < Obj3,A1 + AOT<Obj3,A2> = 2 + 1 = 3 The embedded rules generated from RULE3:
規則3-1 :NOT(13<A116)(A2=YES) (A3=4.3) → GOAL = Obj3 CS = 2
規則3-2 : (13<A116)NOT(A2=YES) (A3=4.3) → GOAL = Obj3 CS = 1
規則3-3 :NOT(13<A116)NOT(A2=YES) (A3=4.3) → GOAL = Obj CS = 3
建立隱含規則的限制表列
1. 依 CS 值將隱含規則排序
:
規則3-2
CS = 1
規則3-1
CS = 2
規則3-3
CS = 3
2. 以二分消去法找到可接受的隱含規則群組
:EMCUD:規則3-1是否可接受?
Expert:是 /* 因此規則3-1也可接受*/
EMCUD:規則3-1是否可接受?
Expert:否 /*隱含規則的限制表列中記錄CS=3 */
換算CS值為確定因子CF值
(Certainty Factors)
Confirm(確信):1.0
Strongly support (強烈支持) :0.8
Support (支持) :0.6
May support (部分支持) :0.4
CF
ij= Upper-Boundi- (Cs
ij/MAX(Csi))
(Upper-Bound
i–Lower-Bound
i)
MAX(CS
i):被接受且有最大CS值的隱含規則
Upper-Bound
i:原始規則的CF值
求得CF值的範例
考慮上述規則3的相關隱含規則:
1. Upper –Bound = CF(規則3) = 0.8
2. 由於規則3-3未被接受,被接受且有最大CS值的隱含規
則為規則3-1:
EMCUD:若規則3 strongly supports GOAL = Obj
3,則
規則3-1為何? (1- Support ; 2-May support)
Expert:1. /* Lower-Bound = 0.6*/
CF
3,1= 0.8 –(2/2) * (0.8 –0.6) = 0.6
CF
3,2 =0.8 –(1/2) * (0.8 –0.6) = 0.7
隱含規則的擷取流程
repertory grid Attribute-Ordering Table Constraint List mapping function original rules possible embedded rules accepted embedded rules eliciting embedded rules thresholding mappingAcquisition Table
YES,2
YES,2
YES,1
肺
炎
咳 嗽
疲 倦
頭 痛
D
2
1
肺
炎
咳 嗽
疲 倦
頭 痛
AOT
肺炎的範例
以肺炎的範例說明隱含規則的擷取流程
原始推論規則
: IF (咳嗽=YES)&(疲倦=YES)&(頭痛=YES) THEN DISEASE=肺炎 CF=0.8 隱含規則
: IF (咳嗽=YES)&(疲倦<>YES)&(頭痛=YES) THEN DISEASE=肺炎 CF=0.67 IF (咳嗽=YES)&(疲倦=YES)&(頭痛<>YES) THEN DISEASE=肺炎 CF=0.73 IF (咳嗽=YES)&(疲倦<>YES)&(頭痛<>YES)1
5
5
4
2
1
5
1
1
5
1
5
1
2
2
1
5
1
1
4
其他凱利方格的議題
-
擷取屬性過程中元素的選擇(那3個?)
E
1E
2E
3E
4E
5C’
1C’
2C’
3C’
4C
1C
2C
3C
4OBJECT CHAIN:元素選擇的方法
For the grid with 50 elements (or objects), there are
19600 possible choices of questions to elicit constructs
(or attributes).
Initial repertory grid(凱利方格) and the object
chains:
OBJECT CHAIN
Obj1 --> 2,3,4,5 Obj2 --> 1,3,4,5 Obj --> 1,2,4,5
The expert gives attribute P
1to distinguish Obj
1and Obj
2from Obj
3OBJECT CHAIN
Obj1-- > 2,5 Obj2-- > 1,5 Obj3 -- > 4 Obj4-- > 3 Obj5-- > 1,2T
T
F
F
T
P
1The expert gives attribute P
2to distinguish Obj
2and Obj
5from Obj
1OBJECT CHAIN
Obj1-- > NULL Obj2-- > 5 Obj3 -- > NULL Obj4-- > NULL Obj5-- > 2T
T
F
F
T
T
F
T
F
F
P
1P
2The expert gives attribute P
3to distinguish
Obj
2from Obj
5OBJECT CHAIN
Obj1-- > NULL Obj2-- > NULL Obj3 -- > NULL Obj4-- > NULL Obj5-- > NULLT
T
T
F
T
T
F
T
F
F
F
T
T
F
F
P
1P
2P
3使用
Object Chain進行元素選擇的優缺點
優點:
1. 只需問少量的問題即可區分元素之差異(log
2n
to n-1 questions).
2. 所有元素都可確定被區分.
3. 每次問的問題都針對目前無法區分的元素發
問,以求得有用的屬性.
缺點:
1. 限制專家的思考方向.
其他凱利方格的議題
- 多重推論的知識擷取問題
INPUT DATA INPUT DATA
SUBGOAL
SUBGOAL INPUT DATA
SUBGOAL
可決定值(Acquirability)的概念
在推論鏈中的最起始端的屬性值( INPUT DATA)
必須是專家系統的使用者可以提供的或是常數,
否則系統無法推論;例如:
IF
(leaf-shape
= scale) and
(
class
(綱)= Gymnosperm)
THEN
family
(科) = Cypress.
Leaf Shape
Class
Family
?
?
?
使用者無法提供最起始端的屬性值,
則系統無法進行推論
擷取凱利方格階層
(hierarchy of grids)
scale needle needle scale X {random,evenline} evenline X Gymnosperm Gymnosperm Gymnosperm Magnolia
X T F X
Cypress Pine Bald Cypress Magnolia
Leaf shape Needle pat.
Class (綱) Silver band
如果CLASS的屬性值是使用者無法提供
的,則該屬性成為新的知識擷取目標
Tree Herb Tree
F T T
Gymnosperm Magnolia Angiosperm Type (種)
Flate
如果TYPE的屬性值是使用者無法提供的,則該
屬性成為新的知識擷取目標
green woody woody woody
X creeping upright upright
F T T F
Herb Vine Tree Shrub
stem position one trunk
辨識植物品種的凱利方格階層
FAMILY OF PLANT
LEAF SHAPE
NIDDLE PATTERN
CLASS
TYPE
FLATE
領域基礎知識(Domain Basis)與分類
知識(Classification Knowledge)的擷取
Domain basis Other diseases Acute Exanthemas Classification knowledge Diseases一般凱利方格只提供
分類知識
領域基礎知識可協助
辨識是否為此類疾
病;類似醫院分科門
診
多專家知識整合的問題
To build a reliable expert system, the cooperation of
several experts is usually required.
Difficulties:
• Synonyms of elements (possible solutions)
• Synonyms of traits (attributes to classify the solutions)
• Conflicts of ratings
整合的知識(Integrated Knowledge) 專家甲 習慣領域 (Habitual
習慣領域---每個專家都有其特別的處理問題技
巧及經驗
專家乙 習慣領域Expert 1
Expert 2
Expert N
Busy
Busy
Busy
Far away
Far away
知識工程師
通常很難聚集專家進行協商,因此必
須分階段個別拜訪專家們
Expert 1 Expert 2
…
Expert N Phase 1 interview Repertory Grid 1 Repertory Grid 2 Repertory Grid N個別取得專家們提出的 element 集合及 construct集 合,並求得聯集
Repertory Grid 聯集
Phase 2 interview
Expert 1 Expert 2
…
Expert N請專家們檢視 element 聯集及 construct 聯集, 並刪除重複或同義的內容
Expert 1 Expert 2
…
Expert N Phase 3 interview Rated Common Repertory Grid 1 Rated Common Repertory Grid 2 Rated Common Repertory Grid N 進行知識整合Integrated Repertory Grid
產生推論規則 整合的知識庫
下跌持續 時間短 下跌持續 時間長 成交量低 上漲持續 時間短 股價低 成交量高 上漲持續 時間長 股價高 下 跌 持 平 上 漲 下跌持續 時間短 下跌持續 時間長 成交量低 上漲持續 時間短 股價低 成交量高 上漲持續 時間長 股價高 下 跌 持 平 上 漲 專家甲 專家乙 下跌持續 時間短 下跌持續 時間長 平穩持續 時間短 上漲持續 時間短 股價低 平穩持續 時間長 上漲持續 時間長 股價高 下 跌 持 平 上 漲 下跌持續 時間短 下跌持續 時間長 平穩持續 時間短 上漲持續 時間短 股價低 平穩持續 時間長 上漲持續 時間長 股價高 下 跌 持 平 上 漲 平穩持續 時間短 上漲持續 時間短 股價低 平穩持續 時間長 上漲持續 時間長 股價高 下 跌 持 平 上 漲 平穩持續 時間短 上漲持續 時間短 股價低 平穩持續 時間長 上漲持續 時間長 股價高 下 跌 持 平 上 漲 個別取得專家們提出的 element 集合及 construct集合,並求得聯集
平穩持續 時間短 1 5 3 平穩持續 時間長 成交量低 下跌持續 時間短 上漲持續 時間短 股價低 3 4 2 下跌持續 時間長 2 2 3 成交量高 4 2 4 上漲持續 時間長 2 3 5 股價高 下 跌 持 平 上 漲 平穩持續 時間短 1 5 3 平穩持續 時間長 成交量低 下跌持續 時間短 上漲持續 時間短 股價低 3 4 2 下跌持續 時間長 2 2 3 成交量高 4 2 4 上漲持續 時間長 2 3 5 股價高 下 跌 持 平 上 漲 專家甲 專家乙 成交量低 2 2 4 成交量高 下跌持續 時間短 3 5 3 下跌持續 時間長 平穩持續 時間短 上漲持續 時間短 股價低 1 4 2 平穩持續 時間長 5 1 4 上漲持續 時間長 1 2 4 股價高 下 跌 持 平 上 漲 成交量低 2 2 4 成交量高 下跌持續 時間短 3 5 3 下跌持續 時間長 平穩持續 時間短 上漲持續 時間短 股價低 1 4 2 平穩持續 時間長 5 1 4 上漲持續 時間長 1 2 4 股價高 下 跌 持 平 上 漲 下跌持續 時間短 平穩持續 時間短 上漲持續 時間短 股價低 1 5 2 平穩持續 時間長 3 5 2 下跌持續 時間長 5 1 4 上漲持續 時間長 1 2 5 股價高 下 跌 持 平 上 漲 下跌持續 時間短 平穩持續 時間短 上漲持續 時間短 股價低 1 5 2 平穩持續 時間長 3 5 2 下跌持續 時間長 5 1 4 上漲持續 時間長 1 2 5 股價高 下 跌 持 平 上 漲
進行知識整合
Machine Learning(機器學習)
Building computer programs able to construct new
knowledge or to improve already possessed knowledge Application: Expert Systems Cognitive Simulation Problem Solving Control … Example: Perceptron [Rosenblatt, 1961]
Meta-Dendral [Bucmanan, Feigenbaum, Sridharan, 1972]
傳統專家架構系統
知 識 源
知 識 編 輯 介 面
推 理 機 置
知 識 庫
使 用 者 介 面
使 用 者
具歸納式機器學習能力之專家系統架構
學 習 機 置
推 理 機 置
使 用 者 介 面
知 識 源
範 例 編 輯 介 面
範 例 庫
知 識 庫
Machine Learning
Machine Learning
Central to A. I.
Learning from training cases.
Taxonomy
Taxonomy
[Michalski, 1983]
Learning
Learning from
Learning from
Observation and
Rote
Learning
Learning
by Analog
Learning by
Instruction
Learning by
Induction
Classification
Classification
Learning Strategies
Symbolic Learning Neural Learning
Incremental Learning Batch Learning 例如 Version Space 例如 Perceptron 例如 PRISM 例如 ID3
Symbolic Learning
Symbolic Learning
Learning Unit
1.Attributes
3. Hypothesis
Space
2. Matching
4.Training
Problem Description
1. A set of attributes = { A : the age of the patient,年齡 B : spectacle prescription,視力 C : astigmatic, 亂視
D : tear production rate 淚量} 2. Matching Predicates:
A= { A1 : young , 青年, A2 : pre-presbyopic, 中年, A3 : presbyopic 老年} B= { B1 : myope, 近視, B2 : hypermetrope 遠視}
C= { C1 : no無, C2 : yes有}
D= { D1 : reduced ,較少, D2 : normal正常 } 3. A set of classes (Hypothesis Space)
= { DEC1 : hard contact lenses, 硬式隱形眼鏡 DEC2 : soft contact lenses, 軟式隱形眼鏡 DEC3 : no 不適合戴隱形眼鏡 }
4. Training Instances 訓練範例
範 A B C D Dec 範 A B C D Dec 範 A B C D Dec
例 例 例 1 A1 B1 C1 D1 Dec3 2 A1 B1 C1 D2 Dec2 3 A1 B1 C2 D1 Dec3 4 A1 B1 C2 D2 Dec1 5 A1 B2 C1 D1 Dec3 6 A1 B2 C1 D2 Dec2 7 A1 B2 C2 D1 Dec3 9 A2 B1 C1 D1 Dec3 10 A2 B1 C1 D2 Dec2 11 A2 B1 C2 D1 Dec3 12 A2 B1 C2 D2 Dec1 13 A2 B2 C1 D1 Dec3 14 A2 B2 C1 D2 Dec2 15 A2 B2 C2 D1 Dec3 17 A3 B1 C1 D1 Dec3 18 A3 B1 C1 D2 Dec2 19 A3 B1 C2 D1 Dec3 20 A3 B1 C2 D2 Dec1 21 A3 B2 C1 D1 Dec3 22 A3 B2 C1 D2 Dec2 23 A3 B2 C2 D1 Dec3
基本的決策樹學習演算法
A= A1 B=B1 C=C1 D=D1 [Dec3] D=D2 [Dec2] C=C2 D=D1 [Dec3] D=D2 [Dec1] B=B2 C=C1 D=D1 [Dec3] D=D2 [Dec2] C=C2 D=D1 [Dec3] D=D2 [Dec1] A= A3 B=B1 C=C1 [Dec3] C=C2 D=D1 [Dec3] D=D2 [Dec1] B=B2 C=C1 D=D1 [Dec3] D=D2 [Dec2] A= A2 B=B1 C=C1 D=D1 [Dec3] D=D2 [Dec2] C=C2 D=D1 [Dec3] D=D2 [Dec1] B=B2 C=C1 D=D1 [Dec3] D=D2 [Dec2] C=C2 [Dec3] 訓練 範例Assumption:
p個正例
n個反例
C
1. C中所含正反例的個數可以反映出
一般正反例的比例。
正:反 =
2. 表達 此資訊的最小bit期望值(所含資訊量)為
n
:
p
n
p
n
:
n
p
p
n
n
p
p
N
P
I
(
,
)
log
log
最具代表性的決策樹學習演算法-ID3
以 Data Compression 的觀點: 越少出現的 information 用越多 bits 表示 越常出現的 information 用越少 bits 表示 可用最少的 memory 表達最多的 information 若出現機率是 則用 memory表示 則用 memory表示 所以P個正例,n個反例期望的 bits 數為
n
p
p
n
p
n
K
n p p 1
K
n p n 1
' K n p n log n p n n p p log n p p K log n p n K log n p p 2 2 n p n 2 n p p 2 · · ·
· · ·
C
C1
C2
C3
Cr
P +
n
-P1 +
n1 -
P2 +
n2
-P3 +
n3 -
Pr +
nr
-A, B, C, ...
(Attributes)
gain (A) = I(P, n) - E(A)
A所含的
information
原來的
information量
用A分類之後剩餘的
information量
v 1 i i i i i I(p ,n ) n p n p ) A ( EAn Alternative point of view :
Entropy (亂度)
+
+ + +
+
+
+
+
+
+
- -
- -
+ +
+ +
+
+
C
C
A1
A2
亂度高
亂度低
n
p
n
log
n
p
n
n
p
p
log
n
p
p
)
n
,
p
(
I
2 2
以ID3決策樹學習演算法推導出的決策樹
D=D1 [Dec3] D=D2 C=C1 A=A1 [Dec2] A=A2 [Dec2] A=A3 B=B1 [Dec3] B=B2 [Dec2] C=C2 B=B1 [Dec1] B=B2 A=A1 [Dec1] A=A2 [Dec3] A=A3 [Dec3] 訓練 範例歸納法決策樹可以轉換成決策法則,例如在上圖的第
二個分枝可以表示成如下之法則
:IF
D=D2
意為
若
患者的淚量=正常
AND C=C1
且
患者有亂視=有
AND A=A1
且
患者的年齡=青年
THEN Dec=Dec2
則
隱形眼鏡決策=軟式隱形眼鏡
Be represented by two sets hypotheses
S:the most specific set(最特殊規則集)
consistent with the training instances
G:the most general set(最泛化規則集)
逐漸式學習演算法-Version Space
more general more specificG
S
+
-Version Space使用範例
( sin + )
S:sin
G:transc
( ln - )
S:sin
G:trig
( cos + )
S:trig
G:trig
Concept:
trig
Lemma: a
S,
b
G,
a is more specific than b
transc
trig explog
1.{(Large,Red,Triangle)
(Small,Blue,Circle)}
2.{(Large,Blue, Circle)
(Small,Red, Triangle)
3.{(Large,Blue, Triangle))
(Small,Blue, Triangle)}
{(Large,Red,Triangle)
(Small,Blue,Circle)}
{(?,?,?)
(?,?,?) }
S:
G:
S:
G:
S:
{(Large,?,?)
(Small,?,?)}
{(?,Red,Triangle)
(?,Blue,Circle) }
{(?,?,?)
(?,?,?) }
{(?,Red,Triangle)
(?,Blue,Circle)}
Exercise(1/3)
1.試以動物分類為例,建立一個Repertory
Grid(凱利方格)及產生對應的推論規
則。
2.分析產生的動物分類推論規則中是否有
遺漏的Embedded Meanings(隱含知
識)。
5 1 4 5 4 3 1 1 5 5 1 5 5 5 4 3 1 4 2 5 1 1 1 5 5 5 1 2 4 1 1 1 5 4 1 4 5 1 5 4 4 5 4 1 5 Eye pain Pupil size headache Cornea Inflame of Eye Tears Redness Vision Papillary light 5 1 5 5 4 2 1 1 4 5 1 5 4 5 3 2 1 5 1 4 1 1 1 5 5 4 1 2 3 1 1 1 5 4 2 3 5 1 5 4 5 5 3 1 5 Eye pain Pupil size headache Cornea Inflame of Eye Tears Redness Vision Papillary light E1 E2 E3 E4 E5 E1 E2 E3 E4 E5
3. 試著整合下列的二個repertory grid,並說明你的整合策略。
Exercise(2/3)
範 A B C D Dec 例 1 A1 B1 C1D1 Dec1 2 A1 B1 C1 D2 Dec1 3 A1 B1 C1 D3 Dec1 4 A1 B1 C2 D1 Dec1 5 A1 B1 C2 D2 Dec1 6 A1 B1 C2 D3 Dec1 7 A1 B2 C1 D1 Dec2 8 A1 B2 C1D2 Dec2 9 A1 B2 C1 D3 Dec2 10 A1 B2 C2 D1 Dec2 11 A1 B2 C2 D2 Dec3 12 A1 B2 C2 D3 Dec2 範 A B C D Dec 例 13 A2 B1 C1D1 Dec1 14 A2 B1 C1 D2 Dec1 15 A2 B1 C1 D3 Dec1 16 A2 B1 C2 D1 Dec1 17 A2 B1 C2 D2 Dec1 18 A2 B1 C2 D3 Dec1 19 A2 B2 C1 D1 Dec2 20 A2 B2 C1D2 Dec2 21 A2 B2 C1 D3 Dec2 22 A2 B2 C2 D1 Dec2 23 A2 B2 C2 D2 Dec3 24 A2 B2 C2 D3 Dec2 範 A B C D Dec 例 25 A3 B1 C1D1 Dec1 26 A3 B1 C1D2 Dec1 27 A3 B1 C1 D3 Dec1 28 A3 B1 C2D1 Dec1 29 A3 B1 C2D2 Dec1 30 A3 B1 C2D3 Dec1 31 A3 B2 C1 D1 Dec2 32 A3 B2 C1D2 Dec2 33 A3 B2 C1 D3 Dec3 34 A3 B2 C2 D1 Dec2 35 A3 B2 C2 D2 Dec3 36 A3 B2 C2 D3 Dec3 4. 已知有一分析型領域問題的屬性與決策如下: 屬性 A = {A1, A2, A3},屬性 B = {B1, B2},屬性 C = {C1, C2},屬性 D = {D1, D2, D3},
決策 Dec = {Dec1, Dec2, Dec3}.
(1) 用屬性 A, B, C, D 作順序所產生之決策樹。 (2) 用 ID3 演算法時所產生之決策樹。