• 沒有找到結果。

第四節 本體論式的試題分類系統

N/A
N/A
Protected

Academic year: 2021

Share "第四節 本體論式的試題分類系統 "

Copied!
30
0
0

加載中.... (立即查看全文)

全文

(1)

第三章 系統分析與規劃

本論文旨在發展一個本體論的自動建構技術,並把基於本體論架構的資 訊分類方法應用在中文題庫內容分類領域。因為透過本體論的分析可以釐清 知識的結構,特別是其表現出一個特定領域的知識核心。而且透過本體論可 以促成知識的分享,包括提供在特定知識領域上分析、概念化的達成及呈現 出其代表性的項目等。故本研究採本體論理論來分析整個題庫的概念分佈、

架構與概念間的關聯性,並將之應用到試題分類的領域。

第一節 確定人工智慧領域之本體論架構

由於本體論可用來描述問題領域內部的知識結構,所以以往的研究大 多擷取其觀念當為知識庫來使用。鑑於本體論知識描述方面的能力,因此可 藉由其觀念來結合分類系統,試著從試題的組成屬性來理解其想要表達的訊 息,並且根據這些組成屬性來達成分類的目的。

目前本體論應用於人工智慧領域,大多居於輔助的形式,或是利用其 觀念製作出一個單純的資料結構,並用來描述問題領域中,主要的領域知識 與概念所形成的關係。利用此一單純的物件導向資料結構型態,可說明所討 論的知識主題與資料訊息,如圖3-1 所示。其資料結構與型態分述如下:

(2)

圖3-1. 物件導向本體論架構圖

一、資料結構(字彙、概念、屬性、關係權值)

本體論最常用的幾個組成分子分別是物件(object)、屬性(attributes)、

關係(relation) 和運算(operations)。其中物件可以代表概念,而概念可 以是一個說法、想法、或實體或是一個知識領域。在這些實體中我們可 以給予值,使得其具備屬性-值(attribute-value)的資料型態。而在概念間 的相互關係裡有『關係』予以定義,例如繼承(inheritance) 或是兄弟關 係。並且在概念間有特殊化與一般化的關係存在,此兩種關係可以讓概 念間的推演找到更為明確或是模糊的解釋。而透過這些關係上的定義,

便能得到更多所需的訊息。

domain

category1 category2 category3 categoryn

concept1 attributes1 operations1

concept2 attributes2 operations2

concept3 attributes3 operations3

Concept 4 attributes4 operations4

concept5 attributes5 operations5

concept n attributes n operations n concept6

attributes6 operations6

domain

category3 …

concept set

generalization aggregation association

(3)

分別是代表物件的字彙(vocabulary) 與概念,代表關係的屬性,以及用 來表示物件間關係比重的的關係權值。分別描述如下:

(一)、字彙(vocabulary)

字彙是在文字分類領域中,對於分類作業而言有意義的文字,亦 即從試題中以自詞權重函數選取出來的有效特徵集合(feature set)。這些特徵字詞也包含一些不同的詞性,名詞的部分通常被當 成概念的屬性項目,形容詞則被當成屬性的內容值,至於動詞則 被用來當作概念的操作方法。所以,這些特徵字詞是組成概念的 基本元素,它們對於類別與概念而言都具有特殊意義。

(二)、概念(concept)

概念指的是可有多個字彙組成的集合,或是多個概念組合成的集 合,這集合能夠當成一個問題範圍的概括描述。有了概念的後,

才能以階層式架構(概念階層) 表達資料。概念階層就是利用概念 間的繼承關係,描述所有領域的資料架構。

(三)、屬性(attribute)

屬性可視為概念的定義與描述。屬性可以提升概念在分類上的重 要性,具有屬性的概念所建構出整個概念階層的資料架構,將提 供分類時更多元、有用的訊息。

(四)、關係權值(relation weight)

概念之間的關係有繼承關係與關聯度。在建構本體論架構的時 候,除了必須定義概念與概念間的關係外,還要為這些關係賦予 其分類的重要程度。但這些資訊會隨著知識領域變化而有所不同。

二、概念繼承(concept inheritance) 與概念階層(concept hierarchy)

(4)

在本體論中,概念是一個領域、範圍、或是由多個已知領域所組成 的集合。亦即可利用很多個子集合來描述一個概念,因此有最大的概念 與最小的概念。

概念基於集合在定義時會遇到領域界定的認知問題,因為概念有一定 的範圍,所以當這個定義的概念與其他範圍的概念發生領域上重疊時的 處理方式,如圖3-2 所示:

圖3-2 概念間的關係性

由圖3-2 (a)得知,在這種情況下概念之間並沒有任何意義上的共同 處,這種情況最常在完全不相關集合中遇見。例如,一個”software concept”與一個”hardware concept”在較大的”computer”領域中 沒有任何的關連性。

在圖3-2(b)的部分,兩個概念具有相同的部分子集合,但又非全等。

所以,這種情形將被用來定義概念與概念間的關聯度,若交集的部分愈 多,則概念間的關聯度愈強。例如,定義一個”hardware concept”與”

network concept”。由於“hardware concept”跟“network concept”

的子集合不完全相同,所以這兩個概念在領域具有某種程度的重疊,亦 即在兩個概念之間有某些關聯存在。

另一種情況如圖3-2(c)所示,亦即一個概念被包含於另外一個概念 中。當發生這種情況時,會將其認定為兩者間的繼承關係。比較小的領

(a)獨立 (b)交集 (c)繼承

(5)

況也就是繼承關係,利用這種繼承關係得以發展出可提供更多資訊的資 料階層架構,稱之為概念階層。

(一)概念繼承(concept inheritance)

『超概念』(super-concept) 可以看成是由概念所組成的集合。

圖3-3 概念繼承

圖3-3 中,最內層的圓圈「Windows 2003」、「TCP」、「NetBEUI」

為最底層、最明確的概念,它將繼承外層概念的某些特質。第二層的圓 圈與最內層圓圈中間所包含的名詞(超概念) 便是由數個底層的概念所 組成,如「protocol」便是由「TCP」、「NetBEUI」…等底層的概念所組 成,則「protocol」便是「TCP」、「NetBEUI」…等概念的超概念。同理,

最上層「network」的『超概念』是便是由第二層的「protocol」、「server」…

等概念所組成的集合。由此歸納得知,最外層的「network」代表的是最 大的領域,也就是最一般化的概念。而由外往內方向,概念領域會越來 越小,但是意義會越來越明顯。而在這種由上到下的階層架構中,可視 為在這領域中由概念所形成具有『概念繼承』屬性的架構。

(二)概念階層(Concept hierarchy)

在整個概念階層架構中,包括具繼承關係的概念所組成由上到下的 network

server Windows

2003

protocol

TCP NetBEUI

(6)

路徑,每一條完整的路徑都具有概念繼承的特性。因此可推演任兩概念 間的重疊程度與繼承性。

概念階層型態的資料結構在使用上最大的好處在於利用人類可以理 解的方式表達出整個領域中的資料訊息。圖3-4 是由圖 3-3 所推演出來 的一個概念階層的範例:

圖3-4 概念階層的範例

由圖3-4 中最上層的「network」所代表的是最大的的概念,其下有 兩個分枝,分別是「server」 與「protocol」所以可以解釋成「network」

是由「server」 與「protocol」所組成。上下層間有連接的概念就具有 繼承性,由最上層到最下層的的每一條路徑(path) 都具有概念繼承的特 性。

第二節 確定研究素材

首先確定研究的素材採用具有公信力的法人機構,「中華民國電腦教育發 展協會」所研發的PreMOUS (MOCC 標準級)的認證試題,科目包含微軟的 Office 應用程式 Word、Excel、PowerPoint 及 Access 等認證。

本研究採用其中的 Word 試題作為素材,PreMOUS 共有 56 題,

PreMOUS 共有 24 個能力項目,主要是參考國際認證 MOUS –Core (Microsoft Office User Specialist) 的能力項目分類所命製的試題。共有 24

network

server protocol

Windows 2003 TCP NetBEUI

(7)

項目的能力,條列如表3-1 所示:

表3-1 PreMOUS Word 的能力項目分類 能力項目碼 能力項目

1 版面設定

2 輸入文字

3 使用複製、貼上功能

4 分隔設定

5 欄位設定

6 字型設定

7 複製格式

8 段落設定

9 加入項目符號

10 插入符號

11 插入日期

12 使用定位點

13 尋找與取代文字

14 設定文件頁首及頁尾

15 建立表格

16 表格內容設定

17 框線及網底設定

18 在文件中插入圖片

19 加入文字方塊

20 文字藝術師

21 段落首字放大

22 使用拼字檢查

(8)

23 直書/橫書 24 插入Excel 物件

第三節 試題分類處理

PreMOUS Word XP 試題,主要是參考電教協會撰寫的標準教材

「PreMOUS Word XP 認證主題式指定精選教材」的試題分類如表 3-2 所示:

表3-2 試題檔案列表

編號 能力項目 試題檔名 題數

1 版面設定 WXPC0101a ~WXPC0104A 4 2 輸入文字 WXPC0201a ~WXPC0202a 2 3 使用複製、貼上功能 WXPC0301a ~WXPC0302a 2

4 分隔設定 WXPC0401a 1

5 欄位設定 WXPC0501a ~WXPC0503a 3 6 字型設定 WXPC0601a ~WXPC0605a 5 7 複製格式 WXPC0701a ~WXPC0702a 2 8 段落設定 WXPC0801a ~WXPC0805a 5 9 加入項目符號 WXPC0901a ~WXPC0902a 2

10 插入符號 WXPC1001a 1

11 插入日期 WXPC1101a ~ WXPC1102a 2

12 使用定位點 WXPC1201a 1

13 尋找與取代文字 WXPC1301a ~WXPC1302a 2 14 設定文件頁首及頁尾 WXPC1401a ~ WXPC1403a 3 15 建立表格 WXPC1501a ~ WXPC1502a 2 16 表格內容設定 WXPC1601a ~ WXPC1603a 3 17 框線及網底設定 WXPC1701a ~ WXPC1702a 2

(9)

編號 能力項目 試題檔名 題數 18 在文件中插入圖片 WXPC1801a ~ WXPC1804a 4

19 加入文字方塊 WXPC1901a 1

20 文字藝術師 WXPC2001a ~ WXPC2002a 2 21 段落首字放大 WXPC2101a ~ WXPC2102a 2

22 使用拼字檢查 WXPC2201a 1

23 直書/橫書 WXPC2301a 1

24 插入Excel 物件 WXPC2401a ~ WXPC2402a 2

總計 56

PreMOUS 及 MOCC 標準級的試題,共分為三個部份:

(一) 試題資料檔:未完成的 Word 文件,檔案格式為 .DOC。

(二) 試題答案檔:經由作答需求的要求,所完成的標準答案檔,檔案格 式為 .DOC。

(三) 作答需求檔:敘述如何處理試題資料檔,以完成試題答案檔的內容 的步驟及要求。

在分類的意義上,試題資料檔及試題答案檔比較不具意義,而作答 需求檔中,所包含的一些功能、專有名詞及作答動作的字詞,具有明顯特徵 的意義,以WXPC0603a 的作答需求為例:

請將第一段字元格式為:「民主」設定中文字體為標楷體,

粗體,大小為36 點,色彩為藍色。「法治的國家」設定 中文字體為標楷體,粗體,大小為28 點,色彩為紅色。

由以上的例子可以看到許多如:「新細明體」、「粗體」、「斜體」….

等專有的名詞,包含在文件之中,可以作為某一些能力項目的特徵關鍵字

(10)

(Feature Terms, FT)。然而也有許多與分類較無關係的特徵字詞,如:「法 治」、「國家」…等,這些特徵字詞,也有可能在分類上造成干擾。

第四節 本體論式的試題分類系統

本研究將本體論理論應用在題庫之概念架構剖析與試題分類系統,亦即 利用本體論分析欲分類的問題領域(problem domain) 並進而建立該本體論 知識架構,以作為題目分類的依據。

要建立本體論知識架構的必要元素是概念的屬性與方法,而構成概念的 屬性與方法的是一些經由字詞權重函數過濾後所保留下來的特徵字詞。再藉 由各個特徵字詞的權重函數組成類神經網路的訓練與測試範例檔。經過學習 完畢後,再將各試題予以分類,並利用虛擬概念的方式描繪出概念階層架構。

再以資料採擷的方式來推估概念間的關聯性,並輔以卡方考驗以驗證其關聯 強度達顯著效果。

本研究所開發的工具程式架構如圖3-5 所示:

自動建立本體論領域知識架構

擷取特徵 字詞

字詞剖析 計算字詞 權重函數

題目分類

產生範例 檔工具

倒傳遞類 神經網路

學習與測 驗模式 驗證模式

叢集與描繪概 念階層工具

概念關聯分析與 顯著考驗工具

概念關聯 分析工具

關聯顯著 考驗工具

叢集概念 架構工具

描繪概念 階層工具

(11)

圖3-5 工具程式架構圖

圖3-6 是基於本體論理論所設計出來的試題分類系統的流程圖:

圖3-6 本體論式的試題分類系統流程圖

在整個分類的程序與資料的流程上,可將此系統架構分成四個部分:

一、文字的前置處理 二、本體論的形成與學習 三、支援的知識庫

四、分類結果驗證

一、文字的前置處理

文字的前置處理對分類系統而言是一個重要的環節。就所有的電腦自動分 類系統而言,其目的大多為協助人類自動的判讀文章內容並予以歸類,但目前 尚未有一可靠的理論提出可讓電腦具有理解自然語言的能力。所以利用其他的 方式來取代語意的分析便成為另一重要的分類方式。目前最常用的是利用分析 文章內容的文字來取代句子的理解,而本研究的文字前置處理也是透過分析文

測驗題庫

擷取特徵

驗證分類績效與 關聯是否顯著

資訊區段

語彙分析

字詞處理

字詞與概念之連結

本體論規則 建構領域概念階層

自動建構本體論機

(12)

字的方式來接近理解句子的方式做分類。

(一)、資訊區段(information segmentation)

在分類架構的程序中,輸入的可能是各式各樣的資料(Data)。

例如一篇文章、一段句子、或是一種資料結構,都可將其看成是一 種資訊區段。在半結構性的電子文件中,文件會因為本身的結構性 質被分成幾個固定的部分。並且對於不同的部分作不同的前置處 理 。 因 此 如 何 對 於 文 件 作 一 有 效 的 分 割 並 取 得 有 效 的 區 段 (segments),會對於以後的分類結果產生很大的影響。在中華民國 電腦教育發展協會的PreMOUS Word 2000 試題中,題目中包含標 題與分隔字元,以WXPC0101a 為例:

題目

==============================================

請設定紙張為A4,縱向,邊界為上、下、左、右各 3 公分。

必須事先的將這些區段的資料事先的去除才能有效的將試 題來作分類的動作。

(二)、語彙分析(lexical analysis)

語彙分析乃是將是將字元(characters) 集合的資料流(stream) 轉換成為由字(word) 集合的資料流。在分類的領域中,進入文字處 理之前,必須先將文件中的資料流作一個轉換的動作,以利後續的 文字處理。

(三)、文字處理(term operation)

對於分類無幫助的文字符號去除,也就是將有用的資訊區段中 被認定為對分類沒幫助的字或符號去除

(四)、擷取特徵

(13)

如能藉由理解試題內容來作分類,則可完全解決分類上的問 題。但是基於自然語言處理方式尚未發展完備,本研究改採以斷詞 並分析詞性來選取試題特徵並搭配本體論的理論基礎的方式執行分 類。希望藉由分析組成試題句子的結構(斷詞與詞性),找出可供特 徵選取的標準。

二、本體論的形成與學習

在本研究中所使用的分類方法是以本體論作為理論根據。在經過文字預 先處理的程序後,即已經取得分類的重要特徵(詞)。以下介紹如何利用這些 特徵來建立提供分類使用的本體論之資料結構。

(一)、本體論建構處理(ontology construction process)

此處理程序指的是『本體論分析』(ontology analysis)。因為它 是從文章中擷取出重要特徵,利用此特徵找到與本體論結構相符合 的資料。

無論是以自動或是利用手動的方式,目的都是要建立一個可供 分類用的資料結構。所以必須先確定建立本體論的方式,搭配其需 要的特徵去建立其相對的資料結構,其中包含了特徵字詞、概念、

類別、屬性與關係權值。但目前大多的建構本體論程序,都是利用 手動的建立方式,如此可能會參雜使用者主觀的意識形態,而且若 改變欲分類的知識領域,便需要再次花費大量的人力去重新建構,

相當不符合經濟效益。

(二)、線上學習(On-line learning algorithm)

當發生分類錯誤或是被要求修正分類時,系統需要一個自動的 學習機制來做此動作。若整個本體論架構已然完整下,會根據使用 者的回應來調整分類結果。本體論式的知識分類架構中,即利用修 正每一個物件間的關係度,來提升分類的正確率。

(三)、分類(Classification)

(14)

本研究利用本體論中的各個物件的關係度與權重來做分類的依 據。在取得可供分類的資訊後,即面臨如何將這些重要的資料當成 分類依據的問題。

要分類的試題需先經文字的前置處理以取得大量有效的隱含特 徵,再利用本體論來對這些特徵概念(concept) 化,進而執行資料 整合以預測文件分類的結果。透過這種資訊整合的機制,系統即可 歸納出試題歸屬於何種能力項目(類別)。

三、本體論知識庫

在文字的前置處理方面,需要提供字彙解釋的知識庫輔助系統,以達到 一些字彙上的取得。例如,可藉中央研究院詞庫小組訂定的十萬筆中文詞庫 與字詞剖析工具加上特殊的知識庫便可正確的擷取出句子中的字彙與詞性。

在本體論的建構方面,更需要一個可供存取的知識庫以支援分類與學習 的機制。在執行試題分類時,系統會對應整個問題領域的資料結構以取得重 要的分類資訊。本研究中本體論的資料結構中包含了「類別」、「概念」、「屬 性」與「權值」觀念所建立出來的結構型態。

第五節 自動建構以本體論為基礎的分類系統

一、本體論架構

欲建立可與分類系統整合的本體論資料架構,首先必須對整個欲分類的 領域作完整的分析,即所謂的『本體論分析』(Ontology analysis),最主要 的目的是將整個領域利用本體論的資料架構表達出來。因為要以程式自動建 立本體論資料架構的模組,所以必需整合類別、概念階層與文件資料,如圖 3-7 所示。

(15)

圖3-7 本體論架構(改自郭耀煌、高政汗 2000)

(一)類別(class)

在分類之前,本系統需要一些已經分類好的訓練資料(training data) 作為訓練的學習樣本。然後將訓練好的結果,拿來作為未來 預測分類使用。所以類別間的關係會對預測的正確性有極大的影 響。類別間的關係只有獨立與交集。如圖3-8 所示:

圖3-8 類別間的關係性

類別間的獨立性表示兩個類別的領域是無關聯性的。如圖3-8(a) 所示,”類別 A”不會與“類別 B”在領域上有任何的相關性。貝 氏機率理論非常適合應用於此種類別獨立的領域中。其方式是事先

類別A 類別B

(a)獨立

類別A 類別B

(b)交集(兩類別有關聯性存在)

領域知識

類別 1 類別 2 類別 3 類別 4 類別 N

概念 1

概念 2 概念 3

概念 4

概念 5 概念 6

概念 7 概念 M

特徵字詞 1 特徵字詞 2 特徵字詞 3 … 特徵字詞 K

(16)

定義每一個類別間都不具有任何關係,再利用類別間各文字的互斥 性做出分類的依據。

類別的關連性稱為類別的重疊性。如圖 3-8(b)所示,兩類別在 領域上會有一定程度上的雷同,但是不會有像概念的包含關係存 在。圖 3-8(b)的情況經常發生,通常有兩個類別甚至於多個類別重 疊的現象。

(二) 概念階層(Concept hierarchy)

圖3-9 概念階層建構時的問題

圖3-9 中這兩個概念階層從概念 1 到概念 3 的概念都相同,但 是圖3-9(b)的概念階層比圖 3-9(a)的概念階層多繼承自概念 3 的概 念5 與概念 6。若圖 3-9 中兩個概念階層描述相同的領域,造成此 架構上的差異是因為在建立概念階層時,無法很明確的定義出最底 層的概念。當以人工建立本體論的時候,時常會依據主觀的因素作 決定。

二、領域概念階層

將類別、概念階層與詞組結合起來的網路架構,稱為領域概念階層網路 概念 1

概念 2 概念 3

概念 4 概念 5 概念 6 概念 1

概念 2 概念 3

(a) (b)

(17)

圖3-10 領域概念階層網路(改自郭耀煌、高政汗 2000)

在領域概念階層中的作業重點為:特徵字詞與概念階層間的轉換以及概念 階層與類別之間的關係。

(一)特徵字詞與概念之間的轉換機制

屬於概念的特徵字詞,可經經由WIDF 字詞權重函數的轉換,將其轉換 成該概念的輸入來源值(input source value)。

=

D i

t i TF

t d t TF

d

WIDF ( , )

) , ) (

, (

(3-1)

試題在經過文字預先處理程序後會變成詞組,再利用TF×IDF2將這些重 要的詞組轉換為各對應的概念來源值。

(二)類別與概念階層之間的關係

此外,需要已經訂有明確類別的試題內容當作區分類別的訓練資料,而 且這些類別間容許有重疊性。每一個類別被認定是最上層的概念,可藉由類 別的重疊性,找出代表重疊的概念。在建立網路架構之前,首先要決定到底 這些重疊性的類別包含哪些概念。並且經由類別與組成類別的概念集合的比

領域知識

類別 1 類別 2 類別 N

來源值 1

特徵字詞 1

來源值 2

特徵字詞 2

來源值 3

特徵字詞 3

來源值 3

特徵字詞 3

來源值 i

特徵字詞 i

… 概念 1 概念 2 概念 3 概念 1 概念 i

0.4 0.2 0.8 0.3 0.7

(18)

重值,表示出其對於類別的重要程度。

在圖3-10 中,可看出欲分類的特徵字詞集合利用領域概念階層網路轉換 為概念階層中的資料,再經由概念階層轉換歸納出所歸屬的類別。在做試題 的歸類轉換時,可採用資料整合的方式以得到分類結果,主要因為概念階層 中最多只能求得組成試題的概念權重,接著需將這些概念權重再進行整合以 產生該試題的類別。即使不同的類別可能會擁有相同的概念,但這些概念會 因為與類別之間的關係權值不一樣,而造成不同的分類結果。

三、自動建構本體論

如果採人工的方式建立本體論,可能會建構很適當的分類系統架構。但 也可能會因為領域的改變而造成人力的浪費。但若要自動建立本體論,因為 不可能由使用者預先定義概念階層的階層架構關係,所以可能會發生實務上 的瓶頸。所以,考慮在建立前,對於概念作事先的規範。

輸出

類別 1 類別 2 類別 i 類別 n

輸入

字詞 1 字詞 2 字詞 3 字詞 k 字詞 m

概念 1 概念 2 概念 3 概念 i 概念 n

虛擬 概念 1

虛擬 概念 2

虛擬 概念 3

虛擬 概念 4

虛擬 概念 i

虛擬 概念 n

(19)

圖3-11 是自動建立本體論的階層架構圖。整個本體論的架構包含類別、

概念階層(此處稱為『虛擬概念階層』(virtual-concept hierarchy))以及字彙。

(一)類別(class)

指要分類的類別,傳統的試題分類方法是採人工設定分類特 徵選擇的方式,將關連的試題集合歸成一類。

(二) 概念階層(concept hierarchy)

在一般本體論中的概念,指的是對知識表徵上有具體的意 義,而且可以經由外部定義決定上下階層間的關係。但是,在自 動建立概念階層的機制中,並無法利用人工的方式事先定義出概 念的領域。所以改採在建立概念階層的時候,先參照類別領域來 歸納概念階層。由於這種概念與傳統概念的形成方式不同,在此 將由類別衍生出來的概念稱為虛擬概念(virtual-concept)。利用虛 擬 概 念 關 係 構 成 的 概 念 階 層 則 稱 為 『 虛 擬 概 念 階 層 』 (virtual-concept hierarchy)。在整個『虛擬概念階層』的結構中 包含了概念節點(concept nodes)及虛擬概念節點(virtual-concept nodes)。『虛擬概念階層』的建構方式,如圖 3-12 所示:

圖3-12 本體論的虛擬概念建構方式(改自郭耀煌、高政汗 2000)

假設有n 個類別,要定義相對的『虛擬概念階層』架構,其 方法如下:

1.預設每一個類別都是可具有重疊性的領域。因此,可以將 這些領域視為最上層概念,亦即最大的虛擬概念。

虛擬 概念(1)

虛擬 概念(1,2)

虛擬 概念(2) 類別 1 類別 2

概念 1-概念 2 概念 2-概念 1

概念 1 ∩概念 2

(20)

2.以集合的觀念拆開這些概念交集與差集的部分,並定義這 些拆開的領域為虛擬概念。

3.在階層架構上來說,這些分離出來的虛擬概念還是原有概 念的一部份,所以仍然可以建立出其概念階層。當有 n 為 類別,便可產生2n-1 個虛擬概念。

圖3-13 是 n=3 建立出來的『虛擬概念階層』範例,可從其 中看出類別-虛擬概念及虛擬概念-『虛擬概念階層』的關 係。比較特殊的是,是每一個類別都是由相同數目的虛擬概 念所組成。而且虛擬概念間也具有繼承的關係。

圖3-13 三個類別的虛擬概念階層範例(改自郭耀煌、高政汗 2000)

第六節 以程式自動建構本體論的方法

因本研究採虛擬概念來定義本體論知識階層,故可採用具單層隱藏 層的倒傳遞類神經網路來達成,其可應用一個訓練範例的一組特徵字詞 輸入值,與一組分類目標輸出值,修正網路連結加權值與門限值,而達 到學習的目的。

虛擬概念輸出值及輸入值的關係式,一般可用輸入值的加權乘積和的函 數表示:

虛擬概念(1) 虛擬概念(2) 虛擬概念(3)

虛擬概念(1,2) 虛擬概念(1,3) 虛擬概念(2,3)

虛擬概念(1,2,3)

(21)

) ( j

j f net

Y = (3-2)

= ij i j

j W X

net θ (3-3)

其中

Yj =輸出變數,概念階層中某概念節點的輸出訊號。

f =轉換函數,概念階層中某概念節點的非線性處理機能,是一個

用以將從其他概念節點輸入的輸入值之加權乘積和,轉換成本 概念節點輸出的數學公式。通常採用4-4 式

e x

x

f

= + 1 ) 1

( (3-4) 當自變數趨近正負無限大時,函數值趨近 (1,0),如圖 3-14 所 示。

Wij =連結加權值,概念節點的連結強度。

Xi=輸入變數,概念節點的輸入訊號。

θj=門限值,概念節點的閥值,又稱偏權值。

圖3-14 轉換函數

首先,應用訓練範例的特徵字詞輸入值{X},計算虛擬概念的輸出 1.0 f(x)

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 x 0.8

0.6 0.4 0.2 0.0

(22)

值 {H}如下:

) (

)

( =

= k ik i k

k f net f W X

H θ (3-5)

其中

Hk為虛擬概念第k 個隱藏單元的輸出值 f 為轉換函數

Wik為第i 個輸入特徵字詞與第 k 個虛擬概念間的連結強度 Xi為第i 個特徵字詞的輸入值

θ 為第 k 個虛擬概念的閥值 k

同理,應用虛擬概念的輸出值{H},計算類別的推論輸出值 {Y}

如下:

) (

)

( =

= j kj k j

j f net f W H

Y θ (3-6)

其中

Y 為第 j 個類別的推論輸出值 j

f 為轉換函數

W 為第 k 個虛擬概念與第 j 個類別的連結強度 kj

θj為第j 個虛擬概念的閥值

類別的「推論輸出值」與訓練範例原有的「目標輸出值」相較可得 網路誤差。利用此誤差作為修正概念節點間的連結加權值的依據,以從 訓練範例中建立系統模型。因為本研究採監督式學習,旨在降低知識類 別的目標輸出值與推論輸出值之差距,所以一般以下列誤差函數(或稱 能量函數)表示學習的品質:

(23)

2 )

( 2

= Tj Yj

E (3-7) 其中

Tj為訓練範例第j 個類別的目標輸出值 Yj訓練範例第j 個類別的推論輸出值

學習的目的為修正概念節點上的加權值,使分類誤差函數達到最小 值,即使推論輸出值趨近目標輸出值,如此即已經從訓練範例中學習到 隱涵在訓練範例中的系統模型。因此,學習過程變成使上述誤差函數最 小化的過程。因為誤差函數是概念節點連結上加權值的函數,所以為了 使誤差函數達到最小值.可用「最陡坡降法」來使誤差函數最小化,即 每當輸入一個訓練範例,即小幅調整概念節點連結加權值的大小,調整 的幅度和誤差函數對該加權值的敏感程度成正比,即與誤差函數對加權 值的偏微分值大小成正比:

W W E

− ∂

=

η (3-8)

其中η稱為學習速率(learning rate),控制每次權值修改的幅度。

以下分成二部份推導連結加權值修正量公式:虛擬概念與類別間之連結 加權值、特徵字詞輸入值與虛擬概念間之連結加權值,茲分述如下:

1. 虛擬概念與類別之連結加權值

誤差函數對虛擬概念第 k 個概念節點與第 j 個類別間之連結加權 值,Wkj 的偏微分可用微積分學的連鎖律 (chain rule)得

k j j

j kj

j j j j kj

H net f Y W T

net net

Y Y

E W

E =− − × ×

= ∂

∂ ( ) '( ) (3-9)

δj定義為輸出層第j 個輸出處理單元的誤差量:

(24)

) ( ' )

( j j j

j = TY × f net

δ (3-10)

則類別與虛擬概念間連結之加權值 Wkj之修正量如下:

k j k

j j

j kj

kj T Y f net H H

W

W E = × − × × = × ×

− ∂

=

η η ( ) '( ) η δ (3-11)

同理,輸出類別的閥值修正量

j j

j

E η δ

η θ

θ = ×

=

(3-12)

2.輸入值與虛擬概念間之連結加權值

誤差函數對第i 個輸入節點與虛擬概念第 k 個概念節點間的連結加權 值 Wik的偏微分為:

i k j

kj j

i k j

kj j j

j

i k

j kj

j j j j

ik k k k k ik

X net f W

X net f W net f Y T

X net W f

net net

Y Y

E

W net net

H H

E W

E

×

×

 

=

×

×

 

 − − × ×

=

×

×



= ∂

= ∂

) ( '

) ( ' )

( ' ) (

) ( '

δ

(3-13)

δk定義為虛擬概念第 k 個概念節點的誤差量:

) (

' k

j kj j

k W × f net



=δ

δ (3-14)

則虛擬概念與輸入節點間的連結加權值 Wik之修正量如下:

i k i

k j

kj j ik

ik W f net X X

W

W E × × = × ×



×

=

=

η ηδ '( ) η δ (3-15) 同理 ,虛擬概念中概念節點的閥值修正量

(25)

k k

k

E η δ η θ

θ =− ×

− ∂

=

∆ (3-16)

通常公式 (3-11)、(3-12) 、(3-15) 、(3-16)在應用時會加上一個 慣性項(momemtum),即加上某比例的上次加權值的修正量以改善收斂 過程中振盪的現像。因此可改寫成

) 1 ( )

( = + ∆ −

Wkj n ηδjHk α Wkj n (3-17)

) 1 ( )

( =− + ∆ −

θj n ηδj α θj n (3-18)

) 1 ( )

( = + ∆ −

Wik n ηδkXi α Wik n (3-19)

) 1 ( )

( =− + ∆ −

θk n ηδk α θk n (3-20) 其中(1)α 稱為慣性因子,控制慣性項之比例

(2) ∆Wkj(n)表示加權值 Wkj第 n 次之修正量

(3∆θj(n)表示閥值θj第 n 次之修正量

(3-17)、(3-18)、(3-19)、(3-20)式即倒傳遞演算法之關鍵公式,這 種學習法則稱之為「通用差距法則」(General Delta Rule)。如果非線性 轉換函數使用雙彎曲函數,即(3-4)式,則

(1 ( ))

) (

1 1 1 1

1

1 1

1 1

1 1 )

) ( ( '

2

x f x

f

e e

e e e e

e

e dx

d dx

x x df

f

x x

x x x x

x

x

=



 

− +



 

= +



 

 +

 

= +

= +



 

= +

=

(26)

) 1 ( )) ( 1 ( ) ( ) ( '

) 1 ( )) ( 1 ( ) ( ) ( '

j j j j

j

k k

k k

k

Y Y net f net

f net f

H H

net f net

f net f

=

=

=

=

第七節 檢驗概念的關聯

本研究將利用資料採擷分析方法中的Apriori 關聯式演算法,採擷本 體論中概念節點之間的屬性與方法等組成元素,以產生兩個不同概念間關聯 的規則,將Apriori 演算法表示如下:

Input:Database D of transaction; minimum support threshold , min_sup.

Output: L , frequent itemsets in D

Method:

L1= find_ frequent_1 - itemsets(D);

for (k = 2; L k-1 ≠ φ;k + + ){

Ck = apriori_gen (Lk-1,min_sup);

for each transaction t D {//scan D for counts

Ct = subset(Ck,t); //get the subsets of t that are candidates for each candidate cCt

c.count + + ; }

Lk = {cCk|c.count> min_sup}

}

return L =∪kLk;

(27)

procedure apriori_gen (Lk-1: frequent(k-1)-itemset;_

min_sup :minimum support: threshold)

for each itemset l1L k-1 for each itemset l2L k-1

if (l1[1]= l 2[1])^( l 1[2]= l 2[2]) ^ ... ^ (l 1[k-2] = l 2[k-2]) ^_

(l 1[k-1] < l 2[k-1]) then {

c = l1 ►◄< l2; //join step : generate candidates if has_infrequent_subset (c, L k-1 ) then

delete c; //prune step : remove unfruitful candidate else add c to Ck;

} return Ck;

procedure has_infrequent_subset (c:candidate k-itemset;Lk-1:_

frequent(k-1)-itemsets);

//use prior knowledge for each(k-1)-sunset s of c

if s Lk-1 then return TRUE;

return FALSE;

(28)

第八節 分類的檢驗與關聯的考驗

一、分類的檢驗

為了檢驗分類的成果,在範例收集階段,必須將範例分成二個部份,

一部份作訓練範例,另一部份作測試範例。在學習階段,可每學習幾個 學習循環,即載入測試範例,測試誤差值是否收斂。在分類型問題的誤 差程度可用(3-21)式定義之誤判率來檢核之:

誤判率= 範例總數

正確推論範例數 範例總數

(3-21)

其申,正判範例是指範例中,其「推論輸出值」最大的輸出單元,

與「目標輸出值」最大的輸出單元是同一個範例。

而各分類項目的誤判率可用(3-21)式檢核之:

誤判率= 某類別範例總數

某類別正確推論範例數 某類別範例總數

(3-22)

二、關聯的考驗

資料採擷所產生的規則,其正確性是相當重要的,如果產生的規則不 夠正確將會影響決策者的判斷。實際驗證Apriori 演算法的結果,發現「支 持度-信心水準」的架構下所產生出的規則可能存在一些矛盾,如表 3-3 類別n與類別m的列聯表中所示,n 代表出現在類別n的高頻特徵字詞集合 Lk(n),m 代表代表出現在類別m的高頻特徵字詞集合Lk(m),假設最小信心 水準訂為50%,依表中的數據可求得在Lk(n)情況下,同時又是Lk(m)的信心 水準為80%,超出最小信心水準,依Apriori 可推論Lk(n)Lk(m)的規則成 立;但仔細分析表中資料,可發現Lk(n)的比率占了總交易的90%,反而比 Lk(n)∩Lk(m)的信心水準高出10%,也就是Lk(n)Lk(m) 實不應成立。

(29)

表 3-3類別n與類別m的列聯表

Lk(n) Not Lk(n) row

Lk(m) 20 5 25

Not Lk(m) 70 5 75

col 90 10 100

如何檢驗規則的正確性呢?最簡單的方式就是檢查項目之間是否獨 立,若項目之間獨立,表示項目之間沒有關係存在,彼此出現的機率是 隨機的。以表3-3 為例 P(Lk(n)) = 0.25,P(Lk(m)) = 0.9,P(Lk(n)Lk(m)) = 0.2,P(Lk(n)) × P(Lk(m)) = 0.225,P(Lk(n)) × P(Lk(m)) ≒ P(Lk(n)Lk(m)),

所以類別n類別m的關係幾近是獨立的,類別n類別m的關聯 性不高。

另外也可以用卡方檢定(Chi-Squared)來檢視項目間是否有關係存 在,藉由統計的理論基礎,來檢視規則的正確性。卡方檢定統計量如下:

=

e e o

f f

f 2

2 ( )

χ (3-23)

其中

f :某分類中特徵字詞的觀察數目 o

fe :某分類中特徵字詞的期望數目

在檢定類別n類別m的關係時,將虛無假設訂為類別n類別 m的關係為相互獨立,對立假設為類別n類別m的關係不獨立,然 後計算卡方的值,這裡類別n類別m 的卡方檢定統計量為0.278,查 表得知在95%的信心水準 (統計上的信心水準),類別n類別m的卡

(30)

方檢定統計量必須大於3.841 才能拒絕兩個事件相互獨立的虛無假設,

而表3-3 中類別n類別m的卡方檢定統計量只有0.278,所以不能 拒絕兩個類別相互獨立的虛無假設,也就是類別n類別m 彼此之間 並非相互獨立,兩者之間應有關聯關係存在。因此若單純以「支持度- 信心水準」架構所產生在類別n類別m 的關聯強度是不顯著的,經 由卡方檢定的檢查,將會過濾掉這條不顯著的規則,提高關聯規則的準 確性。

數據

圖 3-1.  物件導向本體論架構圖  一、資料結構(字彙、概念、屬性、關係權值)  本體論最常用的幾個組成分子分別是物件(object)、屬性(attributes)、 關係(relation)  和運算(operations)。其中物件可以代表概念,而概念可 以是一個說法、想法、或實體或是一個知識領域。在這些實體中我們可 以給予值,使得其具備屬性-值(attribute-value)的資料型態。而在概念間 的相互關係裡有『關係』予以定義,例如繼承(inheritance)  或是兄弟關 係。並且在概念間
圖 3-5  工具程式架構圖  圖3-6  是基於本體論理論所設計出來的試題分類系統的流程圖:  圖3-6  本體論式的試題分類系統流程圖  在整個分類的程序與資料的流程上,可將此系統架構分成四個部分:  一、文字的前置處理  二、本體論的形成與學習  三、支援的知識庫  四、分類結果驗證  一、文字的前置處理  文字的前置處理對分類系統而言是一個重要的環節。就所有的電腦自動分 類系統而言,其目的大多為協助人類自動的判讀文章內容並予以歸類,但目前 尚未有一可靠的理論提出可讓電腦具有理解自然語言的能力。所以利
圖 3-7  本體論架構(改自郭耀煌、高政汗 2000)  (一)類別(class)  在分類之前,本系統需要一些已經分類好的訓練資料(training  data)  作為訓練的學習樣本。然後將訓練好的結果,拿來作為未來 預測分類使用。所以類別間的關係會對預測的正確性有極大的影 響。類別間的關係只有獨立與交集。如圖 3-8 所示:  圖 3-8  類別間的關係性  類別間的獨立性表示兩個類別的領域是無關聯性的。如圖 3-8(a) 所示,”類別  A”不會與“類別 B”在領域上有任何的相關性。貝 氏機率理論
圖 3-10  領域概念階層網路(改自郭耀煌、高政汗 2000)            在領域概念階層中的作業重點為:特徵字詞與概念階層間的轉換以及概念 階層與類別之間的關係。  (一)特徵字詞與概念之間的轉換機制  屬於概念的特徵字詞,可經經由 WIDF 字詞權重函數的轉換,將其轉換 成該概念的輸入來源值(input source value)。
+3

參考文獻

相關文件

面對國文這個科目,需破除以往熟讀 課本 ,就能考好的觀念。國文模擬考大部分的 考題都是 閱讀題 ,注重閱讀能力及理解而非國學常識 ( 佔極少數 )

當系統的特徵根均有負實部時,系統是穩定的,在滿足穩定

(一)初試:採筆試方式,題目類型為選擇題,每科目題數各 50 題(每題 2 分,各題未作 答不予計分,答錯倒扣 0.6 分) 。初試成績達參加複試標準(初試科目其中

Chebyshev 多項式由 Chebyshev 於 1854 年提出, 它在數值分析上有重要的地位 [11], 本文的目的是介紹 Chebyshev 多項式及線性二階遞迴序列之行列式。 在第二節中, 我們先介

有考生認為閱讀能力中的長答題難以取得高分,細察原因,在於他們的答案沒有緊扣題

題目問什麼?請把它找出來。 【題目問共要 花多少錢】.. 換你試試看 換你試試看

2-1 化學實驗操作程序的認識 探究能力-問題解決 計劃與執行 2-2 化學實驗數據的解釋 探究能力-問題解決 分析與發現 2-3 化學實驗結果的推論與分析

• 當我們在歸類一個問題為 問題時,等於不在乎他的複雜度是 還是 之類的,只要是多項式時間就好。.