• 沒有找到結果。

第七節探 討本體的評鑑項目與技巧

N/A
N/A
Protected

Academic year: 2021

Share "第七節探 討本體的評鑑項目與技巧"

Copied!
72
0
0

加載中.... (立即查看全文)

全文

(1)

第二章 本體論的探討

本章旨在探討本體論的相關文獻,作為建立本體的基礎。首先在 第一節中由哲學上的本體論開始引言,進而延伸到資訊科學界的本 體。第二節則探討本體的定義、成份、認定標準、並給予範例說明。

第三節探討本體在不同領域與不同層面的應用。第四節探討不同觀點 的本體分類方式。第五節探討本體的發展原則與各種不同的本體發展 方法論。第六節探討本體表徵的內部基礎與各種本體語言。第七節探 討本體的評鑑項目與技巧。第八節探討本體的整合與自動建構本體的 學習方法等。最後在第九節作一個小結。

第一節 本體論與本體

一、本體論 Ontology

英文的 Ontology 源自於拉丁文的 Ontologia,而 Ontologia 又源自 於希臘文的 onto 與 logos。on 是指目前正在發生的事情,也就是存在 的事情 (being);logos 是指宇宙萬事萬務的本質,logy 則是指基礎的 科學知識或理論,合起來就是指「宇宙間正在發生的事情」或是「宇 宙間的基礎知識」。因此,Ontology 就是在討論宇宙間萬事萬物存在 本質的一種知識體系。Ontology 在中文的翻譯上有「本體論」「存在 論」「存有論」「實有論」等多種,但是較被兩岸學術界所接受的翻 譯為「本體論」。本體在日常生活中具有多樣的意義,例如「基本」、

「基礎」、「根本」、「根據」、「本質」、「實質」、「真實」等,因此,

Ontology 翻譯成本體論,最能彰顯其意義與內涵 (楊學功,2002)。

(2)

二、本體 ontology

Ontology 起源於亞里斯多德的哲學思想,因此也常常被稱為「哲 學之頂」(the summit of philosophy),主要目的在探討宇宙間萬事萬物 存在的本質。而這些本質可以分成十種不同的屬類,最後被普遍接受 的結論認為,萬事萬物存在的本質可以由十個抽象的概念組成,即物 質 (substance)、數量 (quantity)、品質 (quality)、關係 (relation)、行 動 (action) 、 情 感 (passion) 、 時 間 (time) 、 地 點 (place) 、 氣 質 (disposition)與習性 (habits)等 (Corazzon, 2007) 。也就是說,任何一 個物件都可以用「是什麼」(is what)來加以表示,例如「某一個東西 是物質」、「某一個東西是數量」等。「是什麼」是一種追本溯源的探 究、是連結兩個物件的連接詞,因而可以建立上下之間的關係。持續 的 探 究 根 源 與 建 立 關 係 就 可 以 瞭 解 一 個 領 域 的 知 識 組 成 。 因 此 Guarino 和 Giaretta (1995)建 議 採 用 大 寫 的 Ontology, 並 且 不 加 冠 詞,來表示哲學上探究根源的理論,而採用小寫的 an ontology 或 ontologies,來表示探究根源的結果,也就是領域的知識組成,兩者 之間應該有所分辨。因此,本研究將以本體論或 Ontology 表示探究 根源的理論,以本體或 ontology 表示探究根源的結果。

我國碩博士論文資訊網中對於 Ontology 的譯名也非常的分歧,

以 ontology 為關鍵字查詢其譯名所獲得的結果,包括知識本體論、學 習本體論、實體論、本體分類論、知識領域、本體知識、知識庫、本 體知識庫、映拓邏輯、本體論分析法、概念模型、知識地圖、本體知 識架構與分類論等十幾種名稱 (國家圖書館,2007)。最常被用到的名 稱為本體論與知識本體論兩者,但是大部份的論文都沒有清楚的界定

(3)

理論與實體的分別,使得本體論可能指的是哲學上探究根源的理論,

也可能指的是所探究出來的結果。為了能夠清楚的分辨兩者之不同,

宜使用「本體論」來表示 Ontology、以「本體」來表示 ontology。

第二節 本體的定義

一、分歧的本體定義

在本體的定義方面,許多專家學者的看法有很大的差異,有些定 義極為鬆散,有些定義卻又非常嚴謹。茲將具有代表性的本體定義按 照時間序列敘述如後。首先 Neches et al. (1991)認為一個本體是由某 個主題領域、該領域的名詞、名詞與名詞之間的關係、以及組合這些 名詞成為句子的推理規則等所組成。這個定義將本體視為某一個領域 的知識基礎,是具有人工智慧的知識庫,儘管這個定義並未描述術語 之間是何種關係,也未提及本體的表徵方式,但與其他後來的許多本 體的定義而言,已經算是相當嚴謹的定義。

最常被引用的本體定義是 Gruber (1993)所提出,Gruber 認為「本 體是一種概念化的顯性規範」(An ontology is an explicit specification of conceptualization),這個定義強調了「概念化」「規範」、與「顯性」

三個特性;概念化 (conceptualization)是由某一個概念認知到真實事 物的過程 (Maedche & Staab, 2002)。圖 2-1 所示就是概念化的過程,

首先由一個符號或稱為字彙來喚起一個概念,再根據規範來參照真實 的事物,就可以獲得具體的實例 (instance),或稱範例。例如有些人 可能認知到 Protege 是馬自達汽車的一種車款,有些人可能認知到

(4)

Protégé 是一種本體編輯工具,有些人會認知到 Protege 是一種 DVD 複寫器。不同的人可能認知到不同的事物,這是因為符號本身並沒有 加上其他的規範,因此一個符號可能代表不同的概念,但是當加上了 規範之後,符號所代表的事物就會變得更加明顯。所以本體就是由概 念 到 實 例 的 正 規 化 表 示 , 因 此 本 體 也 常 被 稱 為 正 規 本 體 (formal ontology) (Guarino & Giaretta, 1995;Guarino, 1997;Noy & McGuinness, 2001)。

Alberts (1993)將本體視為特定領域知識的概念分類,並定義這些 概念的語意解譯,使得概念所代表的意義變得更為明確。由這個定義 來看,本體又類似於分類學 (taxonomy),但是分類的方式是根據語 意,而不是根據語法。

Knowledge Based Systems, Inc. (1994)認為本體應該包括三個成 分,某一個領域的名詞所組成的名詞目錄、結合某些名詞成為正確敘 述的規則,以及預定的推理模式等。因此,本體就如同人類所熟知的 資料字典一般、再加上文法規則與行為模式,這個定義強調本體和資 料字典極為相似,但是仍然有差異存在。資料字典是將所有的單字或 片語集合在一起,並且透過自然語言給予定義,相反的,本體則是以 正規語言來定義。

馬自達汽車

本體編輯工具 符號(symbol) 事物(thing)

概念

圖 2-1 概念化的過程(資料來源:Maedche & Staab (2002)

Protege

(5)

Takeda, Iino, 與 Nishida (1995)提 出 了 一 個 非 常 鬆 散 的 本 體 定 義,認為在真實世界中,為了達成某一個特定的目的,而對某一件事 情達成一致的共識,就是本體。這個定義只觸及了本體的表象,並沒 有陳述本體的組成,也未深入到本體的內涵。

Mizoguchi 與 Ikeda (1996)提出一個相當嚴謹的定義,認為本體是 根據本體論所發展出來的一種概念的組成架構。也就是針對某一件事 情的概念、關係、屬性與值等,進行清楚明白的描述。其描述方式可 以是自然語言的描述、圖形結構的描述、樹狀結構的描述、或是正規 語言的描述等。這種型式的本體,不單是存在於傳統的哲學之中,也 存在於任何事務與任何領域之上。這個定義點出了本體的成份為概 念、屬性、概念之間的關係、與值等四種成份,但是允許使用不同的 方式來塑模本體,和 Gruber (1993)的定義不同之處在於後者要使用正 規的法則。

van Heijst, Schreiber, 與 Wielinga (1997)則以知識工程的角度,將 本體定義成某個特定領域中概念化知識的層次規範。這個定義比較特 殊的地方,是在概念化的層次,也就是要將知識劃分層次,由抽象知 識、一般知識、到具體知識加以分層。由知識工程的觀點來看,本體 顯然可以由上層的概念,透過層次規範來導出實例,也就是說本體一 定要涵蓋實例,如果只是到達概念的層次則不應算是本體。

Poli (2002) 則 持 一 般 性 的 觀 點 , 將 本 體 定 義 成 一 種 項 目 理 論 (theory of items),目的在處理組成這個世界的所有項目的資訊,包括 實體的資訊與抽象的資訊、存在的資訊與不存在的資訊、實際的資訊

(6)

與理想的資訊等。而這些資訊又可以按照其基本的組成分成三個維度 的資訊:符號的資訊 (semiotic information)、語意的資訊 (semantic information)、與本體的資訊 (ontological information)。符號的資訊主 要是分析用來傳達資訊的各種符號,也就是語言的分析,屬於語法的 層級,或稱為標記的層級;語意的資訊則是分析資訊的分類型式,例 如標準的分類、認知的分類、社會的分類等,都是屬於語意的資訊,

也就是符號所代表的內涵;本體的資訊則是由本質上的分類來分析,

也就是由概念上來分析。

二、本體的認定標準

在前述諸多有關本體的定義中,有的把本體看成是一個分類架 構,有的把本體當成是字典,有的把本體當成是索引典,有的則是將 本體視為知識基礎,有的將本體看成是知識工程,有的將本體看成是 項目理論、甚至是鬆散到將本體看成是對事務的一致觀點。這些定義 只能部分反應了本體的內涵,而 Jacob (2003)針對多樣的本體定義提 出了評論,認為本體論與本體雖然是極為熱門的一個研究主題,但是 大家似乎還是對本體論與本體的名稱感到迷惑。因為過去對於本體的 解釋實在太多,包括目錄 (category)、分類學 (taxonomies)、分類綱 要 (classification schema)、控制字彙 (controlled vocabularies)、階層 架 構 (hierarchies)、 字 典 (dictionaries)、 索 引典 (thesauri)、 術 語 集 (terminologies)等。在國內部份也顯示相同的現象,許多分類系統也 稱為本體,如果鬆散到將這些分類系統也視為本體,實在是違背了本 體是領域知識組成的內涵,也降低了本體的發展潛力。因此許多文獻 強 調 本 體 中 的 概 念 必 須 要 合 乎 isa 的 關 係 , 並 安 排 成 為 階 層 架 構

(7)

(Ceusters, Smithb, Kumarb, & Dhaenaa, 2004; Jacob, 2003; Noy &

McGuinness, 2001)。除了 isa 的關係之外,還允許「部份-整體」 (partof) 關係存在(Noy & McGuinness, 2001) 。isa 與 partof 的主要差異在於 isa 是一種父子關係、也就是超類別與子類別的階層架構關係,也是一種 繼承的關係,在上層的概念比較一般化,在下層的概念比較具體化,

到了最底層時就變成了一個具體的實例。例如人類是一種哺乳類;而 partof 是一種整體-部分的關係,也就是一種涵蓋關係,例如引擎是汽 車的一個部分。

合乎 isa 關係的子概念會繼承超概念的所有屬性,而且還可以定 義自己的屬性。例如人類 isa 哺乳類、哺乳類 isa 動物,如果以階層 架構而言,哺乳類是動物的一種。因此動物是超概念,而哺乳類是子 概念,根據這樣的定義可以定出圖 2-2 簡單的本體,最上層的概念為 動物,第二層的兩棲類、哺乳類、與爬蟲類等,都是屬於動物,合乎 isa 的規範,第四層的張三、李四、與王五等,則是屬於實例。

圖 2-2 本體的範例 (資料來源:本研究) 關係 王五

實例 概念

isa 動物

哺乳類

兩棲類 爬蟲類

人類 張三 李四

(8)

由於 ontology 有許多不同的定義,使得本體的內涵出現很大的落 差,因此,Guarino 與 Giaretta (1995)分析了許多有關 ontology 的研究 報告,彙整出七種 ontology 的解釋:

1、把 ontology 當成是一門哲學上的學科。

2、把 ontology 當成是一種非正規的概念系統。

3、把 ontology 當成是一種正規的語意說明。

4、把 ontology 當成是一種概念化的顯性規範。

5、把 ontology 當成是一種邏輯理論,用來表現概念系統。

6、把 ontology 當成是一種邏輯理論中所用的字彙。

8、把 ontology 當成是一種邏輯理論的後設規範 (meta-level specification)。

在這七種解釋之中,第一種和其他六種有明顯的不同,第一種解 釋把 ontology 當成是一門哲學上的學科,和人工智慧與電腦科學的 ontology 應該有所分辨。因此 Guarino 與 Giaretta (1995)建議採用大寫 的 Ontology,並且不加冠詞,來表示屬於哲學的學科;而另外採用小 寫的 ontology 再加上冠詞 an,即一個本體 (an ontology)或許多個本 體 (ontologies)來表示應用領域的本體。第二種解釋是採用非正規的 方式,也就是以自然語言來描述概念系統,概念本身是一種語意的層 次;第三種解釋則以正規的方法來做語意上的規範,所以第二種與第 三種解釋都是在「語意」層次,並沒有牽涉到「語法」的規範。第五 種到第七種解釋都和邏輯理論有關,也就是有「語法上」的規範,其 中第五種解釋是把 ontology 看成是一種邏輯理論,其作用在表現語意 的概念;第六種解釋是將 ontology 看成是邏輯理論所使用的字彙,也 就是所有的名詞、屬性與關係等的名稱;第七種則是邏輯理論的後設

(9)

規範、或是稱為詮釋規範,用來規範邏輯理論的架構與成分。在這七 種解釋之中,第四種解釋就是 Gruber (1993)的定義,也是最常被引用 的定義,在 Gruber (1993)與 Guarino (1995)的定義中,本體是指概念 化的顯性規範,也就是概念的正規化,這樣的定義有極大的解釋空 間,正規化到什麼程度才算是本體呢?

Guarino 與 Giaretta(1995)雖然列出了七種有關 ontology 的解釋,

但是仍然未能清楚的定義何謂本體。McGuinness (2002)進一步認為要 合乎兩個條件:合乎 isa 架構、與利用某種正規化語言加以塑模,才 能稱之為本體,也就是說,本體必須要具備「正規 isa」 (formal isa) 的架構。

Uschold (1996)也利用概念正規化的程度來認定是否為本體,概 念正規化的程度分成四個等級,要稱為本體至少要達到半正規化或高 度正規化的程度:

1、高度非正規化 (highly informal):完全以自然語言的方式來表示,

沒有任何結構上的限制或規範。

2、結構化非正規化 (structured informal):完全以自然語言的方式來 表示,但是在結構上必須受到限制或規範。

3、半正規化 (semi-formal):使用正規語言來表示,但是對於名詞的 定義並未嚴謹規範。

4、高度正規化 (rigorously formal):使用正規語言來表示,並且很嚴 謹的定義名詞、屬性與語意等,還要確保其正確性與完整性。

McGuinness (2002)的「正規 isa」架構和 Uschold (1996)的「半正

(10)

規化架構」,都是用來決定是否為本體的依據。雖然在名稱上不盡相 同,但是其內涵是相同的,都是以是否使用正規法則來作為認定的依 據。但是這樣的認定方式並不周延,主要的原因是由發展本體到應用 本體有不同的層次,只要是合乎 isa 或 partof 的階層架構,就可以稱 為本體。至於本體的表徵方式,只是使用的工具不同而已。例如使用 自然語言、圖形結構、邏輯語言、資料庫系統、甚至是電腦語言等都 可以。如果一定要限制非使用正規法則不可,則在發展階段中的自然 語言描述或圖形描述都不算是本體,等到帶入正規法則之後才叫本 體,似乎有一點牽強。但是以本體的嚴謹性而言,利用正規法則確實 可以讓本體更加周延,也才可能融入語意網的應用。

綜合言之,本體是針對某一個領域,為了達成人與人、人與系統、

系統與系統之間的相互溝通,而以正規化的方法,將領域的概念、概 念與概念的階層關係、概念的屬性與屬性的值等明確的加以規範,以 便將正確的資訊,在正確的時間,以正確的方法,傳送給正確的個體。

在這個定義之中,共有四層的意義:

1、本體的領域:本體必定是針對某一個領域來發展,這個領域可能 是針對極為特定的領域,所發展出來的領域本體,或是針對一般 的領域所發展出來的通用本體,完全看本體的應用層面來決定。

2、本體的目的:本體的目的是人與人、人與系統、系統與系統之間 相互溝通的媒介,能夠相互溝通才能進一步擴展其應用。

3、概念關係的明確規範:為了達成相互溝通的目的,需要就該領域 的所有概念加以語意定義,並且概念之間的關係也要加以明確的 規範,以便在概念化的過程中獲得明確的實例。

4、正規化的語言:使用正規符號或正規語言來規範概念與概念之間

(11)

的關係,除了人可以瞭解之外,機器也可以閱讀,使本體與資訊 系統的應用相互結合。

三、本體的成份

本體的組成除了概念之外,還具有其他的成份,來豐富本體的內 涵,正如同本體具有多樣的定義一般。本體的成份所使用的名稱也相 當的分歧,根據 Kiryakov, Dimitrov, 與 Simov (2001)的研究顯示,本 體的表示方式有許多種,每一種表示之中所用的名詞也不盡相同。

表 2-1 不同本體表徵方式所使用的本體成份名稱

表徵方式 各層次的名稱

語意式 concepts properties attributes instances 框架式 classes slots facets instances 描述邏輯式 concepts roles individuals 物件導向式 classes attributes objects Cyc 式(Cycorp 公司) collections predicates individual

Knowledge Based Systems, Inc 式

kinds properties attributes

資料來源:整理自 Kiryakov, Dimitrov, & Simov (2001)

表 2-1 所示為較常用的表示方式,其中又以語意式與框架式兩者 最 為 普 遍 。 本 體 的 基 本 組 成 元 素 是 概 念 (concept) , 也 稱 為 類 別 (class) 。 Cyc 公 司 使 用 比 較 特 殊 的 名 稱 叫 做 集 合 (collection) 。 Knowledge Based Systems 公司更使用種類 (kind)。概念與類別是最常

(12)

被採用的名稱,當本體以自然語言表示時通常使用概念,但是當本體 帶入本體工具,或應用在資訊系統中時,則以使用類別居多,因為在 物件導向的語言中都使用類別的名稱。

表 2-1 的名稱確實容易造成混淆,本體最基本的要求應該是眾人 的共識,才能夠據以溝通。但是這些不同的名稱本身卻使得最基本的 本體共識都難以達成,因此,本體的成份可以簡化成三組名稱。當本 體以自然語言表示時使用 concept、attribute、value 與 instance;在物 件導向環境或本體工具中,使用 class、slot、facet 與 instance;在中 文環境下,則使用概念或類別、屬性、值與實例等;至於關係則是指 概念與概念之間的 isa 或 partof 關係 (溫瑞烘、莊謙本;2004)。

總結而言,哲學思想的 Ontology 是一種存在的理論,稱為本體 論,包含萬事萬物存在的探究,近代的 ontology 被認為是知識的基本 架構,是依據本體論所發展出來的事物的表徵,本體論是一個理論,

本體是一個由概念到實例的表徵,可以說是一個產品,兩者有顯著的 區隔,但是 ontology 實際上的基礎還是在於哲學上的 Ontology 理論,

兩者之間最主要的差異在於亞里斯多德的哲學本體論,在十個概念範 疇之間並沒有特別強調相互之間的關係 (relation),而今日的本體卻 極為強調概念與概念之間的關係 (Schulze-Kremer, 2002)。

第三節 本體的應用

一、本體在溝通上的應用

(13)

個人、組織與軟體系統之間都需要相互溝通,但是由於背景與需 求之不同,導致對同一件事情的觀點也有差異。因此應該要減少或去 除概念上或名詞上的混淆,以達成共同的瞭解,這就是要建立本體的 最主要理由 (Uschold & Gruninger, 1996;阮明淑、溫達茂,民 91)。

Noy & McGuinness (2001)也是從溝通的基礎上,認為本體可以延 伸到下列的應用:

1、本體可以提供人們或軟體代理人對於資訊的共同了解:由於人們 對於某個名詞的認知可能不同,導致不同的解讀,影響到人們的 相互溝通與資訊的流通。例如在全球資訊網上,許多與醫藥相關 的網頁都會提供有關醫藥的資訊,假如每一個網站都是基於相同 的本體,則所提供的訊息都會採用相同的名詞,且其名詞的定義 也是相同,對於大眾而言都會有共同的資訊傳達,對於資訊搜尋 的軟體代理人而言,也可以獲得較有意義的資訊 (Musen, 1992;

Gruber, 1993)。

2、本體有助於領域知識的重複使用:在人類知識發展的過程中,經 常是利用舊有的知識來發展新的知識。因此,知識的重複使用對 於知識的擴展與累積,佔有極為重要的地位,尤其在二十一世紀 的今天,各種知識再也不能完全獨立。跨領域的知識整合變得極 為普遍,如果對於某一個領域的知識,都是採用一致的格式或概 念,對於知識的傳達與表現也必定有相當的助益。

3、清楚的表達領域的知識:本體除了是名詞的集合與定義之外,還 將其關係明顯的表現出來,並以正規化的方法來加以描述。因此 本體就是該領域的知識基礎,是初學者瞭解該領域的起點,對於 想要擴展該領域的知識與應用的專家,也有極大的幫助。

(14)

4、將領域性知識與操作性知識分開表示:本體是用來表示某個領域 中的概念知識,也就是領域性知識,而這個概念知識可以在不同 的領域之中應用,也就變成操作性知識,因此,本體可以將領域 性知識與操作性知識加以分開表示。

前述的這些應用,不管是人與人的溝通、人與機器的溝通、代理 人之間的溝通等,都必須植基於共同的基礎,也就是有共通的字彙,

而本體是最好的溝通工具。

二、本體在知識工程上的應用

建立本體的最終目的是為了應用,因此 Knowledge Based Systems, Inc. (1994)就以知識工程上的應用為例,來說明建立與應用本體的理 由如下:

1、標準化 (standardization):在一個知識工程計畫中,往往會牽涉到 許多不同領域的工程人員,這些不同領域的人員經常要相互溝通 與共同合作,才能完成一項計畫。相互溝通與共同合作必須要在 一致的基礎上進行,本體的建立就是要給予所有術語或名詞標準 化的定義,以便建立共同的基礎。

2、再使用 (reusability):在工程應用上,經常有許多的工作是一再的 重複,若每次均需從頭開始建立工作模式,既浪費資源也減低效 率。所以建立本體就是為了節省重複塑模的花費,一旦某一個領 域的本體被建立之後,就如同決定了該領域的標準,而可以拿來 重複使用。

(15)

三、本體在全球資訊網的應用

McGuinness (2002)的研究指出,發展小型且簡單的本體,並不需 要多大的花費,甚至還可以從網路上的本體儲存庫中取得,這種小型 本體大多應用在全球資訊網頁上,說明如下:

1、提供控制的字彙:本體可以提供一般使用者、資料庫管理者、與 程式設計者等,利用其字彙作為命名的依據,例如變數名稱、資 料庫綱要與應用程式介面的名稱等。

2、作為網站架構:本體就是一個分類系統,利用這樣的分類作為網 頁的架構,可以一層一層的擴展,不但方便網頁的管理,而且可 以讓使用者很快的瞭解其知識架構,也很容易找到要瀏覽的項目。

3、提供瀏覽支援:整個網頁的內容可以利用本體的名詞加以標記,

形成後設標記 (meta-tagged),也就是網頁內容的摘要標記,有助 於讓使用者瞭解網頁的重點內容,提供網頁的瀏覽支援。

4、提供擴充搜尋支援:本體的架構非常適合應用在搜尋的擴充上,

當使用者想要搜尋某個名詞的定義及其相關的內容時,就可以透 過本體的架構,找出其擴充的內容。

5、釐清意義:當一個名詞出現在不同的地方,而且又有不同的意義 時,可以透過本體的階層架構,釐清名詞所代表的意義。

四、本體在生物資訊界的應用

Schulze-Kremer (2002)指出,在 1997 年之前,生物資訊界與分子 生物界幾乎不知道本體這個名詞。但是在網際網路盛行之後,許多和 生物相關的資訊,如基因的、細胞的、結構的、性質的、及其他型態

(16)

的生物資訊來源眾多,單就一項 DNA 而言,就有許多不同組織、不 同範圍、不同目的的資料庫,提供相關的資訊查詢。但是這些資訊來 源可能因為名詞的差異,例如同義詞、別名、慣用語等;或因語法的 差異,例如語法結構、拼音;或因語意的差異等,造成查詢結果的混 亂,使用者必須花費極大的心力加以篩選,更不用說是資料的共享與 整合了。因此,在生物資訊界與分子生物界,都有共同的需求,希望 建立共同的溝通標準,將本體與生物資料採礦、生物資訊整合、生物 資源共享、與其他的應用聯結在一起。

Stevens, Wroe, Lord, 與 Goble (2004)也指出,生物資訊一直都受 到極大的重視,可能是因為生物資訊的資料量大、複雜性高、反覆無 常、異質性也大,而且過去累積的生物資訊都較為分散,由於缺乏共 同的字彙,導致生物資訊在名稱上、實體上都有很大的差異。但是過 去數年來,生物資訊界已經逐漸利用本體的概念,包括:

1、利用本體定義資料庫綱要或知識基礎:本體的概念、屬性與關係 等,可以作為定義資料庫綱要的基礎。

2、利用本體查詢生物資料庫:本體本身的概念架構就包含分類的機 制,生物資訊本體的內容就可以作為社會大眾查詢之用。

3、利用本體作為異質生物資訊之間相互操作的中介:不同的系統平 台、不同的語言平台、或不同的生物資訊之間的相互溝通,需要 利用本體作為中間的操作介面。

4、利用本體作為智慧型搜尋生物資訊的鷹架:利用本體所具有的概 念、關係與同義詞等,可以提升搜尋回覆率與精確度。

5、利用本體作為相關社群的共同參考依據:生物資訊的專有名詞很 多,對於許多名詞的解釋也有極大的變異。因此,生物資訊相關

(17)

的社群需要有一個共同的參考基準,就是生物資訊本體。

6、利用本體作為資料庫或技術文獻的語意註記:一般而言,生物資 訊的資料庫綱要或內容未必有語意的註記,本體的概念與架構就 可以當作語意的註記。

五、本體在軟體工程的應用

軟體的重複使用有助於軟體品質與生產力的提升,要達到軟體的 重複使用先要設計出可重複使用的軟體資材 (assets),再設計出新的 軟體來重複使用這些軟體資材。在設計過程中,本體可以扮演軟體重 複使用的重要角色,因為本體可以促進軟體發展者之間的共同瞭解、

也可以作為軟體設計的規範、又可以改進資訊的存取。雖然本體對於 軟體的重複使用有許多助益,但是最大的缺點是軟體工程中,沒有任 何方法可以將本體融入軟體設計程序中。因此,Falbo、Guizzardi、

Duarte 與 Natali (2002)建議以領域工程 (domain engineering)與軟體工 程 (software engineering)平行且交叉的處理模式,來加強軟體的重複 使用,其程序如圖 2-3 所示。

在領域工程方面,首先要進行領域本體的分析,以獲得領域的本 體模式,再進行軟體架構的發展,以獲得結構模式,接著發展可重複 使用的軟體資材,最後將軟體元件儲存到儲存庫中。在這些程序中,

領域模組化、結構模組化、與元件儲存庫等,都是以本體作為基礎。

在軟體工程方面,領域模式可以作為系統分析的輸入,結構模式也有 助於系統設計,而可重複使用的軟體元件更可以提升系統建構的品質 與效率。

(18)

六、本體在語意網的應用

本體的應用層面極為廣泛,已經擴展到各行各業的應用,但是最 重要的應用應該是下一代的網際網路,也就是語意網的應用。今天網 路上的搜尋引擎已經極為方便,只要使用者輸入關鍵字查詢,往往可 以得到成千上萬筆資料,但是這些資料是否為使用者所需要,仍然是 個未知數,使用者還要花上許多時間一一過濾。這是因為網頁上或者 儲存庫中的資料,通常都欠缺註解資訊,也就是欠缺語意資訊,只能 提供人類閱讀,而無法讓機器瞭解。但是這種情況在未來將會改變,

因為目前有許多標記語言 (markup language),如 XML (eXtensible Markup Language) (XML, 2000)、RDF (Resource Description Language) (Lassila, 1998;Lassila & Swick, 1999)、RDFS (Resource Description Language Schema) (Brickley & Guha, 2000)、DAML (DARPA Agent

軟體工程

圖 2-3 以本體為基礎的軟體工程處理模式 (資料來源:Falbo、

Guizzardi、Duarte 與 Natali(2002))。

系統分析

分析模式 設計 設計模式

建構

軟體應用 領域分析

領域模式 軟體架構發展

結構模式

可重用軟體資材發展 元件儲存庫

領域工程

(19)

Markup Language)(Hendler & Mcguinness, 2000)等,逐漸被使用者所 接受,利用這些標記語言和本體相互結合,可以使目前的文字網頁變 成語意網頁 (semantic web),就可以讓網頁內容提供機器閱讀並瞭解。

在資訊擷取的應用方面,也常利用本體的語意來作語意搜尋,與 一般傳統的資訊擷取技術利用統計方法比較起來,本體在語意搜尋上 扮演兩個角色,一是透過本體的概念階層架構將搜尋的結果加以分 類,另一是透過本體的語意來作推論式的延伸搜尋,其目的是要改善 搜尋的回覆率與精確度,目前的實際應用情形如下:

1、Corese:Corese (Acacia-Corese, 2007)是 Conceptual Resource Search Engine 的縮寫,是一個植基於概念圖 (conceptual graphs)和 RDF 的語意搜尋引擎,可以由 RDFS 與 RDF 的文件中進行語意搜尋,

其應用環境涵蓋知識管理、eLearning 與 eHealth 等。Corese 以 Java 實作,是一種開放式的軟體。

2、OntoSeek:OntoSeek系統 (OntoPortal, 2007)採用有限的語言表示 法來描述結構化的資源,例如黃頁或產品目錄,並透過大型語彙 本體WordNet作媒合,可以改進資訊擷取的回覆率與精確度。

3、SHOE:SHOE (Simple HTML Ontology Extensions) (SHOE, 2007) 利用類似XML的語言來標記網頁,並利用本體作為背景知識,再 利用人工智慧的技術來搜尋網頁,儘管所標記的網頁有限,但是 已經證明語意搜尋的效能。

4、XSEarch:XSEarch (CiteULike, 2007;Cohen, Mamou, Kanza, & Sagiv, 2003)是一種語意搜尋引擎,使用XML正規化的本體作為基礎,並 且搜尋由XML表徵的文件中,傳回語意相關的文件。

(20)

另外,本體也極為適合應用在語意式的工作媒合系統上,將於第 三章中專章探討。

七、本體在知識管理的應用

資 訊 科 技 (information technology ; IT) 與 知 識 管 理 (knowledge management;KM)兩者密不可分。IT 扮演轉換知識、連結知識、進 而創造知識的角色,使得 KM 系統更形豐富,而這些功能的達成可以 使用本體作為知識管理系統的基礎,其應用包括 (Abecker & van Elst, 2004):

1、以本體支援知識的顯示:利用本體作為知識顯示的架構,再加上 適當的瀏覽與進階搜尋機制,可以讓使用者更方便的存取知識。

2、 以 本 體 支 援 知 識 搜 尋 、 擷 取 與 個 人 化 : 建 立 領 域 本 體 (domain ontology)可以擴展傳統的關鍵字搜尋到先進的語意搜尋,有助於 知識的擷取,而個人的學習歷程檔案本體 (profile ontology)也可 以讓知識管理系統做到個人化的知識管理。

3、 以 本 體 作 為 資 訊 蒐 集 與 整 合 的 基 礎 : 利 用 領 域 本 體 與 資 訊 本 體 (information ontology)作為資訊擷取、資訊萃取、與資訊整合的 基礎,以便產生新的知識。

本體還可以應用在虛擬組織的內容管理上,Mika, Iosif, Sure 與 Akkermans (2004)發展了一個虛擬企業有限公司叫 EnterSearch,以網 頁方式傳播資訊科技與能源方面的知識,可以提供研究報告、報導、

或專書等。EnerSearch 原來的設計和大部份企業的網站沒有兩樣,參 觀者以主題分類方式瀏覽,所有出版品均以表格方式呈現,並可以選

(21)

擇不同的排序方式,同時還有一個關鍵字搜尋引擎 EnerSearcher。但 使用者並不滿意這樣的安排,主要的問題出在搜尋資訊的效率與精確 度。使用者希望系統能夠引導他們快速的找到需要的資訊,並排除不 相關的資訊。除此之外,固定式的網頁架構限制了瀏覽的選擇,這種 完全由供應端決定一切的作法,和需求端為主的思考不相吻合,違背 了企業界顧客至上的信條。因此,在 1999 到 2002 年之間所進行的「歐 洲本體到知識計畫」 (European On-To-Knowledge project),發展了以 本體為基礎的中小企業解決方案,包括本體語言、本體工具、與本體 發展方法等,希望應用在中小企業的知識管理系統之中,以提升競爭 力。為了確認此解決方案的效果,EnerSearch 加入了該計畫並轉型成 為一個知識管理系統,目的在組織企業的知識,以減少知識工作者與 內容管理者的負擔。EnerSearch 有一個資訊萃取程式 OntoExtract,將 萃取到的資訊建立成本體。儘管本體的正規化不高,所建立的關係也 不佳,但是因為本體的潛力,使得語意式的搜尋變得可行,改進了資 訊擷取與網頁顯示的效率,也讓使用者的滿意度大大提高。

本體還可以被使用在知識入口網站的建置上,OntoWeb (Oberle &

Spyns, 2004)是歐盟的語意主題網頁 (OntoWeb, 2007),也稱為本體網 頁,於 2004 年 5 月完成建置,是一個以本體為基礎的知識入口網站,

也是一個知識管理、電子商務、與生物資訊的資訊互換平台,其互換 的機制為 RDF+RDFS。OntoWeb 的核心概念有兩個,一個是 DOGMA 本體 (Developing Ontology Guided Mediation for Agents),另一個是語 意入口網 SEAL (SEmantic portaAL)。DOGMA 本體由兩個部份組成,

本體庫 (ontology-base)與本體承諾層(commitment layer),前者是領域 的概念集合,後者是領域的規則;SEAL 則是由不同的資料來源中萃

(22)

取資訊,並儲存到資訊儲存庫中,並藉由本體架構提供瀏覽、查詢等 功能。

八、大型本體的應用範例

早期所發展的本體大都屬於大型的本體,用來提供某個領域標準 化的字彙,作為溝通的基礎。例如國際疾病標準分類 (International Classification of Diseases) (WHO-ICD, 1992);聯合國標準產品與服務 分類 (the United Nations Standard Product and Services Classification) (UNSPSC, 1998);美國病理學家學院 (College of American Pathologist) 所 發 展 的 系 統 化 醫 藥 名 詞 集 (Systematized NOmenclature of MEDicine; SNOMED) , 已 經 成 為 國 際 健 康 術 語 標 準 (IHTSDO, 2007);國家醫藥圖書館 (National Library of Medicine)所發展的統一 醫學語言系統 (Unified Medical Language System) (NLM, 2007),都是 極為成功的本體應用範例。

本體的應用除了在醫學領域大放光芒之外,也在軍事領域佔了一 席之地,例如美國夏威夷太平洋指揮部的虛擬資訊處理代理人研究 (Virtual Information Processing Agent Research;VIPAR) (Potok, Elmore, Reed, & Samatova, 2002),就是以本體作為基礎,每天以完全自動化 的方式,萃取17種網路英文日報的重要資訊,其做法是先分析每一種 英文日報的HTML格式,再發展出不同的描述本體作為基礎,再由智 慧型代理人自動萃取資訊,節省許多的人力與物力。我國中央研究院 中英雙語知識本體詞網 (中研院,2007),也是以本體為基礎的應用。

(23)

第四節 本體的分類

一、以資訊處理觀點來做本體分類

Guarino (1997)以資訊處理的觀點,將本體分成四個類型:

1、上層本體 (top-level ontology):最具有一般性概念的本體,屬於最 高階的本體,也可以稱作高階本體。這種本體並不是針對某個特 定的領域,而是各個領域都需要用到的概念。因此有較為抽象的 內涵,通常和人類的日常生活息息相關。例如有關時間、空間、

語言、文字等的本體等,都是屬於上層本體。

2、領域本體 (domain ontology):領域本體是具有特殊概念的本體,

係針對某一個特定領域的知識內涵所建立。通常和人類的學習生 活、經濟生活、社會生活、或就業生活等相關。例如各種學科、

職業、工程、醫藥、醫學等領域的本體。

3、任務本體 (task ontology):任務本體也是具有特殊概念的本體,通 常和人類的工作或職業相關,用以描述特定的工作任務或工作活 動為主。例如銀行交易、醫師診斷、教師教學等本體,都是屬於 任務型的本體。

4、應用本體 (application ontology):結合了領域本體與任務本體兩 者,前者提供領域相關的字彙或名詞,屬於理論的層面,後者則 以執行特定的任務為主,屬於應用的層面,大部分本體的發展都 是以應用為目的。

二、以主題觀點來做本體分類

(24)

Uschold (1996)則以本體的主題來劃分本體,也就是將表徵本體 置於最上面一層,第二層是領域本體,最底下一層則是問題解決本體:

1、表徵本體 (representation ontology):也稱為後設本體或稱詮釋本 體 (meta ontology),是專門用來描述本體的本體,以提供結構與 字彙給領域本體與問題解決本體。

2、領域本體 (domain ontology):針對某一個領域的一般性概念進行 描述,和特定的問題或特定的任務無關的本體。領域本體就是該 領域的知識組成。

3、問題解決本體 (problem-solving ontology):也稱為任務本體 (task ontology),或方法本體 (method ontology),通常描述可能產生的 問題與問題解決的方案、或執行任務的方法等。

三、以知識重複使用的觀點來做本體分類

Mizoguchi 與 Ikeda (1996)則以知識重複使用性高低的觀點,將本 體劃分成四種:

1、通用本體 (general/common ontology):或稱為一般本體,和日常 生活事務有關的本體,例如時間、空間、事件、事務等之本體,

由於這些項目沒有領域之分,因此,本體的重複使用性最高。

2、領域本體 (domain ontology):和特定領域有關的本體,主要是提 供該領域的一般性知識,其重複使用的特性低於通用本體。

3、任務本體 (task ontology):用來描述問題解決的架構,包括任務 執行時的推理、任務安排、資源配置、任務目標與限制等,由於 任務不同,其問題解決方式也一定不同,因此任務本體的重複使 用性也不高。

(25)

4、工作場所本體 (workplace ontology):以特定的問題解決為主,本 體的內容應該包括問題解決所需要的知識、處理程序、重要事件,

資源配置、效能、產出、可能碰到的問題與替代的解決方案等。

由於工作場所本體會因為領域不同而有極大的差異,因此,其重 複使用性最低。

四、以普遍性的觀點來做本體分類

Knowledge Based Systems, Inc. (1994)以普遍性的程度,將本體分 成三個層次,按照普遍性由高至低說明如下:

1、領域本體 (domain ontology):普遍性最高,主要是提供該領域的 一般性資訊。例如半導體製造領域的領域本體,將包括產品種類、

製造技術、材料與工具等之本體;資訊領域的本體可以包括硬體 領域與軟體領域,再往下繼續分類。

2、實務本體 (practice ontology):次普遍性的本體為實務本體,是領 域本體的延伸,繼承了領域本體的所有性質,並且是該領域中所 有相似的實務所組成的本體。例如半導體製造領域中類似的生產 線,就可以共同發展成為實務本體。

3、特定場所本體 (site-specific ontology):最缺乏普遍性的本體,是 實務本體的延伸,當然也是領域本體的延伸。例如生產特定半導 體晶片的生產線,就可以發展該生產線的本體。

相較於其他許多本體分類而言,這種分類方式係以領域本體的普 遍性最高,實務本體是領域本體中的特定實務,而特定場所本體又是 某個實務本體中的特定任務解決本體。因此,都是屬於領域本體的延

(26)

伸,對於一般性的本體,例如時間、空間、事務、地點等,並未著墨。

五、以知識工程的觀點來做本體分類

van Heijst, Schreiber, 與 Wielinga (1997)則以知識工程的角度,按 照知識概念化的程度來劃分本體:

1、領域本體 (domain ontology):針對個別領域所發展的本體,可以 作為建構知識本位系統的基礎知識或資訊架構,包括領域共通化 與標準化的名詞與定義、領域中特定的名詞、定義與方法等。由 於一個知識本位系統的建構,需要不同背景的人員共同合作才能 完成,其溝通的基礎就在於領域本體中的名詞與定義,因為領域 本體不僅僅是文獻或規範而已,而且還可以作為品質控制的機制。

2、核心本體 (core ontology):在知識工程系統的建構中,知識成份 的重複使用是極為重要的一個考量。而一個知識工程系統之中可 能包含數個相近領域的知識工程,這些領域必定要用到許多共同 的本體,這些共同的本體就稱為核心本體,包含共同的名詞、定 義與方法等。例如在法律上有許多不同的專業,每一種法律專業 之中有共同的知識,這些知識的組成就是核心本體。又如在醫學 的專業上分科很細,但不管是哪一個分科,都會有共同的醫學知 識,這些共同知識所組成的本體也是核心本體。

六、以本體和應用系統之間相依的關係來做本體分類

Zajac (2001)以本體和應用系統之間相互依存的關係來分類,可以 分成顯性本體 (explicit ontology)、隱性本體 (implicit ontology)與中

(27)

性本體 (neutral ontology),敘述如下:

1、顯性本體:顯性本體是指本體以單獨存在的方式顯性儲存,應用 系統需要時才存取本體。

2、隱性本體:隱性本體則是本體以隱藏的方式存在,也就是和應用 系統綁在一起。

3、中性本體:中性本體則是本體可以單獨存在或與應用系統結合。

Zajac 進 一 步 根 據 本 體 的 應 用 層 面 , 將 本 體 劃 分 成 工 程 本 體 (engineering ontology) 、 語 言 本 體 (linguistic ontology) 與 網 頁 本 體 (web ontology)三者。工程本體是一種隱性本體、語言本體是一種顯性 本體、而網頁本體則是屬於中性本體,說明如下:

1、工程本體:工程本體是植基於真實世界的觀點,主要目的是在系 統 設 計 階 段 時 , 協 助 資 訊 系 統 設 計 人 員 設 計 應 用 系 統 的 綱 要 (schema)。例如產品的模式化綱要、資料庫的綱要、資料庫整合的 後設綱要 (meta-schema)、電子商務的交易綱要等。利用工程本體 的高度正規化屬性,就可以將本體當成軟體工具一般,來設計事 件 (event)、狀態 (state)與行動 (action)等,甚至於自動產生程式 碼。因此,工程本體是以隱性方式整合在應用系統之中。

2、語言本體:語言本體是由概念、概念的定義與概念之間的關係等 所組成,透過文字化方式輸入這些概念、定義與關係等,並且儲 存在本體儲存庫中,就可以建立語意的表示。應用系統需要進行 語意處理時,才去存取語言本體的儲存庫,並且根據定義進行語 意解譯或媒合。因此,語言本體通常是和應用系統脫勾,不像工 程本體是和應用系統整合在一起,也就是屬於顯性的本體,例如 許多線上的辭典、索引典等。

(28)

3、網頁本體:網頁本體通常比工程本體與語言本體還要大,但是在 結構上則比較簡單,主要是提供分類結構的索引或連結、網頁的 進階搜尋、使用者介面的設計等。因此在結構上,通常採用主題 式的分類,而不是採用概念式的分類,例如一本有關汽車的書,

如果按照主題式的分類,則這本書應該在汽車分類之下,但如果 按照概念式的分類,則這本書應該是在書的分類之下。在角色上,

網頁本體可以像工程本體一樣,作為設計的依據或和應用系統整 合在一起,也可以像語言本體一樣,單獨儲存在本體儲存庫中,

以便應用系統隨時呼叫,也就是說,網頁本體是一種中性本體。

七、以正規化的程度來做本體分類

Poli (2002)以概念與概念之間關係表徵的正規化程度,將本體分 成三種型態:

1、描述本體 (descriptive ontology):描述本體一方面是指組成某一個 領域的所有資訊的集合,描述本體另一方面也是指本體的表徵是 以敘述的方式存在,也就是以文字敘述的方式來描述所有領域資 訊的集合。

2、正規本體 (formal ontology):由於描述本體是以自然語言的方式 來表示某一個領域的資訊。正規本體則是進一步將描述本體加以 分離、過濾與整理。例如可以根據事物 (thing)、處理(process)、

型式 (form)、整體 (whole)與部份 (part)等性質來選擇資訊,進一 步做分類篩選、編碼等,就成了正規本體。

3、正規化本體 (formalized ontology):正規化本體則是進行更嚴格的 編 碼 , 並 加 以 評 鑑 本 體 的 表 示 性 (expressive) 、 認 知 性

(29)

(cognitive)、與計算性 (computational)。也就是說,正規化本體必 須要能清楚的表達其內涵、也要具有知識性、以及可以利用電腦 加以處理。

八、以本體在知識庫系統中扮演的角色來做本體分類

Studer, Fensel, Decker, 和 Benjamins (1999)以本體在知識庫系統 中所扮演的角色來分類本體:

1、領域本體 (domain ontology):領域本體是某一個特定領域的知識 組成,例如電子、醫學、機械、或數位領域等。

2 、 一 般 本 體 (generic ontology) : 也 稱 為 常 識 本 體 (commonsence ontology),是關於一般性的知識,也就是和領域無關的知識,例 如時間、空間、狀態與事務等。

3、表徵本體 (representational ontology):表徵本體也是和特定的領域 無關,係用來陳述本體應該如何表示,可能有許多不同的名稱,

例如框架本體 (frame ontology)定義了本體的框架式表示法,包括 框架 (frame)、屬性 (slot)、屬性限制 (slot constraint)等。

九、以使用性與再用性來做本體分類

發展一個本體需要耗費人力物力,因此許多的本體發展方法論都 會先尋求是否有現成的本體。利用現成的本體直接拿來應用,可以省 下許多發展本體的時間與金錢,所以本體的再使用也是許多研究者極 為重視的課題。Klinker, Bhola, Dallemagne, Marques, 與 McDermott (1991) 以本體的使用性與再使用性,將本體劃分成圖 2-4 的九種本

(30)

體,最底層的表徵本體是本體中的本體,也就是其他八種本體的綱 要,任何本體的發展都必須以此綱要作為規範。由於表徵本體和任何 領域都毫無關聯,很少融入應用系統之中,其使用性最低,但是再使 用性最高。應用領域任務本體是為了某個特定領域的特殊任務而發 展,必定會和應用系統結合,其使用性最高,但是其再用性反而變得 最底。也就是說,越一般化的本體,其使用性越低,但再用性越高。

十、以本體的共享性來做本體分類

本體首要的任務就是要讓領域內外的人,對於領域知識的描述與 宣告有所共識,但是要達到一致的共識是一件不容易的事。有些本體 被特定的社群發展出來,以適應特定的應用。這種本體的出發是以解 決特定的任務為主,其使用頻率可能只有很少的次數,共享性並不是 最重要的考慮因素。但是有些本體具有全國性的標準,例如職業分 類、產品分類、服務分類、工作分類與線上詞典等。這些本體被發展 出來,確實獲得大眾的共識與應用。Tolksdorf (2007)就以本體的共享 性 (shareability)將本體劃分成:

1、個人本體:個人本體是個人所發展的本體,只能反應個人在某個 應用領域本體 應用領域任務本

表徵本體 一般本體 上層本體

一般領域本體 任務本體 領域本體 領域任務本體

usability

reusability

圖 2-4 以使用性、再使用性來分類本體 (資料來源:Klinker, Bhola, Dallemagne, Marques, & McDermott ,1991))

(31)

特定領域的觀點,這種本體即使被發表出來,其衝擊也是有限。

但是在發展的過程中,如果能夠遵循本體發展的理論,仍然可能 獲得領域內同儕的支持。

2、應用本體:過去有許多應用本體被發展出來,大部份都是研究計 畫或特定專案的產品,這種應用性的本體反應了研究團隊或研究 社群的觀點,即使這些本體被發佈在網際網路上,共享性和再用 性也都受到限制。這是因為應用本體和原來的計畫可能是緊密相 依的,目前大部份的領域本體都是屬於這一個層次。

3、開放式本體:開放式本體是透過大眾或整個社群所共同發展,是 一種合作式發展的本體,已經整合多數人的想法,並獲得多數人 的同意。這種本體大都是屬於大型的本體,並且和大眾有所關連,

其重要性和應用性都很高,才能引起大眾的參與,例如對醫學界 與對社會大眾都極有貢獻的基因本體 (Gene Ontology)。

4、標準本體:大都由公立機構或重要的組織所發展,通常會透過大 眾的確認程序,以期獲取大家的共識,是一個領域共同的標準,

因此被稱為標準本體。大多數的標準本體是在電子商務領域,例 如聯合國標準產品與服務編碼本體 (UNSPC, 2007)、提供全球供 應鏈標準分類的 RosettaNet 本體 (RosettaNet, 2007)與北美工業分 類系統本體 (NAICS, 2007)。

十一、本體分類方式的彙總

根據前述的探討,本體的分類方式相當的多樣,彙總如表 2-2 所 示,儘管分類的方式很多,但是比較普遍的兩個分類為上層本體與領 域本體。上層本體是屬於一般化的本體,是每一個領域都需要的本

(32)

體,其應用性較低,但再使用性較高。領域本體是一種特殊性的本體,

係針對某一個特定的領域所發展,領域本體的範圍可大可小,可以小 到某一個問題解決所需要的本體,也可以大至到一個職業群集的本 體,端賴應用層面的大小而定。

表 2-2 本體分類方式的彙總

分類觀點與提出者 分類的方式 使用性與再用性(Klinker,

Bhola, Dallemagne, Marques,

& McDermott, 1991)

應用領域本體、應用領域任務本體、

領域本體、領域任務本體、一般領域 本體、任務本體、上層本體、一般本 體、表徵本體

普遍性(Knowledge Based Systems Inc., 1994)

領域本體、實務本體、特定場所本體

本體主題(Uschold, 1996) 領域本體、問題解決本體、表徵本體 知識重複使用(Mizoguchi &

Ikeda, 1996)

工作場所本體、任務本體、領域本 體、通用本體

資訊處理(Guarino, 1997) 上層本體、領域本體、任務本體、應 用本體

知識工程(van Heijst,

Schreiber, & Wielinga, 1997)

領域本體、核心本體

本體角色(Studer, Fensel, Decker, & Benjamins, 1999)

領域本體、一般本體、表徵本體

本體和系統依存關係(Zajac, 2001)

顯性本體、隱性本體、中性本體

(33)

本體應用層面(Zajac, 2001) 工程本體、語言本體、網頁本體 正規化程度(Poli, 2002) 描述本體、正規本體、正規化本體 本體共享性 Tolksdorf (2007) 個人本體、應用本體、開放式本體、

標準本體 資料來源:本研究

不管本體的分類方式如何、組成內容如何,本體的概念在真實世 界中一定要存在,一個不存在的概念無法加以定義,也找不到子概 念,更不可能有屬性、實例與關係。所有的概念都需要有屬性,而且 概念與概念之間要有相互關係存在,才能夠將兩個概念相連在一起,

這樣的關係就是 isa 或 partof 的關係。

第五節 本體的發展

一、本體發展的原則

建構本體對於許多應用系統的發展,是一個極為重要的步驟,但 是目前的本體發展方法似乎還停留在藝術的層次,尚未達到科學的方 法。儘管如此,由許多過去的本體發展經驗中,仍然具有相當的參考 價值。首先本體是由許多概念所組成,而概念是一個抽象的東西,其 命名往往會影響到人們對概念的理解。因此,概念的命名必須要遵循 一定的規則,才能夠使概念的名稱有一致的基礎,不但容易將概念的 名 稱 插 入 本 體 之 中 , 也 比 較 容 易 辨 別 是 否 有 相 同 或 類 似 的 概 念 。 Schulze-Kremer (2002)更進一步提出了概念的命名原則如下:

(34)

1、使用單數型態:完全使用單數型態來命名,避免使用複數型態而 導致誤解,並且使用小寫字母代表類別,第一個字母使用大寫來 表示實例,縮寫字全部用大寫字母。如果本體需要帶入本體工具 之中,還要注意本體工具是否有特別的限制,例如是否可以使用 引號、減號、或底線等。

2、儘量使用現成的、約定成俗的名稱:如果沒有現成的名稱,則最 多以四個字組成名稱,每一個字也應該使用簡單的名稱,使其淺 顯易懂。

3、子類別的命名:可以用其父類別的名稱之後附加名稱,以利辨別 相互關係。

Uschold 與 Gruninger (1996)以設計企業模式本體的經驗,提出本 體的設計原則如下:

1、清析性 (clarity):本體要能夠有效的傳達其意圖,就必須要清楚 的表達所有的概念、實例與關係等,絕對不能有絲毫的模糊空間,

才不至於引起擴張的解釋。對於可能造成誤解的地方,最好能夠 詳細說明,並提供範例。對於整體的架構,應以正規理論來加以 表達,但還是需要提供自然語言的定義與文件的說明。

2、一致性 (coherence):本體需要具備內部一致性,包括理論基礎的 一致性、名詞定義的一致性、相互關係的一致性、文件的一致性 與範例的一致性等。

3、延展性 (extensibility):本體提供某個領域的概念架構、名詞字彙 與定義,有其特定的應用範圍。但本體還是應該具備延展性,也 就是在既有的基礎上,可以擴充其字彙與關係,來延展其應用範 疇。要達到延展性,就必須使本體合乎兩個準則:不做過多的承

(35)

諾與避免編碼誤差。前者是指在設定的應用範圍內發展本體,而 不要過度的擴張,後者則是將概念與關係轉換成正規表示法時,

要避免編碼的錯誤。

Borgo, Guarino, and Masolo (1996)、Gomez-Perez, & Benjamins (1999)等,也提出了五個本體的發展原則,這些原則都是一般性的原 則,在真正發展本體時,未必能夠提供實際的決策支援,但是卻可以 提醒本體發展者利用這些原則來檢視本體的內涵:

1、本體中所有的類別必須要有所差異,也必須要相互分離,不要將 具有相同或相近意義的概念放在同一階層或上下階層,而應該要 以同義詞的方式表示。

2、階層架構的正確性與多樣化,以提升多重繼承機制的效率,與分 類的多樣化。

3、減少相似概念之間的語意差異,並且將相似的概念放在同一組,

以相同的述詞來描述。

4、所使用的名稱要採標準化的命名方式,以求一致,並且最好讓名 稱具有意義,可以由名稱來瞭解大致的語意或概念。

5、減少模組與模組之間的聯結現象,如果一個類別有兩個以上的超 類別,這可能造成應用上的困擾,或是造成無窮的參考。

綜合前述,本體發展的一般性原則可以歸納如下:

1、有意義的命名方式,舉凡概念、關係與屬性等的命名,都應該採 用大眾化的名稱,避免太生澀或學術性的名稱,並且讓超類別與 子類別的名稱具有聯結關係。

2、確認關係的適合性,應該分別由上而下、由下而上,並且隔一層、

(36)

隔二層等依次檢查概念的層次關係與意義。

3、確認概念的一致性,也就是要檢查同一層的概念在意義上是否有 落差現象,避免造成概念所在的層次不正確。

4、確認本體提供足夠的資訊,本體是為了應用而發展,勢必會和應 用系統結合。因此,必須以應用的層面來考慮是否可以提供足夠 的資訊,而不致於太過簡略或瑣碎。

二、發展本體需要克服的困難

要建立一個最佳的本體極為不容易,有太多的困難需要加以克 服,這些困難有些是源自於建構本體過程中的疏失,有些則是對於應 用領域認識不夠所造成。整體而言,在發展本體時,需要克服的困難 如下 (Schulze-Kremer, 2002):

1、超類別與子類別之間的關係不易確認:由於本體的發展方法中,

並沒有公論最佳的方法可以確定何者才是最佳的子類別。因此可 能會造成任意決定子類別,這就可能導致本體的一致性不夠,因 此必須詳加檢查類別之間的關係。

2、遺失本體的組成元素:就是在發展過程中遺失了類別、屬性、或 關係等。本體中的類別由上而下應該是由抽象而逐漸具體,但是 如果中間缺少了類別,就會造成本體重要元素的遺失。例如由「動 物」直接到「人」,中間就缺少了重要的類別「哺乳動物」。

3、關係的混淆:類別之間的關係無法確認是一對一、一對多、或多 對多的關係,也會造成概念的遺失,或是把關係與屬性誤認為同 樣一件東西。

4、過於詳細:本體中最重要的元素為概念,最底層則為實例,如果

數據

圖 2-1 概念化的過程(資料來源:Maedche & Staab (2002) 起
表 2-1  不同本體表徵方式所使用的本體成份名稱
圖 2-5  知識工程發展方法論(資料來源:Noy & McGuinness (2001))
表 2-3  本體建構所需類別表與實例表的結構  類別表的結構  實例表的結構  超類別  類別  屬性  型態  基數  向度  類別  實例名稱  資料來源:本研究  十一、本體發展方法論的彙總  本節探討了八種本體發展的方法論,彙整如表 2-4 所示,期間跨 越了 1994 到 2007 年之間。在發展步驟方面,大部份都是原則性的指 引,大致可以歸納為由需求、發展與評鑑等三個主要的程序。比較詳 細 具 體 的 發 展 方 法 論 有 Gruninger & Fox (1995) 的 TOVE
+3

參考文獻

相關文件

「同儕輔導」是一種教師同儕工作在一起,形成夥伴

• 長久的結合體,就是那種與〝自我〞相關的包含

第一節 中國和朝鮮的數學交流 第二節

• 第三種教學觀認為,教學的目的是改變學生對事物、現象 的理解。教學( Teaching )的焦點是學生對學習內容的理解 和掌握。教師須瞭解學生想什麼

於 2016 年 12 月發布的《推動 STEM 教育-發揮創意潛能》報告,強調加強學生綜合和應用 不同科學、科技、工程和數學(STEM)

並藉由適當工具與資訊,去描述、模擬、解釋與 預測各種現象,發揮數學思維方式的特長,做出

眼識生起」的場合,不能有對論者所說的「緣起」意義(亦即將“prati”解 釋作「種種」) 20 ,但是月稱一方面為佛護辯護,

• 對探索科學和科技世界產生 興趣及懂得有創意地運用科 技,並能綜合和應用科學與 科技的知識與能力,以解決 日常生活中的問題.