第二章 文獻探討
第一節 詮釋資料與知識本體技術
第二章 文獻探討
本章將討論涉及到的各個研究主題,透過整理分析相關文獻,來探討本研究 之情境,同時強調當前研究的重要性,本研究之主題包含詮釋資料與知識本體、
知識本體在圖書館的應用,以及供本研究架構參考的開放典藏資訊系統參考架構。
第一節 詮釋資料與知識本體技術
近年來,隨著數位資訊科技的進步與網際網路的發展,人類在知識處理及溝 通的方式上已逐漸改變,進而也改變了人類在生活型態、社會組織、以及使用知 識的形式。數位資訊科技的優點,在於讓既有的知識經過數位化與整合化的轉換 程序,而得以大量匯集與長久保存;同時若配合了網際網路的普及,更可以將匯 集到的知識,以整合過的資料形式,大量且即時地傳遞給世界各地,達到人類群 體知識共享的目的 (蔡永橙、黃國倫、邱志義,2007)。
一、 詮釋資料
Metadata 乃是「資料的資料」(data about data) (陳亞寧、陳淑君,1999,
p.1)。蔡永橙、黃國倫與邱志義(2007)則歸納了「詮釋資料、超資料、元資料、
元數據與後設資料」等五種在華語文區域所出現的名詞,而在中國大陸則是統一 使用「元數據」一詞,目前中華民國國家標準(Chinese National Standards, CNS)
已於 2013 年確認採用「詮釋資料」一譯(經濟部標準檢驗局,2013)。
而這些 Metadata 的不同譯法也指出了「詮釋資料」的特性,即是採用結構化 的方式整理及呈現與典藏物件有關的屬性或元件等資訊,除了使典藏品具有分類 依據的標準,還可協助對網路電子資源的辨識、描述、與指示其位置。
9
翁志光(2010)提到對於使用者而言,結合詮釋資料的典藏平臺能提供資訊 有效的存取方式;而就管理者來說,這樣的典藏平臺要管理與維護藏品則較容易,
原因在於「詮釋資料」為典藏內容資料建立一套詮釋性資料格式,以便讓使用者 有效率存取這些資訊。
詮釋資料雖然在描述、詮釋資料會跟書目資訊相同,但在層次與深度方面,
與傳統書目資訊是有所不同的。陳亞寧等人(1999)將主要差異分為四個方面:
一為,任何物件(object)皆是 Metadata 涵蓋的範圍,諸如圖書館界所熟悉的書、期刊、
文章等,乃至器物、人等皆是。二則為,範圍從實體典藏的物件擴大至虛擬典藏的各 類物件。三是,詮釋的深度遠比以往更為深入,並不僅限於內容主題的分析標引而已,
尚包括了物件彼此互動關係,包括人、時、地、物、主題/事件(events)等五大主軸 間的互動、牽引;換言之,從資料、資訊的整理提昇至知識內涵的建構。四為,物件 的辨識、保存、展示、取用、篩選與評估、服務及系統管理等方面皆是環環相扣,密 不可分,並不可從單一觀點視之或處理。(陳亞寧、陳淑君,1999,p.6)
在本研究中,使用了知識本體作為描述物件的詮釋資料格式,透過對於目標 物件的屬性資料,可以詮釋目標物件的各種特性,使資料更具有意義,因此詮釋 資料對於知識本體的品質至關重要,這關係到每一個典藏物件的功能性,因此在 設計知識本體的詮釋資料時,需要對整個典藏資料的全盤了解,包含使用者需求、
典藏主題背景、系統結構與典藏物件的屬性,需要整合性的緊密思考,才有辦法 產出具有強大功能性的知識本體與系統。
二、 Ontology 知識本體
阮明淑與溫達茂(2002)提到 Ontology 一詞源於哲學領域,原本作為理論 哲學的基礎,有相當重要的地位,且一直以來存在著許多不同的用法。在資訊科 學領域,其核心意義是指一種模型,Gruber(1993)認為「在知識本體中,將使 用嚴謹的解釋與格式優良的字詞訂定公理,再定義出在這以人類可讀文字來表達 實體(如:類別、關聯、函數、或其他物件)名稱的宇宙中,所有實體名稱之間 的關聯。」。
10
Uschold(1996)則表示「世界通常被視為一組概念集(如:實體、屬性、過 程),包含概念的定義與彼此間的關聯;這被稱之為概念化。」。整合兩者便可解 意為,知識本體是由概念(Concepts) 以及關聯(relations)所組成,而概念可為實體 (entities)、屬性(attributes)等元件,其關係如圖 2-1,藉由概念與關聯來描述人們
所週知的世界,「實體」指的是特定領域中有形或無形的重要事物,如人、角色、
時間⋯等;「屬性」用以敘述概念的特性以及可能的範圍,如顏色、重量⋯等;「關 聯」則用以說明實體間或實體與概念間的關係。
圖 2-1 知識本體的組成圖示
儘管不同的學者對於這些構成成分的確切稱謂有所不同,但它們卻都是一部 知識本體不可或缺的基本要素。一般來說,人們所普遍期望的一點就是,本體之 中的那些模型特徵應當非常類似於相應的現實世界,目前主流的知識本體語言以 RDF、RDF Schema、OWL 為主,這幾種知識本體語言都是以 XML 語法來描述 概念與概念之間的關係,以及這些概念的實例。
關聯(relations) 實體(entities)
屬性(attributes)
11
三、 XML 可延伸標記式語言
可延伸標記式語言(Extensible Markup Language, XML),是一種標記式語言。
標記是種電腦所能理解的訊息符號,透過標記,電腦之間可以處理包含各種訊息 的文章等。而定義標記的方法,可以選擇國際通用的標記式語言,比如超文件標 示語言(HyperText Markup Language, HTML),也可以使用像 XML 這樣由相關人 士自由決定的標記式語言,這就是語言的可延伸性。1996 年 7 月「XML 工作 小組」(XML Working Group)在 W3C 的贊助下成立(W3C, 2014),當年 11 月 提交 XML 初稿,並於 1998 年 1 月 10 日正式通過 XML 1.0 規範,成為 W3C 的一個建議標準(Recommendation)。由於 XML 具有可擴展性、結構性、自我描 述性,並採用資料和樣式分離原則,使其在資料的管理、交換上擁有極為卓越之 性能(林信成,2000)。
XML 和 HTML 一 樣 都 是 從 標 準 通 用 標 記 式 語 言 (Standard Generalized Markup Language, SGML)演變而來的,只不過 HTML 是 SGML 的一個應用語 言(Application),而 XML 卻是 SGML 的一個精簡子集(Subset)。XML 將 SGML 去蕪存菁,捨棄約百分之二十複雜罕用的部份,承襲了其他百分之八十的特點,
是以具備了 SGML 所沒有的簡易性與靈活性,又有著 HTML 所欠缺的擴展性 與結構性。鑑於此,林信成(2000)認為 XML 很有可能為主導「第二代 Web」
(Second-Generation Web)之關鍵技術。
12
另外,RDF 可以採用 XML 的形式來表達, RDF 提供了 RDF 圖形撰寫與交 換時所使用的 XML 語法,稱作 RDF/XML,雖然 RDF 與 XML 用途不盡相同,
不過他們之間的關係卻密不可分。在語意網中,XML 能夠提供資訊實作上的基 礎語法,但是無法呈現實體屬性的解釋;而 RDF 則是以 XML 來完成資訊具有 語意的部分,這也使得 RDF 在全球資訊網資源描述上的應用相當廣泛。Hjelm
(2001)亦在文中提到,RDF 工作小組認為,RDF 的應用範圍包括網站地圖、
資訊內容分級與註記、頻道定義、搜尋引擎、資料收集、分散式文件製作等。
四、 RDF 資源描述架構
資源描述架構(Resource Description Framework, RDF)也是由 W3C 發起,可 提供具有語意網路之功能,被廣泛用來描述全球資訊網上的資源及其相關性。主 要目的是為詮釋資料在 Web 上的各種應用提供一個基礎架構,並允許資源描述 機構訂定各自的控制詞彙,使應用程式之間能夠在 Web 上交換詮釋資料。
RDF 在語法上是基於 XML 架構,其結構組成為一個 Subject、一個 Property 和一個 Object,三者的結合可稱為一個三元組(Triple)。資源的描述是用統一資源 標識符(Uniform Resource Identifier, URI)的表示方式,利用 URI 具有全球唯一的 特性來表示資源,能夠避免重複的名稱被重複定義的情形發生。
此外,在 RDF 中,為使文件讀寫雙方能理解敘述式之涵義,必須定義彼此 有共識之詞彙集,稱之為 RDF Schema。RDF Schema 簡單來說就是 RDF 的詞彙 描述語言,可宣告特定描述詞彙的來源,以用於特定的應用領域,作用正如同一 本辭典,宣告一組詞彙,此組詞彙用以定義 RDF 敘述中可使用之屬性集合,並 描述各屬性之定義、限制、範圍,及屬性值之型態。
13
在 RDF Schema 裡所定義的類別(Class)與屬性(Property),能夠用來描述某一 知識領域所包含的各種關係與屬性,而 RDF Schema 本身,如同 RDF 的延伸,
提供了資訊註記時的類別與屬性,這與知識本體理念所希望的,提供知識領域內 之類別和彼此的關係相呼應,因此以 RDF Schema 來實作本體非常合適(Hjelm, 2001)。
五、 OWL 網路本體語言
OWL (Web Ontology Language,網路本體語言 )是 W3C(Word Wide Web Consortium,全球資訊網協會)所提出的一種知識本體描述語言,提供三種不同表 現能力的子語言使用於不同的使用者社群,其中包括 OWL Lite、OWL DL 和 OWL Full(McGuinness & Van Harmelen, 2004)。
這三種語言是為了解決知識本體應用於網路技術的各種邏輯需求,Horrocks、
Patel-Schneider 與 Van Harmelen(2003)將這三種語言的特性列為:
(一) OWL DL:If friendly syntax or decidable inference is considered of primary importance, then OWL DL, a version of OWL with decidable inference that can be written in a frame or Description Logic manner, is appropriate.
(二) OWL Lite : If an even simpler syntax and more tractable inference is considered of primary importance, then OWL Lite, a syntactic subset of OWL DL, is appropriate.
(三) OWL Full:If compatibility with RDF and RDFS is considered of primary importance, then OWL Full, a syntactic and semantic extension of RDFS, is appropriate.
14
從這些特性可以看出,OWL Full 擁有最佳的表達能力,卻因為著重表達能 力而喪失完整的推理能力。OWL Lite 的表達能力最有限,但能讓使用者很容易 可以掌握與實作。OWL DL 則介於兩者之間,既擁有不錯的推論能力,也擁有良 好的描述能力,因此將會是本研究所著重的語意標準。
OWL 是採用 XML 的語法使本體的描述容易被電腦解讀。OWL 是建立在開 放世界假設的分散式描述,也就是說,所有事物的描述都是部分而未完備的,而 這些描述主要是由類別(Class)、屬性(Property)、實體(Individual)所構成。類別是 知識本體中最重要的部分,用來代表某個領域中的一個概念,而屬性則是對概念 的描述,最後實現概念的事物則為實體(Horrocks et al., 2003)。
OWL 使知識本體之間可相互推理,讓知識本體的範圍不只侷限於一份知識 本體文件中。舉例來說,Horrocks 等人(2003)提到,當一個類別被定義在某知 識本體中時,這個類別也可以在其他知識本體中被擴充,也就是說,同一概念在 不同知識領域下,會有不同的屬性與延伸概念。因此當兩種不同知識本體中擁有
OWL 使知識本體之間可相互推理,讓知識本體的範圍不只侷限於一份知識 本體文件中。舉例來說,Horrocks 等人(2003)提到,當一個類別被定義在某知 識本體中時,這個類別也可以在其他知識本體中被擴充,也就是說,同一概念在 不同知識領域下,會有不同的屬性與延伸概念。因此當兩種不同知識本體中擁有