• 沒有找到結果。

第三章 系統設計與建置

第三節 系統建置流程

本研究以《Ontology Development 101》(Noy & McGuinness, 2001)作為參考 依據,設計圖資學者事業歷程的知識本體,並使用此知識本體建置系統網站,最 後再評估本系統是否能滿足圖資領域研究者之需求,以及審視系統在操作上的易 用性表現。本研究的研究流程如圖 3-2 所示,分別為資料收集與範圍定義、知識 本體規劃設計、資料庫映射檔配置、伺服器與網站建置共四階段。

圖 3-2 研究流程圖

收集資料 與 範圍定義

知識本體 規劃設計

資料庫映 射檔配置

伺服器與

網站建置

31

使用知識本體技術描述學術歷程,可將學術歷程以數位化的方式,使機器得 以推理,因此在資料收集與知識本體規劃設計的階段中,本研究參考史丹佛大學 知識系統實驗室所出版的《Ontology Development 101》(Stanford Center for Biomedical Informatics Research, 2014)一書,其中說明了建置知識本體的七大步 驟,而定義本體領域與範圍需要與資料收集同步進行,以確保資料與範圍相契合。

同時透過書中記載之詳細說明,設計知識本體的後續建置流程,並依照流程完成 知識本體,圖 3-3 將研究流程分為七個階段:

圖 3-3 知識本體建置流程圖

(Stanford Center for Biomedical Informatics Research, 2014)

除了第一步定義本體領域與範圍需要和資料收集同步進行之外,後續的六步 知識本體建置流程將留至知識本體規劃設計再作執行。

第一步 • 定義本體領域與範圍

第二步 • 考慮使用現有的本體

第三步 • 列舉本體中的重要詞彙

第四步 • 定義類別與類別階層

第五步 • 定義類別的屬性

第六步 • 定義屬性的層面

第七步 • 創建實例

32

一、 資料收集與範圍定義

本階段收集王振鵠教授於學術歷程中之所有產出,收集內容範圍可以分為產 出文獻、關聯組織、歷史事件與互動學者四大類,其關聯性如圖 3-4。產出文獻 包含學位論文、期刊論文、合著文章、專著與出版物等學術文獻。參與組織包含 學術機構、政府單位、出版單位等與王教授有關聯性的組織。歷史事件則包含王 教授過去生涯中之重大事件,比如圖書館搬遷、獲頒獎項、就職等活動與事件。

互動學者之定義為與王教授有過合作發表、共同研究之學者,以及王教授曾經指 導過的學生。

圖 3-4 資料關聯圖

而資料來源是國立臺灣師範大學圖書館轄下的校史經營組,該單位於慶祝王 教授九秩生日時整合了由 1)中華民國圖書館學會、2)中華民國國家圖書館以及 3) 國立臺灣師範大學三所學術組織所提供的王教授資料,並且逐一考察權威性;同 時本研究也盡可能地收集王教授之相關歷程資料,以增加知識本體之功能性與網 站價值。

33

二、 知識本體規劃設計

在確認資料與本體範圍後,此階段將參考知識本體設計流程中的後面六個步 驟進行:

(一)

考慮使用現有的本體

為了將知識本體技術應用於系統中,在知識本體的選擇上,需要考慮到未來 資料的通用性,也就是使資料庫中的資料能讓其他應用程式做再利用,因此必須 選擇受到廣泛使用的現有知識本體作為參考,經過多方考量下,本研究決定選擇 DBpedia 與 VIVO 作為知識本體的參考來源。

1. DBpedia

DBpedia 是一個很特殊的語意網應用範例,它從維基百科(Wikipedia)的詞條 裡擷取出結構化的資料,以強化維基百科的搜尋功能,並將其他資料集連結至維 基百科。DBpedia 同時也是世界上最大的多領域知識本體之一,也是 Linked Data 的一部分。(Auer et al., 2007)

而本研究將從 DBpedia 中擷取出一般知識性的知識本體,諸如出版年、出版 者等,用以輔助 VIVO 不足的部分。

2.

VIVO

VIVO 來 自 於 康 乃 爾 大 學 的 威 爾 醫 學 院 (Weill Cornell Medical College, WCMC),為 Paul Albert 所主持的一個學術機構導向的語義工具,用來存取教師 及研究人員的相關資料,並以鏈結資料的形式加以應用。VIVO 屬於開放原始碼,

有自行設計的知識本體,適用於描述機構內個體之間的交互關聯。當機構以語義 方式對應資料時,不需要繁瑣的過程就能透過 VIVO 進行協調。(DuraSpace Organization, 2016 May)

就本研究對於描述學者互動的功能上,參考 VIVO 的知識本體有助於整合學 者間的關聯屬性,比如書、論文、學術組織等,是本研究知識本體的核心架構。

34

但考慮到上述兩種知識本體可能與本研究之需求有些微差異,若是無法確切 滿足研究上的需求,將造成資料貧乏以及描述不完善等系統功能缺失,因此將使 用知識本體編輯工具 Protégé 進行修改與編輯,使得原本的知識本體屬性皆能符 合研究需求。

(二)

列舉本體中的重要詞彙

在確定收集到的資料,以及本體範圍後,會將資料中與學者個人事業歷程的 詞彙擷取出來,諸如學者、學位論文、組織、事件、學位、領域、出版品和期刊 等重要類別詞彙,以及出版、影響、具有身分或指導等介於實體之間的關聯詞彙。

全數列出後,才會進入到下一階段。

(三)

定義類別與類階層

將前一階段所擷取到的詞彙進行分類,同其所同,異其所異,並且將相似的 類,以一個更大的類目概括,而最上位的類目為萬物(Thing)。

然而在建置知識本體時無法將所有的類一次分層完畢,必須依照類與類之間 的階層,循序漸進的分類分層。在《Ontology Development 101》中,整理了三種 方式以建置知識本體,分別是由上而下(top-down)、由下而上(down-top)以及整合 法(combination)。

在由上而下的方法中,將使用一般知識的分類依據產生知識本體,如生物分 類法中的界、門、綱、目、科、屬、種,而對應於本研究的需求,即為 DBpedia 與 VIVO,也就是具有權威性與公信力的知識本體。相反地,由下而上的建置方 法,是透過收集該領域的特殊實體,歸類出適用於該領域的知識本體,以本研究 而言,在前一步所收集到的詞彙中,圖書館為一個需要特別關注的特殊單位,故 需自成一類。最後的整合法顧名思義,是同時採用上述兩種方法建置知識本體,

除了具有明確的分類依據,同時還能保有領域的特殊性。因此,為了讓本研究能 同時保有這些優點,故採以整合法作為建置方法。

35

透過整合法同時整合 DBpedia、VIVO 以及領域詞彙後,便產生了如表 3-1 所呈列的類別階層,總計 26 個類別,其中因為 DBpedia 與 VIVO 的知識本體也

Person (foaf) Organization

(foaf)

Academia Organization

(vh)

Entity

(obo) Occurrent (obo)

Temporal Region

(obo)

Period (vh)

Date-Time Interval

(vivo) Process

(obo) Event (event)

Item

(vh) Publication (obo)

Journal (bibo)

Paper (obo)

Journal Article (obo) Thesis (bibo) Articles

(bibo) Book

(bibo)

Concept (skos)

Academic Degree (vivo) Research Area

(vh)

Organization Type (vh)

Identity (obo) Event Type

(vh)

36

表 3-2 本研究類的來源網域 網域

縮址 網域 適用對象

owl http://www.w3.org/2002/07/owl# 泛用類:Thing

obo http://purl.obolibrary.org/obo/

實體類:period、Entity、

Occurrent、Process、

publication、journal article、

identity、papers bibo http://purl.org/ontology/bibo/ 文獻類:Journal、thesis、

books、articles foaf http://xmlns.com/foaf/0.1/ 人物類:person、

organization、Agent skos http://www.w3.org/2004/02/skos/core# 概念類:Concept

vivo http://vivoweb.org/ontology/core#

VIVO 自定義類:

academicdegree、date-time_interval event http://purl.org/NET/c4dm/event.owl# 事件類:Event

vh http://localhost/VIVOhistory.owl#

自定義類:research_area、

academia_organization、item、

event_type、organization_type、

period

表 3-3 本研究中類的操作型定義

37

類別 中文 操作型定義 子類別或實例

Organization 組織

包含與目標學者有關的組 織機構,階層較學術組織上 位

如國立臺灣師範大學

Academia Organization

學術

Occurrent 時間

實體 與時間性有關的實體類別 時間區間、進程

Temporal Region

時間

Date-Time Interval

日期

Publication 出版 物

Journal Article 期刊 文章

為目標學者發表於期刊上 的文章

如中國大學生課外閱 讀興趣之調查研究

38 Academic

Degree

學術 學位

用以區分學位論文級別的

概念 如博士、碩士

Research Area 研究 領域

用來表述某篇文章主題或

某學者之研究主題 如圖書館史

Organization Type

39

(四)

定義類別的屬性

每件知識本體中的實例與類別都會有其屬性,故此階段乃從現有的本體,以 及持有的資料中,擷取出各類別與實例的屬性,除了 rdfs:label、rdf:type 與 rdfs:about 三個所有實例與類別的共同屬性之外,其餘屬性可整理成表 3-4,共計 29 項屬性。

其中有部分屬性並無採用其他網域的現有屬性,而是選擇由本研究自行定義,

原因在於現有的屬性未必能表現出本研究所想表達之語意,以 vh: article_produce 來說,雖然 vivo:Authorship 可以表現其部分含意,但若將 vh:article_produce、

vh:journal_produce、vh:has_thesis 三者皆以 vivo:Authorship 表達,在語意上則會 遺失許多資訊,這並不是本研究所期望的。

表 3-4 本研究各類別之屬性

類別 屬性 意涵

Person vh:article_produce 產出了某篇文章

rdfs:advising 指導了某人 schema:attendee 參與了某事(個人)

obo:RO_0000087 具有某身分 vivo: hasResearchArea 擅長某研究領域

vh:journal_produce 產出了某期刊文獻 vh:co_authorship 合著關係

vh:has_thesis 產出了某學位論文

Organization schema:attendee 參與了某事(團體)

obo:BFO_0000051 旗下有某部門 vh:organize_type 是某類型的團體

rdfs:seeAlso 可參照某事物

Period vh:period_included 包含了某年分

Event vh:event_about 關於某種事件主題

Event:time 發生在某年分

vh:event_period 發生在某期間

40

類別 屬性 意涵

Journal Article

schema:isPartOf 包含在某文章 dbpedia:firstPublicationYear 出版在某年分 schema:author 被撰寫於某人 dbpedia:publisher 出版於某組織

Thesis dbpedia:publisher 出版於某組織

dbpedia:firstPublicationYear 出版於某年分 vh:thesis_degree 具有某學位資格 Articles dbpedia:firstPublicationYear 出版於某年分

vivo:has_subject_area 關於某主題

Book dbpedia:publisher 出版於某組織

dbpedia:firstPublicationYear 出版於某年分 Research

Area vivo: researchAreaOf 相關學者

vh:related_research 相關研究

在一般概念裡,一件事物的屬性並沒有上限,全看研究者的研究範圍與主題 來決定屬性的種類與數量。因此本研究僅採用前述階段所收集到的資料集,其中 曾提及或收錄到的屬性,或是對本研究有幫助的屬性,其餘相關性較低的屬性若 是收錄進本體,只會造成主題模糊,以及研究定義不明確,故不予採用。

(五)

定義屬性的層面

在傳統資料處理上,大多數的人類語言與符號都是以字串(String)的形式 儲存,而電腦並無法解析其字詞中的語意與意涵,同樣也無法處理人類知識的邏 輯推理,但在結合了知識本體架構的資料中,系統可透過對於實體的屬性內容以 辨別實體,而不再僅止於字串上的儲存,達到如此成效的關鍵就在於屬性的層面

在傳統資料處理上,大多數的人類語言與符號都是以字串(String)的形式 儲存,而電腦並無法解析其字詞中的語意與意涵,同樣也無法處理人類知識的邏 輯推理,但在結合了知識本體架構的資料中,系統可透過對於實體的屬性內容以 辨別實體,而不再僅止於字串上的儲存,達到如此成效的關鍵就在於屬性的層面