以知識本體建置圖書資訊學領域學者的事業歷程網路平臺-以王振鵠教授為例
114
0
0
全文
(2) 摘要 為了透過資訊技術輔助人文學者進行研究,減少由人工觀察所需花費的時間 和提升決策判斷的正確性,研究人員們開始採用哲學領域中的知識本體概念來處 理知識資訊,同時經由結合鏈結資料的資訊技術,能夠輔助學者們取用各種資訊。 王振鵠教授被認為是影響臺灣圖書館領域深遠的學者,其在任職國家圖書館 館長期間建樹良多,同時也培養出許多傑出人才。本研究透過知識本體與鏈結資 料技術分析王教授的生平事蹟與學術貢獻,期能建構一套工具解析臺灣圖書資訊 學領域學者的事業歷程,並做為數位人文的研究資料集與工具。 本研究採用知識本體技術,參考國立師範大學圖書館所收集的王教授資料, 設計出一套總計 26 種類、29 種屬性與 3645 條三元組的知識本體,用來描述王 教授的事業歷程,並且使用 Protégé、Apache Web Server、MySQL Database、D2RQ Server 與 LODlive 圖形化工具,建置可描述台灣圖書資訊學領域學者事業歷程的 網站。 為了測試網站效率,本研究召募 74 名圖書資訊學領域人員進行四個驗證知 識本體關聯性的任務測試,測試結果顯示,在一般性任務的任務一與任務二當中, 本研究網站明顯快於對照組的傳統網站,在搜尋語意經過自然語言特殊處理的任 務三中則兩者無異,而需要使用者應用超連結的任務四則結果相反,根據此結果 進而發現了現今知識本體網站缺乏完善界面的問題。希望在未來的研究中能擴展 知識本體的收納範圍,以及修改結構以適應其他學術領域,並且開發出更便利的 知識本體取用介面。 關鍵詞:圖書資訊學、王振鵠、知識本體、鏈結資料. i.
(3) Abstract To assist humanities scholars’ research through information technology, researchers are using the concept of ontology from the field of philosophy to process knowledge information. By doing so, the amount of time spent on manual observation can be reduced while the accuracy of decision making can increase. Meanwhile, the technology of linked data can assist researchers to access various information. Professor Wang, Chen-ku is considered as one of the most influential persons for librarianship in Taiwan. He attained prominent achievement during his terms as the Director General of National Central Library; meanwhile, he educated many outstanding students. This study aims at building a system that employs the technology ontology and linked data to analyze the important events and achievements in Professor Wang’s life. By following the same procedure, the career paths of scholars in librarianship can be analyzed, and the resultant system can be used as a dataset and tool for scholars of digital humanities. The technology of ontology is used in this research. Data about Professor Wang was collected by National Taiwan Normal University Library. An ontology of 26 classes, 27 properties and 3645 triples were used to describe the career path of Professor Wang. D2Rq Sever, MySQL, LODlive and Apache Sever were used to build a website that described the career path of Professor Wang.. ii.
(4) To test the efficacy of the website, 74 participants in the field of library and information science were recruited for conducting four tasks to verify the relevance of ontology. The result showed that in the first two general tasks, the website developed by this research was significantly faster than the traditional website in the control group. Search sentences in Task 3 were specially processed by natural language. Therefore, there was no difference in the results between the 2 groups. Task 4 required users to retrieve answers through hyperlinks, and the test result showed that the control group was faster. The results of this research reveals that websites of ontology nowadays lacks a sufficient interface. It is expected that in the future, the context of ontology can be expanded and the structure can be reconfigured to be used in other academic fields and that a more convenient interface can be developd. Keywords: Librarianship, Wang, Chen-ku, Ontology, Linked Data. iii.
(5) 目次 第一章緒論.................................................................................................................... 1 第一節 研究背景與動機................................................................................ 2 第二節 研究目的與問題................................................................................ 3 第三節 研究範圍與限制................................................................................ 5 第四節 名詞解釋............................................................................................ 6 第二章文獻探討............................................................................................................ 8 第一節 詮釋資料與知識本體技術................................................................ 8 第二節 知識本體技術在圖書館的應用...................................................... 15 第三節 數位人文的發展與應用.................................................................. 19 第四節 使用性評估...................................................................................... 21 第三章系統設計與建置.............................................................................................. 25 第一節 研究工具.......................................................................................... 25 第二節 研究對象.......................................................................................... 29 第三節 系統建置流程.................................................................................. 30 第四節 網站結果.......................................................................................... 51 第四章實驗結果與系統評估...................................................................................... 57 第一節 受試對象.......................................................................................... 57 第二節 實驗設計.......................................................................................... 57 第三節 實驗環境.......................................................................................... 59 第四節 實驗結果.......................................................................................... 67 第五章結論與建議...................................................................................................... 71 第一節 結論.................................................................................................. 71 第二節 建議.................................................................................................. 74 附錄........82 附錄一 D2RQ 的映射檔 .................................................................................... 82 附錄二 ER Model ............................................................................................. 105 附錄三 測後問卷.............................................................................................. 107. iv.
(6) 表次 表 2-1 四個用於量化評估使用性的屬性 .................................................. 23 表 3-1 本研究知識本體類階層 .................................................................. 35 表 3-2 本研究類的來源網域 ...................................................................... 36 表 3-3 本研究中類的操作型定義 .............................................................. 36 表 3-4 本研究各類別之屬性 ...................................................................... 39 表 3-5 本研究各屬性之層面類型 .............................................................. 41 表 3-6 本研究各類別之實例 ...................................................................... 42 表 3-7 本研究中的實例數量與範例 .......................................................... 44 表 3-7 各類別資料表的 Schema................................................................. 45 表 3-8 各屬性資料表的 Schema................................................................. 47 表 3-9 mapping file 配置程式碼 ................................................................. 48 表 3-10 類別 mapping 程式碼 .................................................................... 49 表 3-11 物件屬性 mapping 程式碼 ............................................................ 50 表 4-1 系統規格 .......................................................................................... 60 表 4-2 任務一的統計結果 .......................................................................... 67 表 4-3 任務二的統計結果 .......................................................................... 68 表 4-4 任務三的統計結果 .......................................................................... 68 表 4-5 任務四的統計結果 .......................................................................... 69 表 5-1 本研究的知識本體參考來源 .......................................................... 72 表 5-2 本研究的自定義知識本體 .............................................................. 72. v.
(7) 圖次 圖 2-1 知識本體的組成圖示 ...................................................................... 10 圖 2-2 可用性評估的簡易模式 .................................................................. 22 圖 2-3 使用性評估的簡易模式流程圖 ...................................................... 24 圖 3-1 圖資領域學者事業歷程系統網站架構圖 ...................................... 25 圖 3-2 研究流程圖 ...................................................................................... 30 圖 3-3 知識本體建置流程圖 ...................................................................... 31 圖 3-4 資料關聯圖 ...................................................................................... 32 圖 3-5 網站 Browsing 功能頁面 ................................................................. 52 圖 3-6 網站 Search 功能頁面 ..................................................................... 53 圖 3-7 LodLive 工具瀏覽畫面 ................................................................... 53 圖 3-8 網站 Relation 功能頁面 ................................................................... 54 圖 3-9 網站 Relation 功能查詢結果頁面 ................................................... 55 圖 3-10 網站 SPARQL 功能頁面 ............................................................... 56 圖 4-1 螢幕錄製輸出結果 .......................................................................... 59 圖 4-2 練習任務與實驗說明的提示圖像 .................................................. 62 圖 4-3 第一項任務的提示圖像 .................................................................. 62 圖 4-4 第二項任務的提示圖像 .................................................................. 63 圖 4-5 第三項任務的提示圖像 .................................................................. 63 圖 4-6 第四項任務的提示圖像 .................................................................. 64 圖 4-7 傳統網站任務檢索過程之大事紀要截圖 ...................................... 65 圖 4-8 傳統網站任務檢索過程之散論文章截圖 ...................................... 65 圖 4-9 LOD 網站任務檢索過程之 Relation 截圖 ..................................... 66 圖 4-10 LOD 網站任務檢索過程之搜尋回傳截圖 ................................... 66. vi.
(8) 第一章. 緒論. 在資訊技術突飛猛進的今日,各領域的專家學者們,都積極地將資訊技術融 入到各領域中,從而契合出嶄新的技術與發現。在過去的研究環境裡,學者們處 理資訊的方法,從紙本的印刷文字,演變成儲存數位檔案的電腦設備,科技進步 如巨浪般衝擊學術領域,改變了以往研究的方式,將研究人員推往一個新的層級。 然而,光是改變資訊的儲存方式,對資料內容的影響不足以衍生出新的變化,學 者們渴望從現有的資料中,獲取最大的效益,除此之外,對於資料的分析,依然 仰賴專家學者們的解釋。 在這樣的需求下,全球研究者便開始積極地開發用來輔助人類思維的分析工 具,以人為本,電腦為輔的時代即刻來臨。要讓電腦輔助人腦的前提,是先讓電 腦理解人類的邏輯思維,在眾多學科中,哲學是解析人類思維的研究領域,透過 哲學與資訊技術的媒合,可創造出以往傳統電腦所沒有的人類推理邏輯,同時配 合網際網路的強大連結與傳遞功能,即可產生非常龐大的知識量,以及即時性的 推理運算,不管是電腦對電腦,或人腦對電腦,資訊的流動將不再受限於時間與 空間的限制,人類社會將飛速成長,達到更理想的境界。 在這樣的背景下,本研究利用了知識本體技術,使電腦具備近似人類哲學推 理的能力,並將其應用在描述圖書資訊學領域學者的事業發展歷程,透過資料與 技術的結合,能比人工分析資料更有效的減少遺漏發生,並產生比人工觀察時更 多的結果與現象,再以這些發現,去研究當前圖書資訊領域學者的個人影響範圍。. 1.
(9) 本章分為研究背景與動機、研究目的與問題、研究範圍與限制,以及預期研 究結果與貢獻。第一節為研究背景與動機,將簡述知識本體(Ontology)與數位人 文的發展背景,以及促成研究實行之動機。第二節乃研究目的與問題,將說明本 研究主要探討的兩個議題,以及試圖解決該議題的應對辦法。第三節敘述研究範 圍與限制,呈現當前研究上難以突破的限制,以及本研究欲專注研究的範圍,提 供後續研究者拓展研究範圍的方向。最後一節會解釋本研究結果可帶來的貢獻。. 第一節. 研究背景與動機. 近年來,世界各地陸續啟動各種領域的知識本體(Ontology)開發計畫,希望 能透過知識本體對真實世界的描述,讓珍貴的知識以符合人類邏輯的資料形式, 運用在各個領域的知識描述上,達到機器可讀與可推理的目的,藉以產生比傳統 知識呈現方式更多的效益與利用。 在學術發展的洪流中,學者們會經由分析過往的學術研究與趨勢發展,獲悉 人類知識發展的過程與架構,並將解析出的現象整理出許多可參考的模型,以解 決當今所面臨的瓶頸,比如董采維與唐牧群(2015)以論文審查委員共現關係建 置社會網絡,以論文委員參與的論文主題與合作對象屬性當作多樣性來源,應用 三種指標來計算多樣性,並將網絡特性與多樣性結合,探究圖資界教師的合作模 式與其研究主題、合作對象屬性多樣性的關係。然而歷史的發展十分龐大,要掌 握所有的細節非常困難,以人工的方式解析資料,難免有所遺漏。因此,以機器 解析數位化資料的方法油然而生,透過資訊科技管理數位化的發展歷程資料,能 減少人工管理所帶來的疏失,使資料價值提升,幫助學者們發現過去難以察覺到 的現象,改善當今學術發展上的窘境。. 2.
(10) 本研究將透過建置王振鵠教授事業歷程的知識本體,並以王教授在圖書館事 業上的影響力為範圍,展現知識本體技術應用於呈現學者事業發展的成果,透過 一名具有學術影響力的重要學者角色,去建模出圖資領域學者個人生涯發展歷史 的知識本體架構,同時本研究之系統架構亦能套用於其他學術領域與重要學者上, 除了能供數位人文學者進行探討與發現外,也能使其他領域之研究學者能加值與 利用。. 第二節. 研究目的與問題. 根據上一節所提到的整體研究背景,本節將延伸出本研究的目標方向,以及 所欲解決之當前學術問題,再簡述研究施行之目的後,會以條列式清楚呈現要點。. 一、. 研究目的. 雖然以現今的技術能使知識資料以數位化呈現,甚至能以網際網路讓遠端使 用者快速取得資料,然而大多數的檔案格式缺乏機器可推理性,對程式而言,大 多數的內容僅止於字串與檔案而已,程式無法擁有如同人類推理本能地推論出知 識之間的關聯性,以及值與實體之間的區別。且礙於過去的資訊技術限制,資料 內容亦難以被其他應用程式運用,致使機器間溝通困難,以及硬體資源的浪費。 近幾年,部分學者開始倡導數位人文,目的是透過數位資訊科技與技術,重 新詮釋過去的人文現象與資料,期望在與新科技的結合下,發現過去所難以察覺 到的新現象與理論。而為了要進行多面向的數位分析,需要的不單是經過數位化 處理的人文資料,而是在資料設計上,既能超越傳統資料庫的保存功能,讓多數 的應用程式相容以及運用,又要能彰顯出資料之間的關聯特性,否則無法突破舊 有運算技術在分析上的缺失,疏忽了數位人文以人為本的核心價值。. 3.
(11) 為了建立強調關聯特性之資料形式,需要透過知識本體技術來完成對資料的 描述,知識本體又稱為本體論(Ontology),原為哲學上探究萬事萬物並加以歸納 分析的學說,且可用於資訊科技中的知識推論功能上。 根據人文學者對於可自動推論知識的系統需求,本研究將研究目的分為下述 三點: (一) 整合現有資源,產生可描述台灣圖書資訊學者個人發展歷程的知識本體。 (二) 以知識本體技術,建置可呈現圖書資訊學領域學者的事業歷程網路平臺。 (三) 提供圖資領域的數位人文學者,一個相較於傳統網站更具有關連性與外 展功能的歷史數位資料搜尋工具。 在知識本體技術與學者歷程資料的結合中,可以增加現存資料間關聯的邏輯 性以及人工觀察下難以發現的脈絡,並且使數位人文領域有更進一步的發展。. 二、. 研究問題. 本研究針對前述的研究目的,建置一個應用知識本體技術,描述學者學術事 業歷程的系統平臺,使用者將不同於過去單純的資料庫檢索方式,而是改為透過 整合資料關聯性的方法,重新檢視數位化歷程資料,解析出以往人工難以察覺的 現象,一方面拓展數位人文學者分析研究資料的方式,另一方面,已完成之系統 架構與知識本體結構可以套用於其他領域中,幫助其他系統平臺之研究者,形成 一個可供參考的模型架構,並俯瞰學者個人歷程的脈絡。因此,本研究所關切的 研究問題為: (一) 在描述圖書資訊領域學者的事業發展脈絡中,知識本體所涵蓋到的實體 與關聯有哪些?範圍為何? (二) 為了使知識本體能與網站結合,提供多元的服務,需要使用到哪些工具? 4.
(12) (三) 使用了知識本體技術的網站平台,是否能比傳統網站更有效率地發現實 體間的關聯?. 第三節. 研究範圍與限制. 本研究範圍乃是臺灣圖書資訊領域的重要人物王振鵠教授,從 1949 年王教 授首次投入圖書館事業以來,至今已有大約五十年歷史,從國立臺灣師範大學到 國家圖書館都有王教授的影子,期間又與多個領域單位合作發展,影響台灣圖書 館事業深遠。 要把上述的資料全數不漏地結合知識本體技術,是一項龐大的工程,縱使如 此,典藏的範圍越是廣大,則建置出來的系統功能性也越完善,本研究是以王振 鵠教授投入圖書館事業的這五十年歷程為範疇,盡可能地將王教授的學術歷程, 以及相關的人事時地物,皆納入建置範圍。而本體建置範圍中,可以確定的物件 類型包含相關文獻、參與組織、過去經歷與相關人物,採用這樣的範圍,是希望 能以王教授生涯中參與的重要學術活動,作為圖資領域學者的範本,而對於日後 其他研究的使用上,能提供一個完整的資料來源與概念。 然而,部分資料礙於取得不易或是定義不明確,因此被本研究排除在外,可 以舉出的資料類型包含了:難以取得之非公開文獻、無法考究來源之資料、個人 隱私資料、低相關性資料以及具有爭議性的資料。屏除這些資料的原因,在於這 些資料過於模糊而不明確,或是缺少重要關聯性,若是採用錯誤或無關的資料, 則會造成日後研究分析上的錯誤與困難,如此嚴重的後果是本研究所難以承擔的。 除此之外,本系統也彰顯了一個明確的收錄範圍,讓使用者能輕易掌握系統所能 帶來的服務內容與資料性質。捨棄掉這些內容實為可惜,希望日後能將這些資料 轉變成可信賴的資料,並納入建置範圍。. 5.
(13) 除了資料收錄範圍之外,本研究在技術層面上也有難以避免的限制,在選擇 描述物件的知識本體屬性時,雖試圖建置能囊括所有被描述物件之已知屬性,但 仍然無法保證能涵蓋到當前該物件的其他未知屬性。而本研究是採用市面上的研 究工具,並修改部分程式碼來完成應用,若是程式開發商未提供新版本的應用程 式,造成部分應用程式的軟體版本不同,就會導致軟體不相容的情形。 本節將研究上的範圍與限制盡可能地陳列出來,目的是讓往後從事同樣研究 工作的研究者,能從本研究不足的部份去延伸發想與突破,藉由參考這些限制, 將學者歷程的知識本體系統進一步改善,使本領域的相關研究蒸蒸日上。. 第四節 一、. 名詞解釋. 知識本體. Gruber(1993)曾在他的研究中解釋知識本體,「An ontology is an explicit specification of a conceptualization. The term is borrowed from philosophy, where an ontology is a systematic account of Existence.」(Gruber, 1993),大意是說明知識本 體為定義概念的明確規範,而該字詞是源自於哲學領域,用來系統化描述存在的 定義。 知識本體原本是用來概念化人類所週知的現實世界,並將人類知識拆解為概 念、語言與對象三個要素,且三要素之間具有緊密關聯,當中概念即為描述對象 的已知屬性,透過這些屬性可以清楚地區分實體之間的不同處與相同處,藉此產 生概念推理。資訊科學領域引用其意涵,用來向機器解釋人類知識,使機器具備 可推理人類知識的能力。. 二、. 實體. 6.
(14) 實體(Substance、Entity 或 Individual)概念起源於希臘,不僅是理解希臘哲 學家亞里斯多德哲學的一個核心概念,也是導致西方哲學史上許多重要問題的關 鍵所在。 "Substance"有表達物質、事物的本質等意思,通常是指佔有時空位置的基本 存在體或者在環境變化中能夠保持獨立自存的東西。"Entity"則較為抽象,它表達 任何獨立自存的東西,而這些東西不一定會有物質性的存在," Individual"為 OWL 語言所採用的名詞,但也可翻譯為"個體",語意涵蓋範圍與"Entity"類似,並不局 限於物質的存在。 中華百科全書(2006)整理了亞里斯多德的觀點,並歸納出六項意義:一、 實體指具體的個別物(The Concrete Individual) ;二、基本性質的核心(A Core of Essential Properties) ;三、獨立存在者(What Is Capable of Independent Existence) ; 四、變化的中心(A Center of Change);五、托體(Substratum);六、邏輯文法 上的主詞(A Logical Subject) 。從簡而言, 「實體」即是依照特定概念所產生的真 實對象,一個概念可有多個實體,而多個實體可歸納出一個概念。. 三、. 數位人文. 項潔(2011)給了數位人文(Digital Humanities)一個簡單的定義: 「它指的是 那些唯有借助數位科技方能進行的人文研究。反過來講,數位人文的研究,即是 企圖尋找在前數位時代中難以觀察的現象、無法想像的議題與無法進行的研究」 , 同時他表示,會採用這樣廣泛的定義,不外乎是希望增加這個新領域的想像與發 展空間,「我們希望這個簡要的定義,不是限縮想像力的圈套,而能成為研究者 探索時的指引與參考」(項潔,2011)。. 7.
(15) 第二章 文獻探討 本章將討論涉及到的各個研究主題,透過整理分析相關文獻,來探討本研究 之情境,同時強調當前研究的重要性,本研究之主題包含詮釋資料與知識本體、 知識本體在圖書館的應用,以及供本研究架構參考的開放典藏資訊系統參考架構。. 第一節. 詮釋資料與知識本體技術. 近年來,隨著數位資訊科技的進步與網際網路的發展,人類在知識處理及溝 通的方式上已逐漸改變,進而也改變了人類在生活型態、社會組織、以及使用知 識的形式。數位資訊科技的優點,在於讓既有的知識經過數位化與整合化的轉換 程序,而得以大量匯集與長久保存;同時若配合了網際網路的普及,更可以將匯 集到的知識,以整合過的資料形式,大量且即時地傳遞給世界各地,達到人類群 體知識共享的目的 (蔡永橙、黃國倫、邱志義,2007)。. 一、. 詮釋資料. Metadata 乃是「資料的資料」 (data about data) (陳亞寧、陳淑君,1999, p.1) 。蔡永橙、黃國倫與邱志義(2007)則歸納了「詮釋資料、超資料、元資料、 元數據與後設資料」等五種在華語文區域所出現的名詞,而在中國大陸則是統一 使用「元數據」一詞,目前中華民國國家標準(Chinese National Standards, CNS) 已於 2013 年確認採用「詮釋資料」一譯(經濟部標準檢驗局,2013)。 而這些 Metadata 的不同譯法也指出了「詮釋資料」的特性,即是採用結構化 的方式整理及呈現與典藏物件有關的屬性或元件等資訊,除了使典藏品具有分類 依據的標準,還可協助對網路電子資源的辨識、描述、與指示其位置。. 8.
(16) 翁志光(2010)提到對於使用者而言,結合詮釋資料的典藏平臺能提供資訊 有效的存取方式;而就管理者來說,這樣的典藏平臺要管理與維護藏品則較容易, 原因在於「詮釋資料」為典藏內容資料建立一套詮釋性資料格式,以便讓使用者 有效率存取這些資訊。 詮釋資料雖然在描述、詮釋資料會跟書目資訊相同,但在層次與深度方面, 與傳統書目資訊是有所不同的。陳亞寧等人(1999)將主要差異分為四個方面: 一為,任何物件(object)皆是 Metadata 涵蓋的範圍,諸如圖書館界所熟悉的書、期刊、 文章等,乃至器物、人等皆是。二則為,範圍從實體典藏的物件擴大至虛擬典藏的各 類物件。三是,詮釋的深度遠比以往更為深入,並不僅限於內容主題的分析標引而已, 尚包括了物件彼此互動關係,包括人、時、地、物、主題/事件(events)等五大主軸 間的互動、牽引;換言之,從資料、資訊的整理提昇至知識內涵的建構。四為,物件 的辨識、保存、展示、取用、篩選與評估、服務及系統管理等方面皆是環環相扣,密 不可分,並不可從單一觀點視之或處理。(陳亞寧、陳淑君,1999,p.6). 在本研究中,使用了知識本體作為描述物件的詮釋資料格式,透過對於目標 物件的屬性資料,可以詮釋目標物件的各種特性,使資料更具有意義,因此詮釋 資料對於知識本體的品質至關重要,這關係到每一個典藏物件的功能性,因此在 設計知識本體的詮釋資料時,需要對整個典藏資料的全盤了解,包含使用者需求、 典藏主題背景、系統結構與典藏物件的屬性,需要整合性的緊密思考,才有辦法 產出具有強大功能性的知識本體與系統。. 二、. Ontology 知識本體. 阮明淑與溫達茂(2002)提到 Ontology 一詞源於哲學領域,原本作為理論 哲學的基礎,有相當重要的地位,且一直以來存在著許多不同的用法。在資訊科 學領域,其核心意義是指一種模型,Gruber(1993)認為「在知識本體中,將使 用嚴謹的解釋與格式優良的字詞訂定公理,再定義出在這以人類可讀文字來表達 實體(如:類別、關聯、函數、或其他物件)名稱的宇宙中,所有實體名稱之間 的關聯。」。 9.
(17) Uschold(1996)則表示「世界通常被視為一組概念集(如:實體、屬性、過 程) ,包含概念的定義與彼此間的關聯;這被稱之為概念化。」 。整合兩者便可解 意為,知識本體是由概念(Concepts) 以及關聯(relations)所組成,而概念可為實體 (entities)、屬性(attributes)等元件,其關係如圖 2-1,藉由概念與關聯來描述人們 所週知的世界, 「實體」指的是特定領域中有形或無形的重要事物,如人、角色、 時間⋯等; 「屬性」用以敘述概念的特性以及可能的範圍,如顏色、重量⋯等; 「關 聯」則用以說明實體間或實體與概念間的關係。. 實體(entities). 關聯(relations). 屬性(attributes). 圖 2-1 知識本體的組成圖示 儘管不同的學者對於這些構成成分的確切稱謂有所不同,但它們卻都是一部 知識本體不可或缺的基本要素。一般來說,人們所普遍期望的一點就是,本體之 中的那些模型特徵應當非常類似於相應的現實世界,目前主流的知識本體語言以 RDF、RDF Schema、OWL 為主,這幾種知識本體語言都是以 XML 語法來描述 概念與概念之間的關係,以及這些概念的實例。. 10.
(18) 三、. XML 可延伸標記式語言. 可延伸標記式語言(Extensible Markup Language, XML),是一種標記式語言。 標記是種電腦所能理解的訊息符號,透過標記,電腦之間可以處理包含各種訊息 的文章等。而定義標記的方法,可以選擇國際通用的標記式語言,比如超文件標 示語言(HyperText Markup Language, HTML),也可以使用像 XML 這樣由相關人 士自由決定的標記式語言,這就是語言的可延伸性。1996 年 7 月「XML 工作 小組」(XML Working Group)在 W3C 的贊助下成立(W3C, 2014),當年 11 月 提交 XML 初稿,並於 1998 年 1 月 10 日正式通過 XML 1.0 規範,成為 W3C 的一個建議標準(Recommendation)。由於 XML 具有可擴展性、結構性、自我描 述性,並採用資料和樣式分離原則,使其在資料的管理、交換上擁有極為卓越之 性能(林信成,2000)。 XML 和 HTML 一 樣 都 是 從 標 準 通 用 標 記 式 語 言 (Standard Generalized Markup Language, SGML)演變而來的,只不過 HTML 是 SGML 的一個應用語 言(Application),而 XML 卻是 SGML 的一個精簡子集(Subset)。XML 將 SGML 去蕪存菁,捨棄約百分之二十複雜罕用的部份,承襲了其他百分之八十的特點, 是以具備了 SGML 所沒有的簡易性與靈活性,又有著 HTML 所欠缺的擴展性 與結構性。鑑於此,林信成(2000)認為 XML 很有可能為主導「第二代 Web」 (Second-Generation Web)之關鍵技術。. 11.
(19) 另外,RDF 可以採用 XML 的形式來表達, RDF 提供了 RDF 圖形撰寫與交 換時所使用的 XML 語法,稱作 RDF/XML,雖然 RDF 與 XML 用途不盡相同, 不過他們之間的關係卻密不可分。在語意網中,XML 能夠提供資訊實作上的基 礎語法,但是無法呈現實體屬性的解釋;而 RDF 則是以 XML 來完成資訊具有 語意的部分,這也使得 RDF 在全球資訊網資源描述上的應用相當廣泛。Hjelm (2001)亦在文中提到,RDF 工作小組認為,RDF 的應用範圍包括網站地圖、 資訊內容分級與註記、頻道定義、搜尋引擎、資料收集、分散式文件製作等。. 四、. RDF 資源描述架構. 資源描述架構(Resource Description Framework, RDF)也是由 W3C 發起,可 提供具有語意網路之功能,被廣泛用來描述全球資訊網上的資源及其相關性。主 要目的是為詮釋資料在 Web 上的各種應用提供一個基礎架構,並允許資源描述 機構訂定各自的控制詞彙,使應用程式之間能夠在 Web 上交換詮釋資料。 RDF 在語法上是基於 XML 架構,其結構組成為一個 Subject、一個 Property 和一個 Object,三者的結合可稱為一個三元組(Triple)。資源的描述是用統一資源 標識符(Uniform Resource Identifier, URI)的表示方式,利用 URI 具有全球唯一的 特性來表示資源,能夠避免重複的名稱被重複定義的情形發生。 此外,在 RDF 中,為使文件讀寫雙方能理解敘述式之涵義,必須定義彼此 有共識之詞彙集,稱之為 RDF Schema。RDF Schema 簡單來說就是 RDF 的詞彙 描述語言,可宣告特定描述詞彙的來源,以用於特定的應用領域,作用正如同一 本辭典,宣告一組詞彙,此組詞彙用以定義 RDF 敘述中可使用之屬性集合,並 描述各屬性之定義、限制、範圍,及屬性值之型態。. 12.
(20) 在 RDF Schema 裡所定義的類別(Class)與屬性(Property),能夠用來描述某一 知識領域所包含的各種關係與屬性,而 RDF Schema 本身,如同 RDF 的延伸, 提供了資訊註記時的類別與屬性,這與知識本體理念所希望的,提供知識領域內 之類別和彼此的關係相呼應,因此以 RDF Schema 來實作本體非常合適(Hjelm, 2001)。. 五、. OWL 網路本體語言. OWL (Web Ontology Language,網路本體語言)是 W3C(Word Wide Web Consortium,全球資訊網協會)所提出的一種知識本體描述語言,提供三種不同表 現能力的子語言使用於不同的使用者社群,其中包括 OWL Lite、OWL DL 和 OWL Full(McGuinness & Van Harmelen, 2004)。 這三種語言是為了解決知識本體應用於網路技術的各種邏輯需求,Horrocks、 Patel-Schneider 與 Van Harmelen(2003)將這三種語言的特性列為: (一) OWL DL:If friendly syntax or decidable inference is considered of primary importance, then OWL DL, a version of OWL with decidable inference that can be written in a frame or Description Logic manner, is appropriate. (二) OWL Lite : If an even simpler syntax and more tractable inference is considered of primary importance, then OWL Lite, a syntactic subset of OWL DL, is appropriate. (三) OWL Full:If compatibility with RDF and RDFS is considered of primary importance, then OWL Full, a syntactic and semantic extension of RDFS, is appropriate.. 13.
(21) 從這些特性可以看出,OWL Full 擁有最佳的表達能力,卻因為著重表達能 力而喪失完整的推理能力。OWL Lite 的表達能力最有限,但能讓使用者很容易 可以掌握與實作。OWL DL 則介於兩者之間,既擁有不錯的推論能力,也擁有良 好的描述能力,因此將會是本研究所著重的語意標準。 OWL 是採用 XML 的語法使本體的描述容易被電腦解讀。OWL 是建立在開 放世界假設的分散式描述,也就是說,所有事物的描述都是部分而未完備的,而 這些描述主要是由類別(Class)、屬性(Property)、實體(Individual)所構成。類別是 知識本體中最重要的部分,用來代表某個領域中的一個概念,而屬性則是對概念 的描述,最後實現概念的事物則為實體(Horrocks et al., 2003)。 OWL 使知識本體之間可相互推理,讓知識本體的範圍不只侷限於一份知識 本體文件中。舉例來說,Horrocks 等人(2003)提到,當一個類別被定義在某知 識本體中時,這個類別也可以在其他知識本體中被擴充,也就是說,同一概念在 不同知識領域下,會有不同的屬性與延伸概念。因此當兩種不同知識本體中擁有 不同 URI 的相同概念時,可以透過 OWL 語言中的 owl:sameAs 相互指稱,透過 owl:sameAs 的一致性,向外延伸到其他知識本體,結合成一個更大的知識描述。. 六、. SPARQL 查詢語言. SPARQL(SPARQL Protocol and RDF Query Language),直譯為 SPARQL 協 定與 RDF 查詢語言,是針對 RDF 檔案格式而設計,查詢方式與關聯式資料庫使 用的 SQL 相似。在 2008 年 1 月 15 日,SPARQL 正式成為一項 W3C 推薦標準 (Prud’Hommeaux & Seaborne, 2008),對語意網的發展影響重大。語意網透過 SPARQL 來查詢知識本體(RDF/OWL) ,利用主詞(Subject)、述詞(Property)與受 詞(Object)所構成的三元組(Triples),以及匹配(match)的概念來進行查詢。. 14.
(22) 第二節. 知識本體技術在圖書館的應用. 圖書館自古以來就扮演著知識管理者的角色,隨著時代的進步,各種知識與 其管理方式不斷地在改變,如何將人類的知識做最妥善的保存與利用,一直都是 圖書館著重的議題。在哲學領域中,有著探討「存在」議題的理論,稱為「本體 論」,該理論為探討人類知識或實體存在的特性與屬性,且基於該理論的描述功 能,而受資訊領域沿用,產生目前用於機器推理的知識本體技術,本節將探討在 圖書館、哲學與資訊三方領域的相關性,以及在技術的結合下,已經付諸執行的 計畫與應用。. 一、. 知識本體與知識組織. 阮明淑與溫達茂(2002)將知識組織定義為,將無序或分散的特定知識,以 一定的規則與方法,將其有序、集中、定址,以方便知識的提供、利用與傳播。 該文中提到,概念是知識的基本單位,也是思維的最小單位,並透過所指事物與 語言符號來描述,即語言符號式概念的表達形式,而概念是語言的思想內容,所 指、語言和概念三者之間的關係,常以語意三角來描述。 一般常見的字典、分類表、索引典等工具,主要是作為分類、檢索,或設計 研究、研究進行與知識庫系統建構等,其基礎概念即為知識組織的應用。而知識 組織與知識本體之關聯,須顧慮到今日的數位化資源,在知識組織時需要一個具 有多用途、高彈性的智慧型表達工具,達到完整資訊的呈現與檢索,而知識本體 自哲學領域提出以來,一直扮演著概念化人類知識的工具,透過資訊技術的結合, 可滿足人類對於改善知識組織工具的需求。. 15.
(23) 知識本體 (Ontology)最早是被哲學領域所提出,別稱有存有學、本體論或一 般形上學(general metaphysics),目前已被知識工程領域採納,用來向機器解釋人 類知識,換句話說,也就是使機器具備可認知人類知識之能力,阮明淑與溫達茂 (2002)認為其認知包含如下:1)世界存在著對象。2)對象具有屬性,屬性可用 數值表示。3)對象間有不同關係。4)屬性與關係依時序改變。5)不同時間點會有 事件發生。6)在一定時段上存在過程,對象參與在過程中。7)世界和對象具有不 同狀態。8)事件能導致其他事件發生或狀態改變。9)對象可分解成部分。 以知識組織的角度可看出,知識本體能適用於 Web 環境下作知識之表達, 而表達結果會是為了知識檢索或溝通作準備,因此,若是將此知識組織工具與圖 書館資訊科學所定義的檢索標準與規範作結合,將會是擴展圖書館功能的進一步 研究方向。. 二、. 知識本體與鏈結資料在圖書館的應用. Tim Berners-Lee(2000)曾提出語意網(Semantic Web)的概念,並指稱鏈結資 料(Linked Data)即是實現語意網概念的最佳途徑,此議題引起了圖書館界的高度 討論。鏈結資料的特色在於能透過等值的描述語句,連結兩個不同來源的結構化 資料,這樣的描述語句包含了 owl:sameAs 與其他類型的鏈結屬性,而這些屬性 是建立在 OWL 語言之下,換句話說,知識本體技術使得鏈結資料具有機器可推 理性,兩者密不可分(Parundekar, Knoblock, & Ambite, 2010)。2011 年,美國史 丹 佛 大 學 圖 書 館 暨 學 術 資 訊 資 源 (Stanford University Libraries and Academic Information Resources, SULAIR)廣邀各界學者,共同討論鏈結資料在圖書館界的 學術發展以及實際應用,而在報告內容中便總結了兩點(Keller, Persons, Glaser, & Calter, 2011):一是能用來描述資料語意面的意義;二是在資料的語法與格式 面,能超越特定資料結構的限制。. 16.
(24) 鏈結資料因為包含了知識本體的技術,因此除了能強調資料的關聯性,亦可 套用於資訊組織,做為資料表徵與結構化的一種標準與方法,相較於傳統書目資 料的扁平式資料欄位,鏈結資料可將其轉換為(Keller et al., 2011):(1)誰寫了這 本 書 ? (Who wrote the book?)(2) 何 時 出 版 了 這 本 書 ? (When was the book published?)(3)誰出版了這本書?(Who published the book?)(4)在何處出版了這本 書?(Where was the book published?)(5)這本書的內容為何?(What is the book about?)(6)這本書以何種語言撰寫?(What language is it written in?) 為了探究此轉化之可行性,圖書館界開始著手於各項相關計畫,主要的計畫 包括虛擬國際化權威檔(Virtual International Authority File, VIAF)、美國國會圖書 館鏈結資料服務(LC Linked Data Service: Authorities and Vocabularies)、美國國際 圖 書 館 電 腦 中 心 (Online Computer Library Center, OCLC) 的 全 球 圖 書 館 目 錄 (WorldCat)、大英圖書館(British Library, BL)的自由化資料服務(Free data service) 及歐盟的 Europeana 等。柯皓仁與陳亞寧(2013)將這些計畫分為資料值、複合 式與其他,分述如下。 (一) 資料值(data value): 對象為權威檔或控制詞彙,著名的計畫有: 1.. VIAF(Virtual International Authority File) 2003 年於柏林召開的國際圖書館協會聯盟(International Federation of Library. Associations,簡稱 IFLA)會議上,德國國家圖書館(Die Deutsche Bibliothek, 簡稱 DDB)、美國國會圖書館(Library of Congress,簡稱 LC)和美國國際圖書 館電腦中心(OCLC Online Computer Library Center,簡稱 OCLC)一致同意開發 一個個人名稱的「虛擬國際權威檔」(Virtual International Authority File,簡稱 VIAF) ,目的是為了實現單一實體能多重名稱、區分同名的多個實體,以及名稱 的形式差異等情形。. 17.
(25) 截自 2014 年為止,已先後加入了波蘭與拉脫維亞國家圖書館,至今已有超 過 29 個國家的 34 餘個單位參與合作(Online Computer Library Center, 2014)。 VIAF 計畫的目標是要證明自動連接來自各個不同國家權威檔紀錄的可行性。 VIAF 以嚴密設計的演算法比對 LC 和 DDB 兩個權威檔間的個人名稱權威紀錄, 但又可以允許國家或區域性的不同權威形式同時存在,支援採用習用的語言、字 型和拼法標目形式的需求。所謂的名稱權威檔包括:個人名稱(people)、團體名稱 (corporations)、會議名稱(conferences)、地理名稱(geographic places)、作品(work)、 內容版本(expression)等(林淑芬,2012)。 2.. LC Linked Data Service: Authorities and Vocabularies LC Linked Data Service 是將 LC 所擁有的各式主題詞(subject headings)、權. 威檔(authority file)、分類表(classification)、國家代碼(country)、語言(languages)與 圖像資料索引典(Thesaurus for Graphic Materials)等不同類型的控制詞彙以鏈結資 料的方式提供,使用者可以批次下載所有資料,亦提供使用者以 RDF/XML、JSON、 N-Triples 等格式下載(The Library of Congress, 2014)。 (二) 複合式 除了資料值之外,有些計畫以書目紀錄為主,發展書目紀錄知識本體或是導 入鏈結資料,融合資料元素與資料值,達成資料間的鏈結,包括英國的 BL、歐 盟的 Europeana 及 OCLC 的 WorldCat 等。 (三) 其他 有些計畫像是開放型詮釋資料註冊中心(Open Metadata Registry, OMR),便 同時涵蓋了各式圖書館界相關的知識本體(如:FRBR、FRAD、FRSAD)、控制詞 彙(如:GEM)、內容(如:RDA、ISBD)、資料元素(如:Dublin Core、MARC21) 等不同詮釋資料標準,是一個提供詮釋資料描述、發掘、儲存與交換的綱要資料 庫(databases of schemas)。. 18.
(26) 第三節. 數位人文的發展與應用. 數位人文是經由資訊技術,分析人文資料的學門,在當今數位化的時代,部 分人文學者開始重視以機器代替或輔助人文資料分析,以減少人工分析所帶來的 誤差。本節將介紹數位人文的發展過程,以及將知識本體技術應用於數位人文的 相關研究。. 一、. 數位人文的發展. 臺灣第一個以「數位人文」為名的研討會,是 2009 年 12 月 1 日至 2 日, 由國立臺灣大學數位典藏研究發展中心舉辦的第一屆「數位典藏與數位人文」國 際研討會。其中包含了四場主題演講,一場圓桌論壇,十八篇論文發表,以及十 餘篇海報論文。 數位人文並非完全新興的領域,它的前身「人文計算」早已行之有年,早在 1949 年,Roberto Busa(1980)神父就透過電腦處裡神學家 St. Thomas Aquinas 著 作內的字詞,花了近三十年的時間,試圖分析其用字規則。Craig(2004)也利用 詞頻的統計數據,分析莎士比亞文學研究的各種問題。莎翁文學是否皆出自同一 人之手,一直都是該領域經常探討的問題,透過詞頻統計的分析,可以了解各個 莎翁作品的寫作風格是否一致?或可能出自誰人之手?雖然不能直接從統計數 據導出結果,但仍然可做為後續學者研究的依據。 昔日單純統計人文資料的「人文計算」 ,如今轉變為定義寬闊的「數位人文」 , 項潔(2011)指出其轉捩關鍵有三個特點:「第一、它擁有的資料量更加龐大; 第二、它所強調的不只是計算,不認為計算能解答所有人文的問題;第三、它重 視資料的開放與分享,且努力降低進入領域的門檻,擴大影響層面」。. 19.
(27) 根據這三點可以看出,資訊科技的進步,與人文科學交互影響鉅深,在講求 「以人為本」的人文科學中,科技能輔助人力的分析運算,使學者能看到以往人 工分析所遺漏的新發現。. 二、. 知識本體在數位人文的應用. 太平洋鄰里協會(Pacific Neighborhood Consortium, PNC) 於 2013 年舉行會 議,主題為「建立數位人文新典範-鏈結人類活動新知識」 。會議期間,有 47 場 次的研討會報告,內容涵蓋數位圖書館、數位典藏、數位學習、數位出版,到智 慧財產權等主題;共有來自 10 個國家、超過 300 位專家學者出席。此會議中 有許多講題討論知識本體論、鏈結開放資料(Linked Open Data, LOD)、語意網 (Semantic Web)在各領域知識整合的應用,可以看出鏈結開放資料和語意網帶領 下 一 波 網 路 發 展 的 應 用 已 在 數 位 人 文 領 域 積 極 展 開 ( Pacific Neighborhood Consortium, 2013)。 目前最資深的數位人文期刊《數位人文季刊》 (Digital Humanities Quarterly) 於 2007 年創刊至今。在 2009 年 Amélie Zöllner-Weber(2009)刊登的一篇 《Ontologies and Logic Reasoning as Tools in Humanities? 》文章中,提到人文資 料的內容多半含糊其辭、模稜兩可,甚至是互相矛盾,要用機器的邏輯推理去解 決這些問題將是一大挑戰,並且可能超過邏輯推理的限制。 但該文中就透過知識本體推論器,分析文學作品中的字詞,找出字詞間的關 聯,且當不同研究都採用相同知識本體模組,去分析與推論不同的文學作品進行 時,可以有效減少人工誤差,增加研究一致性。. 20.
(28) 在知識本體應用於歷史研究的案例上,Corda(2007)結合了 Davidson 的事 件理論(Davidson’s theory of events)以及 Allen 的時間段代數(Allen’s interval algebra),整合成一套適用於強調時間推理特性的知識本體,當中的描述如後續事 件、事件始末時間、事件參與者、子事件以及事件地點等,可描述科學發展歷史 的各種事件關聯脈絡。 我國的葉肇鈞(2002)建置秦代兵馬俑圖像知識本體,該知識本體有 6 項類 別與 99 項屬性,其中 4 項屬性可用來連結兩個類別之間的關聯,如今已收入超 過七萬個字詞在組織化的語意階層中,可用來分析各圖像的主題、描述、配件等, 以及圖像之間的關聯性,能幫助歷史學者從圖像的描述中,發現秦代兵馬俑在外 觀與歷史意義上的價值。 知識本體技術應用於數位人文研究,正如火如荼的進行著,透過知識本體的 邏輯推理特性,能超越以往關聯式資料庫無法呈現的關聯方向性和語意內容。但 就目前知識本體以及推理陳述的數量來看,在語意模糊或語意矛盾的邏輯推理上, 無法完整表達與理解人類語意。因此,投入更多專業領域的研究學者開發知識本 體與推理陳述,將可建置出最理想的知識本體規模,而這股趨勢也會繼續在人文 科學領域延燒。. 第四節. 使用性評估. 系統需要經過一套標準的審查,以評估其實用性與使用性,所以本系統在建 置完成後,參考了數位典藏系統入口網站界面可用性評估的簡易模式(林妙樺, 2003) ,另設計一套系統操作實驗來評估本研究之使用性以及是否達成研究目的。. 一、. 使用性. 21.
(29) 因鑒於最終呈現的網站平臺,在使用資料上與數位典藏網站有相似之處,皆 為提供文化歷程之考究,故在系統評估方法上,將透過林妙樺(2003)參考 Usability Engineering(Nielsen, 1994)一書後所整理出的數位典藏系統之入口網 站界面使用性(Usability)評估的簡易模式(圖 2-2),此模式將網站可用性分為學習 性(Learnability)與易用性兩個層面,而易用性的評估則使用量化與觀察兩種方式 同步執行。本研究將利用此評估模式設計一套簡易實驗,以評估本系統是否有達 到可用性標準。. 目的(使用性). 易用性. 學習性. 評量方法: 在實驗室中進行觀察 者不介入的測試. 量化: 完成五項指定任務 所需的平均時間. 評鑑資料的技術: (如:何時該開始與結束觀察) 圖 2-2 可用性評估的簡易模式 (林妙樺,2003) 在決定測試項目時,需要考慮到如何能有效評鑑出系統的使用性,在前面段 落中,已將使用性分為易用性與學習性兩個層面,而在易用性當中,又可分為有 效性(Effectiveness)、效率(Efficiency)、滿意度(Satisfaction)三點。表 2-1 為 Lee, Hong, Smith-Jackson, Nussbaum and Tomioka(2006)共同整理出的使用性屬性, 分別為有效性、效率、滿意度與學習性,各項說明如表中所述,其中鑒於滿意度 與學習性容易因個人感受不同而有所差異,因此本研究僅探討在有效性及效率上, 知識本體網站是否較傳統網站優異。. 22.
(30) 表 2-1 四個用於量化評估使用性的屬性 使用性屬性 有效性. 說明 使用者取得特定目標的準確性與完成度(The accuracy. (Effectiveness) and completeness with which users achieve specified goals) 效率 使用者達成有效性時所花費的資源成本(The resources. 滿意度. expended in relation to the accuracy and completeness with which users achieve goals) 使用者對該產品的不適感或正向感受(Freedom from. (Satisfaction) 學習性. discomfort, and positive attitude to the use of the product) 使用者能透過介面快速且有效學習的程度(The degree. (Learnability). to which a user interface can be learned quickly and effectively). (Efficiency). 資料來源:Lee, Y. S., Hong, S. W., Smith-Jackson, T. L., Nussbaum, M. A., & Tomioka, K. (2006). Systematic evaluation methodology for cell phone user interfaces. Interacting with Computers, 18(2), 304-325.. 二、. 使用性評估方法. 呂淑惠(2002)整理了亞利桑那大學圖書館網站的十點評估方法實施步驟, 步驟如圖 2-3,此十點分別為 1)決定測試項目;2)寫下測試時,使用者所需要表 現的任務;3)寫下執行測試時,所須注意事項,以求每次測試之一致性;4)找一 些使用者進行前測;5)訓練測試者和紀錄者;6)尋找自願受試者;7)確定測試場 所為安靜不受打擾;8)進行測試,並掌握進行之時間與進度;9)盡快完成測試紀 錄;10)分析測試結果。. 23.
(31) 決定測試項目. 寫下測試時, 使用者所需要 表現的任務. 寫下執行測試時, 所需注意事項, 以求每次測試之 一致性. 找一些使用者 進行前測. 訓練測試者和 紀錄者. 尋找自願受試 者. 確定測試場所 為安靜不受打 擾. 進行測試,並 掌握進行之時 間與進度. 盡快完成測試 紀錄. 分析測試結果. 圖 2-3 使用性評估的簡易模式流程圖 資料來源:呂淑惠(2002)。大專院校圖書館網站經營管理之研究(未出版之 碩士論文)。國立臺灣大學,台北市。 本研究將依循此實驗流程圖進行最後的系統評估實驗,透過標準化的流程, 可以讓實驗獲得的資料更加標準與一致。. 24.
(32) 第三章 系統設計與建置 本章依序列出系統建置過程的所有步驟,共分為四節說明,第一節為研究工 具,說明在建置系統時,使用了哪些工具;第二節是研究對象,說明本研究選擇 王振鵠教授作為研究對象的原由;第三節是系統建置流程,將介紹本體、系統與 平台的建置流程;第四節為網站結果,將簡單說明每一項網站平台所提供的功能, 以及最後呈現結果。. 第一節. 研究工具. 本節將介紹研究中應用於系統建置過程中之所有工具,包含 Protégé、Apache Web Server、MySQL Database 與 D2RQ Server。利用這些語意網技術、知識本體 技術和網站伺服器軟體,實現縱覽學者學術歷程的各項功能。本研究的系統架構 如圖 3-1,以下將分別說明各研究工具在本研究中的定位。. 圖 3-1 圖資領域學者事業歷程系統網站架構圖 25.
(33) 一、. Protégé. Protégé 是史丹佛大學開發的本體編輯和知識獲取軟體,為專門針對 OWL 和 RDF(S)本體語言的開放原始碼 Java 類別庫,開發語言採用 Java。Protégé-OWL API 操作指南提供了主要類別和方法的使用,介紹如何使用 Protégé-OWL API 載 入與儲存 OWL 文件、查詢和操作 OWL 資料模型,以及執行符合描述邏輯的推 理。由於其優秀的設計和眾多的外掛模組,Protégé 已成為目前使用最廣泛的知 識本體編輯器之一 (Stanford Center for Biomedical Informatics Research, 2014)。 同時,為了達到前面探討 OWL 文獻時所說的,知識本體須符合 OWL DL 標 準,因此決定安裝 Pellet 插件於 Protégé 中。Pellet,是一個以 Java 為基礎且開放 原始碼的免費 OWL DL 推論工具,用於 Jena 和 OWL API library,可以檢查知 識本體的一致性(consistency)、分類概念(taxonomy)、繼承關係(entailments)與不滿 足(unsatisfiable)的概念等(Clark & Parsia, LLC, 2014)。 此外,裝有 Pellet 推論器的 Protégé 亦可檢查標記語言所定義的資料型態限 制 。 繼 承 關 係 (entailments) 有 兩 個 議 題 , 分 別 為 包 含 (subsumption) 與 滿 足 (satisfiability)的檢查,包含(subsumption)檢查父子概念間的關係( subconceptsuperconcept relastionship) , 確 認 父 概 念 是 否 較 子 概 念 更 一 般 化 , 而 滿 足 (satisfiability)則檢查某個概念被定義出來,是否具有意義,藉由判斷此概念是否 會被指到一個空的概念,決定此概念是否需存在(沈佳瑾,2006)。 本研究將收集王振鵠教授的歷程資料,在評估內容後,以人工的方式,透過 Protégé 建置適用於圖書館領域發展的知識本體,同時利用 Pellet 做即時性的推 論檢查,以確保最後產出的知識本體具有完整的推理功能。. 26.
(34) 二、. Apache Web Server. Apache Web Server(簡稱 Apache)是 Apache 軟體基金會的一個開放原始碼 網頁伺服器,可在大多數電腦作業系統中運行,由於其跨平臺的特性與安全性, 因此已被廣泛使用,是最流行的 Web 伺服器端軟體之一(The Apache Software Foundation, 2014)。 本研究選擇 Apache 作為伺服器工具之原因在於其建構快速且可靠,並且能 通過簡單的 API 擴充,將 Jena API 等套件編譯到伺服器中,以便日後透過網頁 下達 SPARQL 查詢至 MySQL。. 三、. MySQL Database. MySQL 原本是一個開放原始碼的關聯式資料庫管理系統,原開發者為瑞典 的 MySQL AB 公司,該公司於 2008 年被昇陽微系統(Sun Microsystems)收購。 2009 年,甲骨文公司(Oracle)收購昇陽微系統公司,MySQL 成為 Oracle 旗下 產品。MySQL 在過去由於效能高、成本低、可靠性好,已經成為最流行的開放 原始碼資料庫,因此被廣泛地應用在 Internet 上的中小型網站中。 隨著 MySQL 的不斷成熟,它也逐漸用於更多大規模網站和應用,比如維基 百科、Google 和 Facebook 等網站(Oracle Corporation, 2015)。 經由 Jena 編譯成的 D2RQ Server 轉換後,MySQL 便能以特殊的儲存方式, 儲存本研究的 RDF 檔案與 OWL 規則,實踐語意資料的存取功能。. 27.
(35) 四、. D2RQ Server 與 Jena API. D2RQ 提供了非 RDF 架構的關聯式資料庫,一個虛擬 RDF 架構瀏覽模式, 同時也能以存取 RDF 檔案的方式存取關聯式資料庫,不需要額外儲存一份到特 殊的 RDF 儲存空間。D2RQ 支援 Oracle、MySQL、PostgreSQL、Microsoft SQL Server 關聯式資料庫(Cyganiak, 2012)。 在 D2RQ 中主要使用 Mapping File 來完成關聯式資料庫中對 RDF 架構的映 射,可在導入 Jena API 的 Java 程式碼中,透過 Mapping File 將資料庫的內容轉 換為一份真的 RDF 檔案。D2RQ 也可傳遞 SPARQL 查詢至資料庫,且 D2RQ 產 生的 RDF 檔案包含了外部領域屬性,使該資料庫的資料成為 Linked Data。 其中 Jena 乃支援 Java 可編譯與查詢 RDF 與 OWL 之 API,是由 HP Labs Semantic Web Programme 所開發出來的查詢語言,可針對不同之屬性資訊做關聯 式的查詢。Jena 的開發平臺為 Java Framework,可用於建構語意網的應用程式介 面(The Apache Software Foundation, 2014a)。 Jena 的主要功能為 RDF、RDFS 與 OWL 查詢之標準語言,邱茂順(2005) 在其研究中將 Jena Framework 的功能分為五點:1) RDF 的應用程式介面服務;2) 可讀取和寫入 RDF,以及 N-Triples 剖析;3) OWL 的應用程式介面服務;4) 是 一個能記憶與保留之儲存工具;5) RDF 的查詢語言(RDQL)。 而本研究將利用導入 Jena API 的 D2RQ Server,建置可轉換資料為知識本體 架構,再導入到 MySQL 儲存的伺服器,使先前設計出的領域知識本體與 MySQL 媒合,以便後續研究使用。. 28.
(36) 總結 D2RQ 可用於本研究的功能,包括使用 RDF Browser 瀏覽資料庫內容, 以及使用 SPARQL 查找資料,還有透過 Mapping File 將資料庫的內容轉換為 RDF 檔案(Cyganiak, 2012)。因此,D2RQ 在本研究中扮演一個極為重要的角色,否 則無法將 MySQL 內部的資料快速轉換成 RDF 格式。. 第二節. 研究對象. 本研究以王振鵠教授的專業歷程為研究個案,探討自臺灣圖書館事業起步以 來,王教授已投入圖書館事業半世紀之久,並一直扮演著相當具有影響力的角色, 而這五十年來帶領著臺灣圖書館事業成長,對於圖書館事業的貢獻,與臺灣文化 教育的發展息息相關,在學術上的心得與其獨到的經營理念,不但指導也成就了 現今的臺灣圖書館事業,因此王教授被譽為半世紀以來對臺灣圖書館事業影響最 深遠的學者。 根據國立臺灣師範大學圖書館(2014)的統計來看,從民國 45 年到 103 年, 王教授的著作共有專著 43 種,單篇文章 382 篇,另曾指導 36 篇學位論文,而他 人傳略更有 39 篇。而根據鄭麗敏(1994)對 1974 到 1993 年間,圖書館學及資 訊科學期刊的論文引用分析,王教授的論著是這二十年間被引用次數最多的著者, 而王教授所著的《圖書館學論叢》一書更是被引用次數最多的中文個人著作。 除了學術產出外,王教授一生的事業生涯亦影響圖資界深遠,從民國 66 年 至 78 年期間擔任中央圖書館館長,以及持續出任圖書館學會多項委員會召集人, 不管在教育、行政及組織領導上,都扮演著重要的多重角色。顧力仁(2005)亦 讚揚王教授「能在公餘研究不輟,質精量豐,論著的內容遍及圖書館學的理論與 技術、圖書館事業發展的歷程以及各國圖書館事業經營的方法…,涵蓋面極為廣 泛,這種旺盛的研究動機當源自於先生對圖書館事業的熱愛。」. 29.
(37) 王教授堪稱是臺灣圖書館事業發展的領航人,在擔任國立中央圖書館館長時, 建樹良多。宋建成(2005)將王教授對我國圖書館事業的建樹列為八大項:1.完成中 央圖書館新館遷建工程;2.推動全國圖書館自動化作業;3.創設漢學研究中心; 4.創設資訊圖書館;5.實施中華民國國際標準書號;6.舉辦臺北國際書展;7.促進 人文及社會科學資料單位合作;8.舉辦全國圖書館會議等。除此之外,還創編了 「圖書館學與資訊科學」刊物,並擔任主編。 王振鵠教授將近半世紀的圖書館學術生涯,造就了如今臺灣圖書館學與圖書 館事業的蓬勃發展,而其在職生涯中與各重要單位交流頻繁,脈絡之廣值得探討, 故本研究選擇王教授為研究對象。. 第三節. 系統建置流程. 本研究以《Ontology Development 101》 (Noy & McGuinness, 2001)作為參考 依據,設計圖資學者事業歷程的知識本體,並使用此知識本體建置系統網站,最 後再評估本系統是否能滿足圖資領域研究者之需求,以及審視系統在操作上的易 用性表現。本研究的研究流程如圖 3-2 所示,分別為資料收集與範圍定義、知識 本體規劃設計、資料庫映射檔配置、伺服器與網站建置共四階段。. 收集資料 與 範圍定義. 知識本體 規劃設計. 資料庫映 射檔配置. 圖 3-2 研究流程圖. 30. 伺服器與 網站建置.
(38) 使用知識本體技術描述學術歷程,可將學術歷程以數位化的方式,使機器得 以推理,因此在資料收集與知識本體規劃設計的階段中,本研究參考史丹佛大學 知識系統實驗室所出版的《Ontology Development 101》(Stanford Center for Biomedical Informatics Research, 2014)一書,其中說明了建置知識本體的七大步 驟,而定義本體領域與範圍需要與資料收集同步進行,以確保資料與範圍相契合。 同時透過書中記載之詳細說明,設計知識本體的後續建置流程,並依照流程完成 知識本體,圖 3-3 將研究流程分為七個階段:. 第一步. 第二步. 第三步. 第四步. 第五步. 第六步. 第七步. • 定義本體領域與範圍 • 考慮使用現有的本體 • 列舉本體中的重要詞彙 • 定義類別與類別階層 • 定義類別的屬性 • 定義屬性的層面 • 創建實例. 圖 3-3 知識本體建置流程圖 (Stanford Center for Biomedical Informatics Research, 2014). 除了第一步定義本體領域與範圍需要和資料收集同步進行之外,後續的六步 知識本體建置流程將留至知識本體規劃設計再作執行。. 31.
(39) 一、. 資料收集與範圍定義. 本階段收集王振鵠教授於學術歷程中之所有產出,收集內容範圍可以分為產 出文獻、關聯組織、歷史事件與互動學者四大類,其關聯性如圖 3-4。產出文獻 包含學位論文、期刊論文、合著文章、專著與出版物等學術文獻。參與組織包含 學術機構、政府單位、出版單位等與王教授有關聯性的組織。歷史事件則包含王 教授過去生涯中之重大事件,比如圖書館搬遷、獲頒獎項、就職等活動與事件。 互動學者之定義為與王教授有過合作發表、共同研究之學者,以及王教授曾經指 導過的學生。. 圖 3-4 資料關聯圖 而資料來源是國立臺灣師範大學圖書館轄下的校史經營組,該單位於慶祝王 教授九秩生日時整合了由 1)中華民國圖書館學會、2)中華民國國家圖書館以及 3) 國立臺灣師範大學三所學術組織所提供的王教授資料,並且逐一考察權威性;同 時本研究也盡可能地收集王教授之相關歷程資料,以增加知識本體之功能性與網 站價值。. 32.
(40) 二、. 知識本體規劃設計. 在確認資料與本體範圍後,此階段將參考知識本體設計流程中的後面六個步 驟進行:. (一) 考慮使用現有的本體 為了將知識本體技術應用於系統中,在知識本體的選擇上,需要考慮到未來 資料的通用性,也就是使資料庫中的資料能讓其他應用程式做再利用,因此必須 選擇受到廣泛使用的現有知識本體作為參考,經過多方考量下,本研究決定選擇 DBpedia 與 VIVO 作為知識本體的參考來源。 1.. DBpedia DBpedia 是一個很特殊的語意網應用範例,它從維基百科(Wikipedia)的詞條. 裡擷取出結構化的資料,以強化維基百科的搜尋功能,並將其他資料集連結至維 基百科。DBpedia 同時也是世界上最大的多領域知識本體之一,也是 Linked Data 的一部分。 (Auer et al., 2007) 而本研究將從 DBpedia 中擷取出一般知識性的知識本體,諸如出版年、出版 者等,用以輔助 VIVO 不足的部分。. 2. VIVO VIVO 來 自 於 康 乃 爾 大 學 的 威 爾 醫 學 院 (Weill Cornell Medical College, WCMC),為 Paul Albert 所主持的一個學術機構導向的語義工具,用來存取教師 及研究人員的相關資料,並以鏈結資料的形式加以應用。VIVO 屬於開放原始碼, 有自行設計的知識本體,適用於描述機構內個體之間的交互關聯。當機構以語義 方式對應資料時,不需要繁瑣的過程就能透過 VIVO 進行協調。(DuraSpace Organization, 2016 May) 就本研究對於描述學者互動的功能上,參考 VIVO 的知識本體有助於整合學 者間的關聯屬性,比如書、論文、學術組織等,是本研究知識本體的核心架構。 33.
(41) 但考慮到上述兩種知識本體可能與本研究之需求有些微差異,若是無法確切 滿足研究上的需求,將造成資料貧乏以及描述不完善等系統功能缺失,因此將使 用知識本體編輯工具 Protégé 進行修改與編輯,使得原本的知識本體屬性皆能符 合研究需求。. (二) 列舉本體中的重要詞彙 在確定收集到的資料,以及本體範圍後,會將資料中與學者個人事業歷程的 詞彙擷取出來,諸如學者、學位論文、組織、事件、學位、領域、出版品和期刊 等重要類別詞彙,以及出版、影響、具有身分或指導等介於實體之間的關聯詞彙。 全數列出後,才會進入到下一階段。. (三) 定義類別與類階層 將前一階段所擷取到的詞彙進行分類,同其所同,異其所異,並且將相似的 類,以一個更大的類目概括,而最上位的類目為萬物(Thing)。 然而在建置知識本體時無法將所有的類一次分層完畢,必須依照類與類之間 的階層,循序漸進的分類分層。在《Ontology Development 101》中,整理了三種 方式以建置知識本體,分別是由上而下(top-down)、由下而上(down-top)以及整合 法(combination)。 在由上而下的方法中,將使用一般知識的分類依據產生知識本體,如生物分 類法中的界、門、綱、目、科、屬、種,而對應於本研究的需求,即為 DBpedia 與 VIVO,也就是具有權威性與公信力的知識本體。相反地,由下而上的建置方 法,是透過收集該領域的特殊實體,歸類出適用於該領域的知識本體,以本研究 而言,在前一步所收集到的詞彙中,圖書館為一個需要特別關注的特殊單位,故 需自成一類。最後的整合法顧名思義,是同時採用上述兩種方法建置知識本體, 除了具有明確的分類依據,同時還能保有領域的特殊性。因此,為了讓本研究能 同時保有這些優點,故採以整合法作為建置方法。. 34.
(42) 透過整合法同時整合 DBpedia、VIVO 以及領域詞彙後,便產生了如表 3-1 所呈列的類別階層,總計 26 個類別,其中因為 DBpedia 與 VIVO 的知識本體也 參考了許多其他現有知識本體,故表 3-2 將列出各類參考來源的網域在這些類當 中不乏使用本網域(vh)而未選用其他網域定義的類,原因是外部來源不一定符 合本系統的研究目的,而為了將語意定義的更加明確,故決定自行定義類別,而 各項類別的操作型定義於表 3-3 中逐一說明。 表 3-1 本研究知識本體類階層. Agent (foaf). Entity (obo). Person (foaf) Organization (foaf). Occurrent (obo). Academia Organization (vh) Temporal Region (obo). Period (vh). Process (obo). Event (event). Journal (bibo) Journal Article (obo) Thing (owl). Item (vh). Publication (obo). Paper (obo). Thesis (bibo) Articles (bibo). Book (bibo) Academic Degree (vivo) Research Area (vh) Concept (skos). Organization Type (vh) Identity (obo) Event Type (vh). 35. Date-Time Interval (vivo).
(43) 表 3-2 本研究類的來源網域 網域 縮址. 網域. 適用對象. owl. http://www.w3.org/2002/07/owl#. http://purl.obolibrary.org/obo/. obo. 泛用類:Thing 實體類:period、Entity、 Occurrent、Process、 publication、journal article、 identity、papers. bibo. http://purl.org/ontology/bibo/. 文獻類:Journal、thesis、 books、articles. foaf. http://xmlns.com/foaf/0.1/. 人物類:person、 organization、Agent. skos. http://www.w3.org/2004/02/skos/core#. 概念類:Concept VIVO 自定義類:. http://vivoweb.org/ontology/core#. vivo. academicdegree、datetime_interval. event. vh. 事件類:Event. http://purl.org/NET/c4dm/event.owl#. http://localhost/VIVOhistory.owl#. 自定義類:research_area、 academia_organization、item、 event_type、organization_type、 period. 表 3-3 本研究中類的操作型定義 類別. 中文. 操作型定義. 子類別或實例. Thing. 萬物. 指萬事萬物,為最上層類目. 人、抽象實體、物 品、概念. Agent. 人. 用以包含人或人群的類目. 個人、組織. Person. 個人. 指單人,包含目標學者及其 指導學生或合著對象. 如王振鵠、張春興. 36.
(44) 類別. 中文. 操作型定義. 子類別或實例. Organization. 組織. 包含與目標學者有關的組 織機構,階層較學術組織上 位. 如國立臺灣師範大學. Academia Organization. 學術 組織. 意指組織下的學術組織,包 含研究團隊或出版部門. 如國立臺灣師範大學 圖書資訊學研究所. 用以操作抽象實體的類別. 時間性實體. 時間 實體. 與時間性有關的實體類別. 時間區間、進程. Temporal Region. 時間. 用以表述一段時間的實體. 區間. 類別. Period. 時期. 指兩個年代點所勾勒成的 時間區間. 如 1955_1959. Date-Time Interval. 日期 間隔. 本研究以年代作為時間段 的間隔. 如 1955. Process. 進程. 指的是不只包含時間的長 期時間性實體. 事件. Event. 事件. 此處用以表述學者所參與 的大小事件. 如王教授擔任國家圖 書館館長. Item. 物品. 具有具體形式之實體. Publication. 出版 物. 指經由出版單位發行之學 者相關著作. 期刊、書、論文. Journal. 期刊. 指曾有刊登過學者著作之 連續性出版品. 如教育學報. Paper. 論文. 為該學者著作或指導之論 文. 期刊文章、學位論 文、文章. Journal Article. 期刊 文章. 為目標學者發表於期刊上 的文章. 如中國大學生課外閱 讀興趣之調查研究. Entity. Occurrent. 抽象 實體. 37. 時期. 出版物.
(45) 類別. 中文. 操作型定義. 子類別或實例. Thesis. 學位 論文. 為目標學者所指導之學位 論文. 如杜威十進分類法研 究. Articles. 文章. 指目標學者所著之單篇文 章. 如圖書館事業發展概 述. Book. 書. 指目標學者所著之出版書 籍. 如書緣. Concept. 概念. 指人類普遍用於分類知識 與描繪事物之抽象實體. 學術學位、研究領 域、組織類型、身 分、事件類型. Academic Degree. 學術. 用以區分學位論文級別的. 學位. 概念. Research Area. 研究 領域. 用來表述某篇文章主題或 某學者之研究主題. 如圖書館史. Organization Type. 組織 類型. 用以區分人群組織的各種 型態. 如學院、出版社. Identity. 身分. 用以區分學者於本體事件 中的各種身分. 如學者、公務員. Event Type. 事件 類型. 用以表述該學者所參與事 件的各種事件類型. 如就職、搬遷. 如博士、碩士. 本階段的重點在於評估每一項實體該為實例或是類別,在概念上,一個實體 可以同時是類別也是實例,比如貓是一種動物的類別,但同時也是哺乳動物的實 例。然而在知識本體的技術上,需要視本體的用途來擇一呈現,以本研究為例子, 學者可以是一種人類的類別,卻也可以是一種身分的實例,基於本研究中的個人 實體可能含有多重身分,故將學者作為身分下之實例處理,此處亦與研究範圍關 係緊密,須謹慎定義與解釋。. 38.
相關文件
• 將已收集的 LPF 有效顯證,加入為校本的 學生表現 示例 ,以建立資源庫作為數學科同工日後的參照,成 為學校數學科組知識管理
結合夥伴協作學校,與大專院校、出版社及電 子學習平台機構組成專業協作社群,以資訊素
• 與資訊科技科、常識科、視藝科進行跨 科合作,提升學生資訊素養能力。圖書
z屬性 (property) z方法 (method) z事件
培養具有檔案學基礎知識與文化知識,掌握現代資訊技術的基 本技能,能在檔案館、國家機關和企事業單位的檔案機構、資
就知識及相關理論的最新發展,體育教師可運用他們的專業知識,把新元素例如資訊素養、企 業家精神、人文素養,以及
(網站主頁 > 課程發展 > 學習領域 > 藝術教育 > 教學資源 >視覺藝術
• 中文科、常識科及圖書科協 作,以「活在資訊中」為主 題,進行本科、跨學科讀書 會,增加閱讀量,培養閱讀 興趣..