以鏈結資料建置圖書館目錄查詢系統之研究

全文

(1)國立臺灣師範大學圖書資訊學研究所碩士學位論文. 指導教授：柯皓仁博士. 以鏈結資料建置圖書館目錄查詢系統之研究 A Study of Building Online Public Access Catalog with Linked Data. 研究生：方凱鴻撰. 中華民國一 ○ 五年二月.

(2) 摘要圖書館的館藏目錄一直擔任著指引讀者館藏位置的角色，隨著科技的進步，館藏目錄自實體卡片目錄演變為線上公用目錄系統，配合資訊時代的腳步，不遺餘力提供整合檢索資訊給予讀者，應用了大量應用程式介面(API)技術於檢索系統之中，然而 API 的不一致卻會增加維護檢索系統的困難。自 1990 年代，Tim Berners-Lee 建立全球資訊網之後，建構結構化且具有語意的資訊網路，透過資料間相互連結的語意網技術，是奠定圖書館下一代目錄提供網路資源檢索服務的重要基礎，鏈結資料則是實踐語意網的最佳實務。本研究透過鏈結資料的技術，整合存在於網路上的各項資料，系統化使用網路資訊。本研究將書目資料轉換為鏈結資料集，連結網路資訊整併至鏈結書目資料，提供給使用者瀏覽以及下載。最後透過系統使用性量表以及訪談來評估本研究所開發之系統的使用性，瞭解使用者對本系統的接受程度。本研究達成以系統實作的方式建置一套線上公用目錄，並且依循著鏈結資料的生命週期來逐步建置，使用鏈結資料讓傳統書目資訊得以提供與其他館藏相關連的額外資訊，系統使用性量表達到標準，因此本系統的使用性對使用者而言是可被接受的。訪談結果顯示，本系統得到的正面回饋有：1) 自動建議檢索詞；2) 提供書籍封面縮圖；3) 呈現作者總覽圖表；4) 提供電影改編資訊與系列作品介紹。然而亦有使用者給予負面回饋是可供本研究進行改進：1) 基本書目欄位較少；2) 缺乏 QR Code 功能。關鍵詞：鏈結資料、館藏檢索系統、語意網. i.

(3) Abstract Library catalogs serve as a role to guide readers the position of collections. With the advance of science and technology, library catalogs evolve from card catalogs into online public access catalogs (OPACs). In order to give readers additional information, Libraries has used various APIs for integrating information from the Internet into OPACs . However, inconsistent APIs may increase the difficulties of maintaining OPACs. Various resources have been quickly developed on the Internet since Tim BernersLee invented World Wide Web in 1990s. With the developed Internet technology, Semantic Web also matures gradually. Therefore, with linked data and simplifing the procedures of using web information, this study integrates various data on the Internet into OPACs. Besides, this study transforms bibliographic records into the sets of linked data, and provides users to browse and download. Finally, this study uses System Usability Scale (SUS) and interviews to evaluate the usability of the proposed linkeddata-enabled OPAC system to understand users’ acceptance of this system. This study aims to establish an OPAC system that provides information additional to traditional bibliographic records with the technology of linked data. The proposed system was developed by following the life cycle of linked data. The SUS evaluation showed that the system's usability is acceptable for users. The results of interviews demonstrated that it had positive and negative opinions from our participants. They gave positive feedbacks of the system, including: 1) automatically suggestions of search terms; 2) providing book covers’ images; 3) displaying authors’ graphs; 4) providing adapted information of the movies and brief introduction of series. However, some of the participants indicated two negative opinions to improve our system: 1) basic bibliographic columns is lesser; 2) lacking for QR code function. Keywords: Linked Data, Online Public Access Catalog, OPAC , Semantic Web. ii.

(4) 目次第一章緒論 ........................................................................................1 第一節. 研究背景 ........................................................................................... 1. 第二節. 研究目的 ........................................................................................... 3. 第三節. 論文架構 ........................................................................................... 4. 第二章文獻探討 ................................................................................5 第一節. 鏈結資料 ........................................................................................... 5. 第二節. 線上公用目錄 ................................................................................. 22. 第三節. 使用性評估 ..................................................................................... 26. 第三章研究方法 ..............................................................................30 第一節. 資料集 ............................................................................................. 30. 第二節. 系統開發環境 ................................................................................. 33. 第三節. 系統流程與架構 ............................................................................. 35. 第四節. 系統評估方法 ................................................................................. 38. 第四章系統發展與評估 ..................................................................40 第一節. 鏈結資料集與索引建置 ................................................................. 40. 第二節. 系統建構 ......................................................................................... 47. 第三節. 系統展示 ......................................................................................... 55. 第四節. 系統評估 ......................................................................................... 60. iii.

(5) 第五章結論與建議 ..........................................................................81 第一節. 結論 ................................................................................................. 81. 第二節. 未來建議 ......................................................................................... 82. 參考文獻 ..............................................................................................85 附錄. ..............................................................................................90. 附錄一. SUS 系統使用性尺度量表 ............................................................ 90. 附錄二. 訪談逐字稿 ..................................................................................... 91. iv.

(6) 表次表 2 - 1 LOD Datasets 統計表 ................................................................... 15 表 2 - 2 使用性評估法分類 ........................................................................ 27 表 3 - 1 書目資料範例 ............................................................................... 31 表 3 - 2 本系統建置工具彙整 ................................................................... 34 表 4 - 1 書籍資料欄位列表 ........................................................................ 40 表 4 - 2 對映檔局部內容 ........................................................................... 42 表 4 - 3 對映檔段落解釋 ........................................................................... 43 表 4 - 4 鏈結資料欄位對映表 ................................................................... 44 表 4 - 5 Solr 參數解說................................................................................. 47 表 4 - 6 VIAF 查詢網址 .............................................................................. 49 表 4 - 7 海明威之 VIAF 紀錄 .................................................................... 50 表 4 - 8 SPARQL 查詢語法 ........................................................................ 50 表 4 - 9 書籍封面來源網址 ....................................................................... 51 表 4 - 10. ISBN 查詢網址 ......................................................................... 52. 表 4 - 11. SPARQL 查詢語法 ................................................................... 53. 表 4 - 12. SPARQL 查詢語法 ................................................................... 53. 表 4 - 13. SPARQL 查詢語法 ................................................................... 53 v.

(7) 表 4 - 14. 訪談編碼結果 .......................................................................... 60. 表 4 - 15. 北市圖之 SUS 問卷原始分數 ................................................. 77. 表 4 - 16. 本研究之 SUS 問卷原始分數 ................................................. 78. 表 4 - 17. 北市圖之轉換後 SUS 分數 ..................................................... 79. 表 4 - 18. 本研究之轉換後 SUS 分數 ..................................................... 80. vi.

(8) 圖次圖 2 - 1 在語意網中資源與連結可擁有類型 .............................................. 6 圖 2 - 2 Semantic Web Stack ......................................................................... 7 圖 2 - 3 RDF 圖示 ........................................................................................ 8 圖 2 - 4 LOD Life Cycle .............................................................................. 13 圖 2 - 5 LOD 資料雲 .................................................................................. 16 圖 2 - 6 Rich Snippets .................................................................................. 17 圖 2 - 7 Knowledge Graph ........................................................................... 18 圖 2 - 8 查詢 50 位 1945 年出生的作者 .................................................... 20 圖 2 - 9 以孫文作為檢索詞查詢 VIAF ................................................... 21 圖 2 - 10 SUS 問卷題項 ............................................................................. 28 圖 2 - 11 SUS 分數量尺 ............................................................................. 29 圖 3 - 1 系統流程圖 .................................................................................... 35 圖 3 - 2 系統架構圖 .................................................................................... 36 圖 4 - 1 Solr 資料匯入畫面........................................................................ 46 圖 4 - 2 系統元件圖 ................................................................................... 48 圖 4 - 3 書籍檢索之畫面 ........................................................................... 56 圖 4 - 4 書目瀏覽之畫面 ........................................................................... 57. vii.

(9) 圖 4 - 5 檢索頁面之資訊來源 ................................................................... 58 圖 4 - 6 瀏覽頁面之資訊來源 ................................................................... 59 圖 4 - 7 本系統之自動建議功能 ............................................................... 62 圖 4 - 8 北市圖館藏系統之自動建議功能(無效)..................................... 62 圖 4 - 9 本系統之層面檢索 ....................................................................... 64 圖 4 - 10 北市圖館藏系統之層面檢索 ..................................................... 64 圖 4 - 11 本系統之檢索結果清單 ............................................................. 66 圖 4 - 12 北市圖館藏系統之檢索結果清單 ............................................. 66 圖 4 - 13 本系統之作者總覽圖表 ............................................................. 68 圖 4 - 14 本系統之基本書目欄位 ............................................................. 69 圖 4 - 15 北市圖館藏系統之基本書目欄位 ............................................. 70 圖 4 - 16 本系統之詳細書目頁籤 ............................................................. 71 圖 4 - 17 北市圖館藏系統之詳細書目頁籤 ............................................. 72 圖 4 - 18 本系統之電影改編資訊 ............................................................. 73 圖 4 - 19 本系統之系列作品資訊 ............................................................. 74 圖 4 - 20 北市圖館藏系統之相關書籍推薦 ............................................. 75 圖 4 - 21 北市圖館藏系統之 QR code 功能 ............................................. 76. viii.

(10) 第一章. 緒論. 網路技術的發展，使得各項應用快速發展，在網路資料方面從 Web2.0 時代的文件網路(Web of Documents)促成了鏈結資料(Linked Data)。鏈結資料加入了開放資料(Open Data)的概念後，建立了許多不同領域的資料集，例如最著名的百科知識類資料集，DBpedia。館藏檢索系統是讀者接觸圖書館館藏的重要橋樑，以往讀者使用館藏檢索系統時，僅能得知館藏的編目資訊，無法從中了解該館藏與其他相關館藏的關聯性。利用鏈結資料的概念描述，協助書目資料被瀏覽、探索，從中了解作者與作品之間豐富的館藏網路，此外透過鏈結資料技術能簡化館藏檢索系統匯入外部資訊的流程，使流程一致而且相通性高。本研究的主旨在於運用鏈結資料技術，建構了一套書目鏈結資料系統。全章共分五節，第一節為「研究背景」，第二節為「研究目的」，第三節為「研究限制」，第五節則是「論文架構」。. 第一節. 研究背景. 自 1990 年代，Tim Berners-Lee 發明了全球資訊網（World Wide Web，簡稱 Web）之後，網路上的資源便如雨後春筍般的迅速發展起來。網際網路作為資訊交流的空間，資訊不應只是人類之間交流。智能代理人（Intelligent Agent）技術的突破，使機器（電腦）一定程度能自主運作、模仿人類社會的行為 (Franklin & Graesser, 1997) 。因此在 1998 年 Tim BernersLee 繼而提出語意網（Semantic Web）的概念，他認為語意網就是資料的網路（Web of Data），充滿著機器可理解（Machine-Understandable）的資訊，能像個全球性的資料庫供人類查詢資料（Berners-Lee, 1998）。為了具體實現語意網，在 2006 年 Tim Berners-Lee 提出了鏈結資料（Linked Data）（Berners-Lee, 2006）。他認為語意網並非只是將資料放上. 1.

(11) 網路，應該使資料產生連結，讓人與機器可以探索整個網路。透過鏈結資料，只需擁有部份資料，便能掌握其他相關資料。圖書館目錄過去以來一直擔任著讀者查詢館藏位置的任務，其書目紀錄具有聚集以及指引的功用，因此館藏目錄是使用圖書館資源的入口。隨著科技的進步，圖書館目錄從卡片目錄演變到線上公用目錄（Online Public Access Catalog，簡稱 OPAC），開始由電腦來管理圖書館的館藏資源，不僅使圖書館方便作業，也讓讀者能過透過不同的檢索點以較少的時間取得他們所需要的資源。目前 OPAC 是利用網站提供的應用程式介面（Application Programming Interface, API）進行資料的混搭（Mashup）來豐富 OPAC 增加新穎的內容與功能，如書籍封面圖片、地圖或是社群網站等。然而當 OPAC 混搭的資料越來越多，所需要串連的 API 網址也會越來越多，由於不同的 API 提供者需要使用不同的參數，當 OPAC 使用的 API 數量增加，對於 OPAC 的開發與維護也將會越來越困難與複雜。利用鏈結資料之超連結向外探索更多相關資源，透過統一且一致的查詢語言來簡化資料混搭的步驟，可降低圖書館管理 OPAC 的成本。 Hannemann（2010）認為以往圖書館資料格式不易被異質機構利用，降低其他領域接近並理解圖書館的機會。在現今大部分圖書館仍使用傳統機讀格式，此乃圖書館專屬之資料格式，若採用通用型的鏈結資料格式，可讓圖書館資料更易於其他領域的專家理解與運用。圖書館的編目工作是耗時且費力，在同一作品有多種版本、不同媒體呈現方式等狀況，使管理變得複雜。 Tillett（2012）認為對於被重複翻譯或發行的作品，系統應讓編目員能快速連結到全球網路中存在的作品/表現形描述資料，並且連結到現存的名稱及主題權威控制詞彙。若採用鏈結資料格式，註冊之詞彙集可重複使用於資料之描述工作，一次建置，所有人共享及共同維護。因此鏈結資料能夠促進資. 2.

(12) 料利用，提升資料之發現，快速取用其他機構產生的資料，將有關資訊進行最大程度的連結，促進網路效益及資料加值。隨著鏈結資料集數量的增加，圖書館可成為資訊利用者，整合更多網際網路上的資訊進入圖書館來充實圖書館檢索結果的品質，整合相關著作讓館藏之曝光率得以增加。此外，圖書館可成為資訊提供者，使書目資料成為鏈結開放資料（Linked Open Data, LOD）的一環，將具有權威控制的書目詞彙開放給其他領域利用，如此一來，不同領域之間的同義詞將能相互串聯，為其他圖書館領域外的網路開發者降低資料轉換的困難。若能將資料與搜尋引擎，如 Google、雅虎等公司結合而建立索引，也可使圖書館之館藏可見度大為提升。館藏發現對於圖書館服務是非常重要的，鏈結資料為圖書館的館藏和外面的世界創造了互相串聯的途徑，為施受雙方創造雙贏局面。. 第二節. 研究目的. 本研究擬探討如何應用鏈結資料技術提升檢索結果頁面的資訊量。在使用者進行館藏檢索時，能給予使用者較為多元的資訊，除了該作品本身的資訊還提供了其他作品的關聯，讓使用者在館藏檢索系統中不僅能夠檢索館藏還能夠探索館藏。具體而言，本論文之研究目的如下：一、建立一套匯集多種網路資訊的館藏查詢系統本研究所開發之系統，利用鏈結資料技術將維基百科的資料與書目紀錄整合在一起，讓在使用者檢索館藏的過程中可以得到作品與作者的額外資訊。另一方面，本系統亦整合網路書店的商品資訊至書目紀錄之中，外文書選用亞馬遜網路書店，中文書則是選擇博客來網路書店，透過多樣且多元的網路資源能幫助使用者從原有的館藏本身觸及到其他相關的資源。二、提供匯集網路資訊的鏈結書目資料. 3.

(13) 本系統不僅能呈現多樣的網路資訊，還能夠將資訊整合至原有的書目紀錄之中，當使用者自本系統下載書目紀錄，該紀錄除了有原本該館藏的書目資料，亦包含外部網路資源的超連結並且註明該網路資源與該館藏之關係。本系統所提供的書目記錄格式為 RDF 與 JSON 格式，前者為鏈結資料常用格式，後者為網路資源交換的通用格式，兩種格式可讓程式開發者得以再次利用本系統的書目資料。三、透過使用者評估了解使用者實際的書籍檢索情形本研究除了將網路資訊整合至館藏查詢系統之外，並透過使用者的實際使用來了解使用者是否能接受本系統所提供的額外資訊，藉由訪談來了解使用者的個人觀感。. 第三節. 論文架構. 本論文各章組織如下，第一章為研究背景、研究目的與研究限制。第二章為文獻探討，討論鏈結資料與圖書館目錄的相關理論與研究。第三章為研究方法，包含使用之資料集、系統開發環境、系統架構與流程以及系統評估方式。第四章展示系統成果以及使用者回饋，並於第五章提出結論與未來建議。. 4.

(14) 第二章. 文獻探討. 本章主要目的在於探討鏈結資料對線上公用目錄的影響，以及線上公用目錄的發展，本章依序介紹相關概念及研究。全章共分三節：第一節為「鏈結資料」，第二節為「線上公用目錄」，第三節為「使用性評估」。. 第一節鏈結資料隨著語意網的興起，2006 年 Tim Berners-Lee 更進一步提出了所謂的「鏈結資料」，企圖賦予全球資訊網結構化的資料，資料可以在網際網路上自由地相互連結在一起，自動將同一資訊物件的相關資訊予以彙整。將結構化資料發布在 Web 上，並加以串聯使之成為一個機器能理解、富含語意和結構化的資料網路。本節將從語意網的發展、鏈結資料的規範以及相關研究來探討鏈結資料的運用。. 一、語意網. 在 Tim Berners-Lee 發明了全球資訊網之後，有感於網路作為一個資訊的空間，全球資訊網應達成一個目標，不僅是人與人之間的通訊，更要讓機器參與以及協助，故在 1998 年 Tim Berners-Lee 提出語意網的概念。在傳統的網際網路中，文件與文件有超連結關係，但並未指出其關係為何，如圖 2-1（a）；圖 2-1（b）則為語意網之示意圖，相關的文件不但有超連結，而且會標示出此連結關係為何。換言之，語意網中，資源連結會描述該連結之類型屬性。因此， Tim Berners-Lee 開始推廣資源描述框架（ Resource 5.

(15) Description Framework, RDF），使其成為語意網的基礎模型，讓電腦能有語義辨識的功能。隨著相關技術的發展與成熟，如通用資源識別碼（Universal Resource Identifier, URI）、可擴展標記語言（eXtensible Markup Language, XML）以及知識本體（Ontology）等，在 2006 年 Tim Berners-Lee 提出運用鏈結資料（Linked Data）建立語意網，並且認為鏈結資料為實現語意網的具體做法。. 圖 2 - 1 在語意網中資源與連結可擁有類型資料來源：Koivunen, M.-R., & Miller, E. (n.d.). W3C Semantic Web Activity. Retrieved June 19, 2014, from http://www.w3.org/2001/12/semweb-fin/w3csw. 6.

(16) 圖 2 - 2 Semantic Web Stack 資料來源： Semantic Web Stack. (2014). In Wikipedia, the free encyclopedia. Retrieved from http://en.wikipedia.org/w/index.php?title=Semantic_Web_Stack&oldid=578539977. 語意網所涉及的相關技術相當多元，包含了 URI、UNICODE、XML、 RDF、RDFS、OWL、SPARQL 等，可從圖 2-2 的 Semantic Web Stack 了解其中關係，下列個別解釋每一層項目。. 1.. 最底層為通用資源識別碼（URI），利用國際通用的字集（UNICODE），即可支援全世界主要語文的文件交換、處理以及顯示。. 2.. 可擴展標記語言（XML）讓電腦能透過可理解的 XML 編碼提供最基礎的結構化資料，確保各知識本體的整合性。. 3.. 資源描述框架（RDF）和資源描述框架綱要（RDFS）用來描述資源或是資源與資源之間的鏈結型態。三元組（Triple）是 RDF 資料內容的基本結 7.

(17) 構，以 RDF 格式描述的資訊資源會以三元組的方式存在於 RDF 檔案。將資訊實體擺放在三個位置以形成三元組，位置名稱依序分別為 Subject（主詞） – Predicate（述詞） – Object （受詞），如圖 2-3 所示。. 圖 2 - 3 RDF 圖示 4.. 網路本體語言（Web Ontology Language, OWL）提供字彙來描述概念與關係，並定義邏輯規則。. 5.. 規則交換格式（Rule Interchange Format, RIF）在不同規則語言提供交換的格式。利用 SPARQL 查詢語言來查詢任何基於 RDF 建立的資料。. 6.. 統一邏輯層（Unifying Logic）賦予撰寫規則的能力。證明層（Proof）提供一個以 RDF 基礎的語言來准許認證交換。. 7.. 信任層（Trust）則需要一個授信引擎幫助評估是否要相信 Proof 層的結果。. 8.. 使用者介面與應用程式（User Interface & Application）則是架構的最上層，. 8.

(18) 將使人類用戶能夠使用語意網應用程序。. Logic、Proof、Trust 這幾層之標準與功能目前尚未實現標準化，僅僅包含的是為了實現語意網而應當加以實現的想法或概念，因此這些技術視未來開發的狀況而定。. 二、鏈結資料定義及規範. 鏈結資料使網路資料開放並且連接在一起，讓語意網能透過鏈結資料能具體實踐。Berners-Lee(2006)提出鏈結資料的四個原則：. 1.. 使用 URI 為事物命名；. 2.. 使用 HTTP URI 協定讓使用者可以找到這些標記的事物；. 3.. 當使用者用 URI 找東西，用 SPARQL 及 RDF 標準來提供有用的資訊；. 4.. 透過連接其他事物的 URI，以利使用者可以找到更多事物。. 鏈結資料的運用包含資料的發佈（Data Publication）以及資料的使用（Data Consumption）。資料發佈的流程根據 Bauer 和 Kaltenböck 的做法可分為下列八個步驟：（1）分析資料、（2）精簡資料、（3）建立資料模型、（4）選擇適宜的詞彙、（5）指定授權許可、（6）轉換為 RDF 格式、（7）連結其他資料集，以及（ 8）發佈且推廣至鏈結開放資料雲（ Bauer & Kaltenböck, 2011）。資料使用的流程根據 Bauer 和 Kaltenböck 的做法可分為七個步驟，包含了：（1）具體描述使用狀況、（2）評估相關資料集、（3） 9.

(19) 確認使用許可、（4）建立使用模式、（5）管理以及更新資料集、（6）建立綜合服務界面及應用服務，以及（7）建立穩定持續的合作關係（Bauer & Kaltenböck, 2011）。. 除了鏈結資料之外，另有「開放資料」（Open Data）與語意網概念緊緊相關，根據英國開放知識基金會（OKF）對 Open Data 的定義，它具有十一項特點：（1）取得資料之自由、（2）資料再散佈之自由、（3）資料再利用之自由、（4）無技術限制，採用公開檔案格式，沒有技術障礙、（5）姓名標示，授權條款可以指定再散布與再利用的條件、（6）資料完整性、（7）無歧視待遇，授權條款不能對任何人或團體有差別待遇、（8）無用途限制，授權條款不能限制任何人在特定領域內使用資料、（9）資料散布授權條款，授權條款必須適用於所有再散布出去的資料，不需遵守額外的授權條款、（10）授權條款不得專屬於特定產品、（11）授權條款不得限制散布其它作品。. 而當資料的使用可以達成 Open Data 的定義，並且資料的發佈方式是透過鏈結資料完成，加入鏈結資料的技術至開放資料就是鏈結開放資料（Linked Open Data，LOD）的概念。. 整合鏈結開放資料發佈以及使用的流程，可以使用圖 2-4 之鏈結開放資料生命週期圖（LOD Life Cycle）來完整解釋。圖 2-4 為歐盟 CORDIS-FP7 LOD2 （Community Research and Development Information Service - Seventh Framework Programme Linked Open Data 2）計畫的 LOD 2 Stack，依流程順序簡介如下(Linked Data Stack, 2013)：. 1.. 擷取（Extraction）：擷取到的資料可分為兩種，非結構式資料與結構式 10.

(20) 資料，其處理過程有所不同，非結構式資料需經過自然語言處理的三個步驟再轉換成 RDF 格式：. （1）命名實體識別：從文字中取出實體的標籤名稱。. （2）關鍵詞擷取：辨識出主題核心的關鍵詞彙。. （3）關係探勘：從資料來源取出描述實體與關鍵詞的關聯性。. 而結構式資料，如關聯式資料庫以及 XML 格式，可以直接撰寫由轉換工具所提供的對應語言來將資料轉換為 RDF。. 2.. 儲存/查詢（Storage/Querying）：RDF 儲存與 Endpoint 伺服器架設，擁有大量 RDF 資料之後，必須建立儲存空間以產生索引檔讓查詢更具效益。Endpoint 是能夠接受 SPARQL 語言查詢的伺服器，目前已有不少相關的產品，不過載入 RDF 資料以及查詢的執行效率仍不及關聯式資料庫。. 3.. 修訂/創作（Revision/Authoring）：創造新的結構化資訊或是修正已存在的資訊。. 4.. 連結/融合（Interlinking/Fusing）：資料間互相鏈結，當有不同資料出版者提供相同或相似於某實體的資訊時，應當對這些資訊建立連結。. 5.. 分類/加值（Classification/Enrichment）：由於鏈結資料主要是實例資料，因此較缺乏分類或組織，此時可透過加入高等結構來助於聚合資料以及 11.

(21) 有效率地查詢。. 6.. 品質分析（Quality Analysis）：建立一套資料品質評估標準，針對提供資料的專家、來源出處和網路資源的信賴度提供品質的參考數據。. 7.. 演進/修復（Evolution/Repair）：建立修復策略。. 8.. 搜尋/瀏覽/發現（Search/Browsing/Exploration）：對 LOD 資料雲進行搜尋、瀏覽以及探勘，接著將資料回傳給使用者。. 12.

(22) 擷取搜尋/瀏覽/發現. 儲存/查詢. 演進/修復. 修訂/創作. 品質分析. 連結/融合分類/加值. 圖 2 - 4 LOD Life Cycle 資料來源：Linked Data Stack. (2013). Retrieved from http://stack.lod2.eu/blog/ Tim Berners-Lee（2006）提出 Open Data 五星資料評等，用此來註記資料集，等級越高越能方便的被使用者運用，且可以衡量 LOD 的可用性及完整程度。. 1.. 1 星：可以存取且有公開授權（但格式不統一）。. 2.. 2 星：提供結構化格式的資料。. 3.. 3 星：使用非專屬的開放格式。. 4.. 4 星：使用來自 W3C 的公開標準（RDF）來標記事物。. 5.. 5 星：將資料集與其他資料集連結及共享。 13.

(23) 目前鏈結資料已開始廣泛運用於各種領域，如生命科學、地理、社群網路、媒體等各領域， Google 和 Yahoo 等搜尋引擎公司也開始利用鏈結資料來豐富他們的檢索結果。可見透過鏈結開放資料的重新組合可以創造出新的知識與對事物的理解，而這些可帶來在全新的領域上的運用。. 三、鏈結資料的資料集. 截至 2014 年 8 月為止，LOD 已收錄至少 1014 個資料集。由表 2-1 可見 LOD 資料雲是由各種不同領域的資料集所串聯而成，如媒體、地理政府、出版、生命科學等等。. 從圖 2-5 的資料雲圖中可見到 DBpedia 為圖形中心，從顏色的分類上屬於跨領域（Cross Domain）的資料集。DBpedia 是鏈結資料的主要核心，從維基百科的詞條擷取結構化的資料，並且公開發佈在網路上。DBpedia 提供使用者檢索 Wikipedia 資源屬性和關聯的功能，然後可連結至外面的資料庫，如 Youtube 或是紐約時報等。透過語意網技術的導入，使維基百科能有更豐富且創新的應用。也因此，美國科技媒體 ReadWriteWeb 將 DBpedia 選為 2009 年最佳的語意網應用服務（MacManus, 2009）。. 14.

(24) 表 2 - 1 LOD Datasets 統計表. Topic. Datasets. %. Government. 183. 18.05%. Publications. 96. 9.47%. Life sciences. 83. 8.19%. User-generated content. 48. 4.73%. Cross-domain. 41. 4.04%. Media. 22. 2.17%. Geographic. 21. 2.07%. Social web. 520. 51.28%. Total. 1014. 資料來源：Schmachtenberg, M., Bizer, C., & Paulheim, H. (2014). State of the LOD Cloud. Retrieved from http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/. 15.

(25) 圖 2 - 5 LOD 資料雲資料來源：Schmachtenberg, M., Bizer, C., & Paulheim, H. (2014). State of the LOD Cloud. Retrieved from http://linkeddatacatalog.dws.informatik.unimannheim.de/state/. 四、鏈結資料的相關研究. 1.. 鏈結資料的一般應用. 鏈結開放資料是目前鏈結資料最典型的應用。鏈結開放資料自 2007 年開始發展，將可公開使用的資料集依照鏈結資料原則轉換為 RDF 並且上網發佈。鏈結開放資料早期參與者為大學實驗室和公司的研發人員，隨著資料集的增加，其他如 BBC、美國國會圖書館等也開始參與其中。由於鏈結開放 16.

(26) 資料的開放性，參與者只要根據鏈結資料原則發佈資料集即可與其它資料集相連，這使得鏈結開放資料迅速發展。. 在 2009 年 Google 開始使用複合式摘要（Rich Snippets）來豐富其搜尋結果，Google 利用了 RDFa、微格式（Microformats）以及微資料（Microdata）來標記結構化的資料。在 2011 年 Google、雅虎以及微軟三大搜尋引擎公司聯合協作 Schema.org 用來推廣微資料格式。微資料是 HTML 的一部份，目的是要讓機器可以了解網頁內容，並且簡化 RDFa 與 Microformats 的複雜度。透過 Schema.org 所提供的詞彙能使搜尋引擎了解網頁的內容並且進一步知道事物彼此的關聯性。如圖 2-6 所示，使用者可以直接從搜尋結果中得知評論的結果，或是了解專輯之中的曲目及其長度。在 2012 年，Google 推出新服務，知識圖譜（Knowledge Graph），知識圖譜除了顯示其他網站的連結列表，並且提供結構化且詳盡的主題資訊。知識圖譜的資訊來自許多出處，主要包含 CIA 的世界概況和維基百科。如圖 2-7 所示，Google 使用語義檢索從多種來源收集資訊，以提高 Google 搜索的品質。由此可以看出 Google 成功的運用鏈結資料為使用者提供更好的檢索品質。. 圖 2 - 6 Rich Snippets 資料來源：Official Google Webmaster Central Blog: Introducing Rich Snippets. (2009). Retrieved from http://googlewebmastercentral.blogspot.tw/2009/05/introducingrich-snippets.html. 17.

(27) 圖 2 - 7 Knowledge Graph 資料來源：Introducing the Knowledge Graph: things, not strings. (2012). Official Google Blog. Retrieved from http://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-thingsnot.html 2.. 鏈結資料在圖資界的應用. 美國國會圖書館在 2009 年將美國國會圖書館標題表（ Library of Congress Subject Headings, LCSH）用簡單知識組織系統（Simple Knowledge Organization System, SKOS）語法來表述，讓具有權威控制的詞彙在網路上能被公開使用。SKOS 使用資源描述框架來展現與分享控制詞彙，提供機器可以理解的方式表達詞彙結構與概念，以供交換以及再使用。由上述圖 2-2 Semantic Web Stack 可知，RDF 的技術是使用 URI 辨識資源。再加上 SKOS. 18.

(28) 能使用語言標籤，來標示多國語言，因此 SKOS 能透過 URI 聚合相關概念。使用者只需要在瀏覽時點擊已建立 SKOS 的連結，便能瀏覽不同機讀格式或是不同語言的相同概念。若是採用了 RDFa 格式，瀏覽器還可從供人閱讀的 XHTML 中自動探索出機器可得的語義內容。而在 2010 年開始，美國國會圖書館對其鏈結資料集再次強化，繼上半年之 LCSH 之後，再以鏈結資料方式提供下列五種詞表：Thesaurus of Graphic Materials、Relators list for MARC、 Cryptographic Hash Functions、Preservation Events、Preservation Level Roles，後三者為用於保存詮釋資料（Metadata）所使用的詞表（Ford, 2010）。美國國會圖書館的鏈結資料集不僅能夠在網頁上檢索瀏覽，更提供 RDF/XML、 JSON、N-Triples 等格式下載。. 不僅美國國會圖書館發佈鏈結資料，英國大英圖書館（British Library）亦將書目資料以鏈結資料的形式釋出，目前書目資料涵蓋範圍包含已出版書籍以及連續性出版品，共計約 280 萬筆紀錄，未來會繼續延伸至不同類型作品。作為 LOD 的一環，大英圖書館的書目資料連結廣泛，如 VIAF、LCSH、地理資訊等等皆可彼此連通。此外，大英圖書館提供讀者使用 SPARQL 進行語義查詢，如圖 2-8，讓讀者得以利用這些檢索結果。大英圖書館此舉最大的貢獻在於確立 Bibframe 模型，對於部分學科由大英圖書館所建立權威控制詞彙有益於 Bibframe 模型的建立。. 19.

(29) 圖 2 - 8 查詢 50 位 1945 年出生的作者資料來源：本研究整理基於從使用者為中心的概念，過去採用統一標準形勢和結構的權威控制已逐漸轉變為以使用者慣用的語文以及字型為主。2003 年於柏林召開國際圖書館協會聯盟（International Federation of Library Associations, IFLA），由德國國家圖書館（Die Deutsche Bibliothek, DDB）、美國國會圖書館（Library of Congress, LC）和美國國際圖書館電腦中心（OCLC Online Computer Library Center, OCLC）一致同意開發個人名稱的「虛擬國際權威檔」（ Virtual International Authority File, VIAF），2005 年又加入了法國國家圖書館（Biblioth. 20.

(30) èque nationale de France, BnF）。為了解決參與機構進行標目筆對時一名多人、一人多名，或是名稱標目形式差異等情形。由 OCLC 負責軟體開發，使用演算法比對兩權威檔間的個人名稱權威紀錄，並且支援參與機構的慣用語言、字型和拼音等標目形式的需求。到 2012 年，已經有來自 16 個國家的 20 個機構參與 VIAF。VIAF 有助於減少圖書館權威檔案的維護支出，並且讓使用者可以在其各自的國家檢視由其他人所建立的名稱紀錄，促進在任何地方進行跨語言的研究。. 圖 2-9 為以孫文查詢 VIAF 的結果，除了顯示優選款目（Preferred Forms）、作者、作品及內容版本資訊外，還提供多種格式下載，如 XML 格式的 MARC-21 紀錄、RDF 格式的紀錄。. 圖 2 - 9 以孫文作為檢索詞查詢 VIAF 資料來源：本研究整理. 21.

(31) 第二節. 線上公用目錄. 目錄使用研究一直是圖書館界感興趣的課題，其目的在於探討讀者使用目錄的情形、檢索途徑、以及所遭遇的問題，以做為改進目錄及圖書館提供目錄使用指導的參考。而本節將從線上公用目錄的定義及發展來探討線上公用目錄的功能演變。. 一、 OPAC 定義. 自圖書館提供檢索系統讓讀者查找館藏開始，檢索系統就一直有不同的稱呼，一般較為人知的有：電腦目錄（computer catalog）、線上目錄（online catalog）、自動卡片目錄（automated card catalog）、讀者檢索系統（patron access catalog）以及線上公用目錄（online public access catalog）（Hildreth, 1985）。就如同名稱分歧，相關的定義也不盡一致，以自動卡片目錄此名稱而言，線上公用目錄的意涵就是將傳統卡片目錄予以電子化，具有與卡片目錄相同的紀錄內容、紀錄格式與檢索點。. 依據圖書資訊學線上詞典（Online Dictionary for Library and Information Science, ODLIS）對線上公用目錄的定義是：「一個資料庫，由描述書或其他資料的書目紀錄組成，可以透過參考櫃檯旁邊的公用終端機或是工作站執行查詢。大部分線上目錄可以查詢作者、書名、主題和關鍵詞，此外還有其他功能，如提供列印、下載或是輸出書目紀錄到電子郵件」。就此而論，此定義便更具有電腦操作的概念以及提供比卡片目錄更多的檢索點，來幫助讀者更順利檢索館藏。 22.

(32) 隨著網路迅速發展，線上公用目錄也自然會受到影響，產生改變。 Burton(1995)認為 OPAC 在超連結、多媒體等功能的協助下提供多樣化的服務特色，因此將是未來線上公用目錄的主流。徐芬春（1995）認為二十一世紀的線上目錄就是線上圖書館。由此看來，線上公用目錄以今日環境而言，或許可定義為「一個智慧型的閘道，連結或需資訊專家或可由讀者自行上線之所有可能資源；使用者可於圖書館或其他工作、遊樂場所甚至在家裡即可取用閘道所串接的所有資源」（DeHart & Karen, 1990）。雖然目前此定義仍有部分時空侷限，不過線上公用目錄不斷發展，讓線上目錄成為線上圖書館也是指日可待。. 二、 OPAC 發展. 以 Hildreth 的觀點而言，線上公用目錄的發展可依照成長階段分作為三個世代，每一代之間的區隔標準並非由出現時間來劃分，而是依據線上公用目錄所使用的技術特徵（Hildreth, 1987）。而在 1990 年代之後，由於網路高度發展，線上公用目錄開始受到搜尋引擎的挑戰，學者們開始研議新一代的線上公用目錄，其中以 Breeding（2007）所提出的新世代公用目錄最具參考價值。以下解釋三個世代線上公用目錄的演變以及新世代公用目錄應有的特點。. 第一代線上公用目錄出現於 1970 年代末期及 1980 年代初期，僅包含部分卡片目錄，檢索點少，使用上缺乏彈性。因此 Hildreth（1987）指出第一代線上公用目錄的限制，包含：（1）讀者不能在線上看主題標目索引；（2）缺乏參見功能，無法指引讀者到相關的主題標目；（3）讀者輸入的主題標 23.

(33) 目一定要和主題標目完全符合，而且每個字的次序必須相同；（4）大多系統沒有書名、關鍵字、索書號或是讀架目錄功能；（5）主題標目或是書名關鍵字通常沒有提供檢索修飾的功能。大體而言，第一代檢索系統完成卡片目錄中的一部分功能，但卻沒有充分運用電腦檢索功能，因此在檢索之前使用者需要先了解一些詞彙才能順利順利查詢。. 第二代線上公用目錄出現在 1980 年代中期，其檢索特徵包含關鍵字檢索、布林邏輯，使用作品的出版者、語文、出版日等細項來縮小檢索結果等技巧已成為標準功能。許多系統同時具有選項式及指令式兩種檢索方式，在界面上有加強人機互動的功能，較第一代線上公用目錄有所改進，如線上使用手冊、線上參考工具等等，以減少讀者使用線上公用目錄的困難。雖然第二代線上公用目錄在系統上的設計有所改善，但是在使用上仍存在著一些問題，如：讀者檢索失敗的原因為何？讀者檢索到的資料是否為讀者所需？等等問題皆需要再度深入研究（吳美美，1991）。此時期的 OPAC 雖然加入了不少資料庫的檢索特徵，也加入標題檢索以及權威控制的功能，但圖書館自動化的走向仍以滿足館員的日常作業為主，於是表現出控制重於檢索的特性。（Hildreth, 1987）. 第三代線上公用目錄的發展主要是由於第二代線上公用目錄仍然存在著許多問題與困難，因此研究者與設計者致力改善第二代的缺失，發展出更好的線上公用目錄系統。Hildreth（1987）指出，希望第三代線上公用目錄能和讀者做某程度的溝通，可以掌握讀者的資訊需求，並能促進、改善讀者的檢索策略和過程，幫助讀者得到較為理想的檢索結果。因此，第三線上公用目錄除了保留第二代線上公用目錄中較好的功能，還加強主題查詢的功能， 24.

(34) 並以增進讀者和線上公用目錄的互動。1990 年代開始圖書館內提供讀者查詢的界面以圖形化為主，其他如自然語言檢索、智慧判斷的互動技巧也紛紛引進，在相關資料的串聯與人機界面的確做了很大的改善。不過讀者所使用的檢索詞因為無法順利轉換為系統用語，導致使用者在檢索失敗或是資訊過載之間進退兩難，此為普遍存在不易改良的現象。. 有感於搜尋引擎的興起，線上公用目錄在網路時代逐漸不受到使用者的喜愛，學者開始進一步研究線上公用目錄，並稱在 2000 年之後的線上公用目錄為新世代公用目錄（Next-generation Catalogue）。在 2007 年 Marshall Breeding（2007）在 Library Technology Reports 提出了公用目錄應該有的功能，讓新世代公用目錄增加不同議題，因此最具權威的新世代公用目錄定義參考了 Breeding 的說法。關於下一代館藏查詢系統應該有的十二個功能，列舉如下：（1）單一的入口網站、（2）有美感的網頁界面、（3）豐富的內容、（4）層面檢索、（5）簡單的關鍵字檢索界面、（6）相關排序、（7）自動猜測與建議、（8）推薦資料、（9）使用者參與貢獻、（10）RSS 訂閱、（11）結合社群網站、（12）永久連結。. 由於讀者目前身處在數位資源豐富以及網路工具取得容易，大多數的線上公用目錄已經不能滿足讀者的需求，使得圖書館的線上公用目錄使用次數逐漸下降，這反映的事實是讀者現在需要更多樣廣泛的內容，圖書館需要應用其他技術使圖書館的資源更容易取得。. 25.

(35) 第三節. 使用性評估. Preece 與 Benyon（1993）提及有許多的方法可做為介面使用性評估。最常提及的兩種是使用性工程（Usability engineering）與情境調查（Contextual inquiry），說明如下:. (1) 使用性工程（Usabilityengineering）：運用使用性工程途徑，以觀察式評估法是最普遍採用的。問卷調查及訪談用於收集使用者意見的資料。而錄影或自動化的記錄方式則可以捕捉使用者執行基準作業的效能。. (2) 情境調查（Contextual inquiry）：情境調查方法被用來探討關於使用者在其自然的工作環境中所經歷的使用性問題，此方法的前提是使用者與研究人員共同的參與研究調查。情境調查的主要技術是情境訪談，在訪談過程中，使用者與研究人員討論使用者的目標、工作方法、以及使用系統時遭遇到的問題等。並將所收集到的資料，隨後由研究人員與使用者共同分析。. Nielsen（1994）提出之使用性工程（Usability engineering）評估系統，主要在探討使用者使用產品或是系統時所產生的各種問題，並如何與使用者溝通、觀察使用者的工作環境、情境分析等，以找出產品或介面使用性的問題，進而提出其設計準則，以供設計師使用，分別為實驗法（Experiment）、問卷調查法（Questionnaires）、訪談法（Interviews）。. Genuis（2004）認為網站使用性評估法，因評估者與評估時機不同有所區別。專家導向的評估法可在系統設計初期，檢視系統是否有違反設計原則、. 26.

(36) 操作流程不符合一般使用者認知與行為等疏漏。系統設計完成後，則進行使用者評估，目的為蒐集實際使用情況、建議與滿意度等相關資訊,如表 2-2。. 表 2 - 2 使用性評估法分類評估者. 時機. 方法. 適用範疇. 設計者/專家. 設計初始階段. Log 分析法. 利用 Log 資料追蹤與分析使用者行動。. 認知演練法. 透過任務之實際演練,檢視行動符合任務需求的程度。. 專家評估法. 專家依使用性設計準則檢視網站使用性。. 使用者. 設計完成階段. 卡片分類法. 瞭解使用者如何將網站內容予以分類。. 焦點團體. 與使用者面對面討論網站的使用經驗和建議。. 問卷調查. 在任務測試後用以蒐集使用者認知、背景等相關資訊。. 使用性測試. 透過任務觀察、蒐集使用者與系統互動情況之資料。. 資料來源: Genuis, S.K. (2004). Web Site usability testing: a critical tool for Libraries. Feliciter, 50(4), 161-164.. 本研究將 Nielsen（1994）提出的訪談法、問卷調查法、實驗法整理為兩部份，包含任務訪談法與問卷評估兩部份。其中問卷評估採用 Brooke(1996) 提出之系統使用性量表(System Usability Scale, SUS)。該量表針對網站使用. 27.

(37) 時較常遇到的主觀感受提出十個問題，問題採取正反面交叉詢問之技巧，每一題皆是五等第評分，如圖 2-10。. 圖 2 - 10 SUS 問卷題項資料來源:Kortum, P., & Acemyan, C. Z. (2013). How low can you go?: is the system usability scale range restricted?. Journal of Usability Studies, 9(1), 14-24.. 28.

(38) SUS 分數代表使用者對於該系統的綜合評量，可作為不同網站或是不同系統間的比較。SUS 分數是介於 0 到 100 分，其計算的方式是如下：. 1.將奇數題的原始分數減去 1，便可得到這題的應得分數。. 2.用 5 減去偶數題的原始分數，便可得到這題的應得分數。. 3.最後將各題的應得分數相加，乘上 2.5 便可得到總分。. Bangor、Kortum 與 Miller（2009）根據 SUS 分數給予級距與評價，如圖 2-11，分為三個層次範圍，分別為接受範圍（Acceptability Ranges）、級別尺度（Grand Scale）與感官評量（Adjective Rating），三個層次皆有對應的 SUS 分數。由此來看，SUS 分數在 60 分以上即表示可接受，符合最低限度的使用性標準。繼而 Sauro（2011）提出在共計五百個系統研究之中，所得的 SUS 分數平均分數落在 68 分。換言之，一個系統或網站的 SUS 分數若是高於 68 分是優於平均水準，若低於 68 分就是差於平均水準。. 圖 2 - 11 SUS 分數量尺資料來源: Brooke, J. (2013). SUS: a retrospective. Journal of usability studies, 8(2), 29-40. 29.

(39) 第三章. 研究方法. 本章闡述本研究在建置館藏查詢目錄系統時所使用的工具以及流程，最後說明本系統所採用的評估方法，共分四節。第一節為資料集，介紹本系統所採用的示範資料；第二節說明本系統所開發之環境；第三節說明本系統的流程與架構；第四節解釋本系統所採用的評估方法。. 第一節資料集本系統之資料集使用 INEX（Initiative for the Evaluation of XML retrieval, INEX）的競賽資料，INEX 為資訊檢索評估論壇，提供測試資料供使用者評估檢索成效。本研究使用 INEX 2013 年度的競賽資料，共 280 萬餘筆書目紀錄，作為測試資料集，用以模擬圖書館之館藏環境。INEX 資料集之每一筆書目紀錄皆是一份 XML 文件，書籍資料包含一般圖書館使用的資料欄位，如國際標準書號、題名、出版者、頁數、出版日期以及杜威分類號等，表 31 為一份完整書籍資料範例。然而為了凸顯鏈結資料可提供豐富資訊這項特色，本系統並未將所有欄位儲存於資料庫中，資料庫欄位列表參見第四章第一節。. 30.

(40) 表 3 - 1 書目資料範例 <?xml version="1.0" encoding="UTF-8" standalone="no"?> <!DOCTYPE book SYSTEM "books.dtd"> <book> <isbn>000472500X</isbn> <title>Scottish Country Dancing</title> <ean>9780004725000</ean> <binding>Paperback</binding> <label>HarperCollins Publishers</label> <listprice>$14.99</listprice> <manufacturer>HarperCollins Publishers</manufacturer> <publisher>HarperCollins Publishers</publisher> <readinglevel/><releasedate/> <publicationdate>2000-03</publicationdate> <studio>HarperCollins Publishers</studio> <edition>illustrated edition</edition> <dewey>793</dewey> <numberofpages>288</numberofpages> <dimensions><height>50</height><width>440</width><length>600</length><weight>25 </weight></dimensions> <reviews/> <editorialreviews> <editorialreview> <source>Product Description</source> <content>A guide to 100 of the most popular traditional and modern reels as well as common ceilidh and party dances, with explanations of the basic steps and formations and illustrations showing progressions.</content> </editorialreview> </editorialreviews> <images> <image><url>http://ecx.imagesamazon.com/images/I/51F5S358JNL._SL160_.jpg</url><height>160</height><width>11 4</width><imageCategories><imagecategory>primary</imagecategory></imageCategorie s></image> 31.

(41) <image><url>http://ecx.imagesamazon.com/images/I/51F5S358JNL._SL30_.jpg</url><height>30</height><width>21</ width><imageCategories><imagecategory>primary</imagecategory></imageCategories> </image> <image><url>http://ecx.imagesamazon.com/images/I/51F5S358JNL._SL500_.jpg</url><height>475</height><width>33 9</width><imageCategories><imagecategory>primary</imagecategory></imageCategorie s></image> <image><url>http://ecx.imagesamazon.com/images/I/51F5S358JNL._SL75_.jpg</url><height>75</height><width>54</ width><imageCategories><imagecategory>primary</imagecategory></imageCategories> </image> </images> <creators> <creator><name>Royal Scottish Country Dance Society</name><role>Corporate Author</role></creator> <creator><name>Peter Knight</name><role>Editor</role></creator> <creator><name>Royal Scot</name><role>Author</role></creator> </creators> <blurbers/><dedications/><epigraphs/> <firstwords/><lastwords/><similarproducts/> </book>. 表 3-1 為一份 XML 格式之書目紀錄，每一個標籤之間記錄著該本書籍的某樣資訊，例如”<isbn>000472500X</isbn>”代表著該本書籍的 ISBN 編號為 000472500X，其他標籤皆有其代表的意涵，本研究將會自行撰寫可萃取 XML 資訊之閱讀器。. 32.

(42) 第二節. 系統開發環境. 本系統使用之作業系統為 Linux Mint，主要使用的程式語言為 PHP，其他相關的開發語言還有 HTML 5、CSS 3 以及 Java Script 等，主要編寫工具為作業系統內建之文字編輯器。資料庫使用關聯式資料庫 MySQL。. 由於本系統為支援鏈結資料之館藏查詢系統，因此必須將關聯式資料庫進行轉換，在本研究中使用 D2R 伺服器來作為轉換工具，D2R 伺服器是一套將關聯式資料庫模擬成儲存三元組（triple store）的工具，D2R 伺服器會在存取關聯式資料庫時建立一份對映檔（mapping file），使關聯式資料庫中的表格和欄位彼此產生關聯，在使用者檢索時得以進行語義檢索。對映檔可依照需求進行更動，其使用 RDF 以及知識本體概念編寫，管理者需要分析表格中欄位間彼此的關聯，選擇適合的知識本體進行描述，使物件間的關聯得以完善。透過 D2R 伺服器的轉換機制，可以不影響原有的資料庫形態來進行 SPARQL 查詢、瀏覽或是儲存成 RDF 格式。. 本研究所使用的資料集其紀錄達 280 萬筆，因此在使用關聯式資料庫會影響檢索效能。此外，新世代公用目錄本身亦應該提供使用者層面檢索（faceted search）功能。因此為提升使用者檢索速度以及支援層面檢索，本研究使用由 Apache 基金會發行的 Solr 來建置索引，Solr 是開放原始碼的全文檢索伺服器，以 Java 的函式庫 Lucene 為核心。而 Lucene 是一個基於 Java 的全文檢索函式庫，它可為應用程式提供索引和搜索功能。Lucene 目前亦是 Apache 基金會中的一個開放原始碼的產品。Solr 底層的核心技術是使. 33.

(43) 用 Lucene 來實現，Solr 將資料建立索引幫助使用者進行全文檢索，並且以 HTTP 協定的方式提供 Web service，方便各種程式語言傳遞資料。. 最後本研究將上述提及的工具整理為表 3-2 並且簡述其功能。. 表 3 - 2 本系統建置工具彙整工具. 功能簡述. Linux Mint. 作業系統環境. PHP、JavaScript、. 本系統建置之程式語言，. HTML 5、CSS 3 文字編輯器. 撰寫程式的開發工具. MySQL. 儲存書目紀錄的關聯式資料庫. D2R. 轉換關聯式資料庫為三元組之工具，以及提供 SPARQL 查詢. Solr. 建置索引、層面檢索. 34.

(44) 第三節. 系統流程與架構. 圖 3 - 1 系統流程圖. 本系統的設計分為「資料處理」與「資料呈現」兩個階段，圖 3-1 為本系統從資料的處理到呈現給使用者的整體運作流程圖。首先進入「資料處理」階段，系統後端使用自行撰寫的 XML 處理器（XML Parser）將原始書目資料讀入關聯式資料庫，接著使用索引工具與轉換工具建置索引庫（Index DB）與三元組儲存庫（Triple Store）；接著進入「資料呈現」階段，當使用者（User）關鍵字（Keyword）後，將符合的書目紀錄取出（Record Match）；接著將紀錄中的關鍵字送往其他資料集（如 DBpedia）進行二次查詢（Endpoint Query），鏈結資料集使用 SPARQL 語法查詢，非鏈結資料集使用 RDF 包裝器（RDF. 35.

(45) Wrapper）完成之；再來將所取得的資料進行整合（Data Integration）並且呈現（Data Display）給使用者。若使用者對於感興趣的關鍵字進行點擊（Interaction），本系統會將點擊的關鍵字再次送入系統重複執行上述流程。. 圖 3 - 2 系統架構圖. 圖 3-2 為本系統之系統架構圖，分別以資料層、資料取用整合層、應用層與網路資源等四個部分做說明。. 一、資料層：本系統的資料取用來自於兩個資料庫，其一為存放書目資料的資料庫，由於是關聯式資料庫，因此本系統存取該資料庫之前需要轉換為三元組儲存庫；另一個則是經過斷詞過後的索引庫，因為書目紀錄數量龐大，為了要快速取得符合關鍵字的書目紀錄。. 36.

(46) 二、資料存取整合層：本系統使用鏈結資料集作為額外資料來源，因此需要設定 SPARQL 查詢以及彙整回傳的資訊。. 三、應用層：本系統在此層級中提供檢索介面、層面分類檢索與自動建議。檢索介面負責呈現各個網頁元件的擺置、畫面的呈現方式等；層面分類幫助使用者過濾檢索結果；自動建議可幫助使用者輸入檢索詞彙時自動補上剩餘字串。. 四、網路資源：本系統需要透過存在於網路上的各類資料集來給予本系統相關資料呈現給使用者，而各個資料集又彼此相串連成為資料網，使本系統得以提供使用者除了作品本身的額外資訊。. 依據上述之系統架構，本系統最終可達成以下功能：. 一、使用者使用關鍵字進行檢索，系統回傳之查詢結果可結合 DBpedia 與 LibraryThing 等語意網服務來產生相關作品簡介、作者介紹、套書介紹、電影改編資訊等。. 二、本系統具有自動建議以及自動修正功能，故使用者在檢索過程中無需擔心輸入錯誤以及不清楚使用正確主題詞。. 三、透過虛擬國際權威檔（Virtual International Authority File，VIAF）輔助，可使用不同語言檢索同一物件實體，使用者無需思考該實體之原始名稱。. 四、書目紀錄使用 RDF 方式儲存，提供讀者下載。每一筆紀錄皆擁有靜 37.

(47) 態 URI 供使用者方便查找，也可讓開發者再利用。. 第四節. 系統評估方法. 本研究為建置鏈結資料的館藏查詢系統，為了瞭解本系統是否達到預期的效用，以及是否容易上手。本研究將系統評估方法為兩部份，包含任務訪談法與問卷評估兩部份。前者的目的在是為了瞭解使用者實際使用的情形以及使用過後的感想，藉此來評估系統呈現的資訊是否能吸引使用者興趣，而後者則是為了瞭解系統的使用性。. 本研究選擇了臺北市立圖書館（以下簡稱為北市圖）之館藏查詢系統來作為與本系統比較的對照組。由於北市圖的查詢系統所呈現出的資訊可作為國內一般圖書館的基本準則，以此為基礎的狀況下，本研究希望在加入鏈結資料技術後的系統，能帶給使用者不同的感受。. 一、任務訪談法. 本研究設計二項任務操作給予受試者操作兩個系統，分別是書名檢索與作者檢索。書名檢索為研究者給予受試者一則書籍的題名，請受試者進行檢索，完成檢索後，請受試者觀察系統畫面所呈現的資訊；而作者檢索為研究者給予受試者一作家姓名請受試者檢索之，並且從系統返回的結果清單選擇一筆書目請受試者檢視之，最後請受試者觀察系統畫面所呈現的資訊。受試者在進行過研究者給定的任務之後，研究者會對受試者進行簡易的訪談，訪談採用非結構式訪談法。為使本研究欲觀察之項目明確清晰，在訪談的過程. 38.

(48) 中研究者會對受試者強調只需觀察館藏查詢系統所呈現出的資訊，對於介面外觀、書籍借閱等延伸功能受訪者可無需關注，因此受訪者所談論的差異僅限於資料呈現畫面。. 訪談後，研究者依照訪談過程所錄下的錄音檔轉譯為逐字稿，以文字呈現受訪者與研究者的訪談內容，以便資料分析。基於研究倫理，逐字稿中以匿名方式處理受訪者之姓名，本研究共訪問了十二位受訪者，五位圖書館館員、五位圖資系學生、一位外文系學生、一位企管系學生，本研究將受訪者編號為 F001 至 F012。. 為區別本文與逐字稿的敘述，逐字稿之內容皆使用斜體顯示，而重要內容再加上底線與粗體顯示，希望以這些重點內容來佐證本研究之正確性。引用的逐字稿，本文會在引用文字的結尾以[受訪者編號_開始行號-結束行號] 標示，完整逐字稿請參見附錄二。. 二、問卷評估. 受試者在接受研究者的訪談後，接下來研究者會請受試者填寫問卷。受試者作答前，研究者亦會對受試者做一次說明，使受試者瞭解此問卷僅需要對於系統的操作性與可用性進行作答即可。本研究所使用的問卷為系統使用性尺度量表(System Usability Scale, SUS)，題項共計十題，問卷題項請參見附錄一。. 39.

(49) 第四章. 系統發展與評估. 本章主要介紹本系統的建置步驟，並且展示本系統最後所呈現出的樣貌，最後進行系統評估共分四節。第一節說明本系統建置前所需要進行的資料處理流程；第二節說明本系統建置步驟；第三節展示本研究所建置的成果；第四節則報告使用者給予的評價。. 第一節鏈結資料集與索引建置由於原始資料均是以 XML 格式提供，為了使此資料集存放於資料庫中，故須先處理 XML 文件。本研究透過 PHP 內建的函式庫 SimpleXml 讀取 280 萬筆 XML 檔案，本研究撰寫一份 PHP 程式讀取每一筆書目紀錄，過濾出適合的欄位後將所有資料寫入 MySQL 資料庫。本系統的資料庫命名為 books，資料庫內有一張資料表 books，表 4-1 為本系統寫入資料表之資料欄位。表 4 - 1 書籍資料欄位列表欄位名稱. 資料型態. 標籤說明. 附註. id. bigint. 流水號. 設定為主鍵. title. text. 題名. author. text. 作者. isbn. bigint. 國際標準書號. publicationdate. int. 出版年. 本研究使用鏈結資料技術建置館藏查詢系統，為支援 RDF 查詢語言，因此本研究透過 D2R 伺服器建置 SPARQL Endpoint。D2R 伺服器是一個將關聯式資料庫發布為鏈結資料的專用工具，支援目前主流的關聯式資料庫如. 40.

(50) Oracle、MySQL、PostgreSQL、Microsoft SQL Server 等，D2R 伺服器會在存取關聯式資料庫時建立一份對映檔（mapping file）參見表 4-2，使關聯式資料庫中的表格和欄位可以彼此產生關聯，在使用者檢索之時得以進行 SPARQL 檢索。對映檔使用 mapping language 編寫，是一種類似 RDF 以及知識本體概念的語言。對映檔可依照需求進行更動，管理者需要分析表格中欄位之間彼此的關聯，選擇適合的知識本體進行描述，使物件之間的關聯得以完善。而 SPARQL Endpoint 是一個網路服務，用於接收 RDF 的查詢語言 SPARQL，然後再回傳查詢結果。透過 D2R 伺服器的轉換機制，可以不影響原有的資料庫形態來進行 SPARQL 查詢、瀏覽或是儲存成 RDF、Json 等主流格式。D2R 主要進行兩個步驟即可建構出 SPARQL Endpoint，分述如下。. (一) 建立對映檔. 為了使關聯式資料庫得以使用 SPARQL 查詢，需透過 mapping language 建立對映檔（mapping file），對映檔可透過一般文字編輯器編寫，表 4-2 為對映檔的局部內容。. 41.

(51) 表 4 - 2 對映檔局部內容. @prefix map: <#> . @prefix db: <> . @prefix vocab: <vocab/> . @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . @prefix d2rq: <http://www.wiwiss.fu-berlin.de/suhl/bizer/D2RQ/0.1#> . @prefix jdbc: <http://d2rq.org/terms/jdbc/> . @prefix bibo: <http://purl.org/ontology/bibo/> . @prefix dc: <http://purl.org/dc/terms/> . @prefix foaf: <http://xmlns.com/foaf/0.1/> . @prefix. owl: <http://www.w3.org/2002/07/owl#> .. map:database a d2rq:Database; d2rq:jdbcDriver "com.mysql.jdbc.Driver"; d2rq:jdbcDSN "jdbc:mysql://localhost/books"; d2rq:username "root"; d2rq:password "XXXXXXX"; jdbc:autoReconnect "true"; jdbc:zeroDateTimeBehavior "convertToNull"; . # Table books map:books a d2rq:ClassMap; d2rq:dataStorage map:database; d2rq:uriPattern "books/@@books.id@@"; d2rq:class vocab:books; d2rq:classDefinitionLabel "books"; . map:books__label a d2rq:PropertyBridge; d2rq:belongsToClassMap map:books; d2rq:property rdfs:label; d2rq:pattern "books #@@books.id@@"; .. 42.

(52) map:books_title a d2rq:PropertyBridge; d2rq:belongsToClassMap map:books; d2rq:property dc:title; d2rq:propertyDefinitionLabel "books title"; d2rq:column "books.title";. 在對映檔的結構上，一張資料表視為一個類別（class），資料表中的每一筆紀錄視為該類別中的實體（individual），而資料表中的欄位則被視為該實例之屬性（attribute）。表 4-3 為對映檔中關鍵的設定段落，並個別說明之。. 表 4 - 3 對映檔段落解釋段落. 說明. map:books a d2rq:ClassMap;. 規定表格 books 為一個類別. d2rq:dataStorage map:database; d2rq:uriPattern "books/@@books.id@@"; d2rq:class vocab:books; d2rq:classDefinitionLabel "books"; map:books__label a d2rq:PropertyBridge;. 建立欄位 label，其類別. d2rq:belongsToClassMap map:books;. 屬於 books，對應的知識. d2rq:property rdfs:label;. 本體與詞彙為. d2rq:pattern "books #@@books.id@@";. rdfs:label，內容為表格. .. books 之流水號（id）規定欄位 title，其類別屬. map:books_title a d2rq:PropertyBridge; d2rq:belongsToClassMap map:books;. 於 books，對應的知識本. d2rq:property dc:title;. 體與詞彙為 dc:title，內. d2rq:propertyDefinitionLabel "books. 容為表格 books 之題名（title）. title"; d2rq:column "books.title"; .. 43.

(53) 為了將資料庫中的資料轉換為具有一致標準描述標籤的 RDF 格式資料，必須在對映檔中選擇適當的描述詞彙替關聯式資料庫的欄位建立關聯，本研究參考已發布鏈結資料之各國家圖書館的知識本體，如大英國家圖書館、德國國會圖書館等，並且參考美國國會圖書館於 2012 年所提出的「Bibliographic Framework as a Web of Data: Linked Data Model and Supporting Services」，配合本系統所選用的資料欄位，得出如表 4-4 的鏈結資料欄位對映表. 表 4 - 4 鏈結資料欄位對映表欄位名稱. RDF 屬性. 說明. id. --. 系統號不轉換. label. rdfs:label. 使用 RDF Schema 的標籤. title. dc:title. 使用都柏林核心集的題名. author. dc:creator. 使用都柏林核心集的創作者. isbn. bibo:isbn. 使用書目本體的 ISBN. publicationdate. dc:issued. 使用都柏林核心集的發行時間. amazon. bibo:annotates. 使用書目本體的註記. 其中，欄位 label 與 amazon 並不存在於 MySQL，而是從對映檔設定中產生而成。欄位 label 中註記書目紀錄中的流水號，欄位 amazon 中記載網址 URL，URL 是本系統抓取亞馬遜網路書店的資訊頁面。. (二) 執行 D2R 伺服器. D2R 伺服器須透過終端機啟動，終端機為 Linux 中的文字操作介面，透過使用者輸入文字指令來進行各項操作，輸入指令後即可啟動 D2R 伺服器。. 44.

(54) 完成啟動後，伺服器將會讀取對映檔來建立鏈結資料服務，使得關聯式資料庫中的資料，經過伺服器轉換後能以 RDF 格式呈現，使用者對 D2R 伺服器下 SPARQL 查詢指令也可正常運行。此外，D2R 伺服器還提供多種存取方式，包含 URI 參照以及鏈結資料的瀏覽與下載。. 本系統為達成層面檢索的功能以及加快檢索效能，使用 Solr 來完成這些目標，Solr 伺服器的建置可依照以下流程進行：. 1.. 環境設定：欲實踐 Solr 的檢索功能，首先必須將 MySQL 之資料匯入至 Solr，而 Solr 需要經過一些設定才能讀取 MySQL 之資料。Solr 的設置是透過內部的 XML 文件進行操控，相關的 XML 設定檔皆放置於 conf 資料夾底下，schema.xml 是用於設定 Solr 如何處理資料欄位，而 solrconfig.xml 可用來設定 Solr 伺服器的各項功能。. 2.. 開啟終端機，輸入指令以執行 Solr 伺服器。. 3.. 資料匯入：完成設定兩個檔案後使 Solr 得以存取 MySQL 資料庫，圖 41 為 Solr 伺服器的資料匯入畫面。匯入 Solr 伺服器的書目紀錄將會同時建立索引檔。. 45.

(55) 圖 4 - 1 Solr 資料匯入畫面. 4.. 建立查詢：完成伺服器啟動與資料匯入後，伺服器會接收來自使用者的查詢詞，使用者可根據需求建立查詢參數，表 4-5 為 Solr 伺服器常用之查詢參數。送出查詢參數給 Solr 伺服器之後，Solr 會回傳查詢結果給使用者，而本系統將解析查詢結果，產生完整的檢索畫面呈現給使用者。. 46.

(56) 表 4 - 5 Solr 參數解說參數. 值. 說明. q. 欄位名:查詢字串. 必填，欲查詢的字串. wt. json || xml || csv || php 等等. 回傳結果的資料格式. indent. true||false. wt 設定為 json,php 需將 indent 設定為 true. fl. 欄位名 1,欄位名 2,..... 想要回傳的欄位. start. 數字. 設定回傳結果資料起始筆數. rows. 數字. 設定回傳結果資料結束筆數. sort. 欄位名 asc || desc. 依照欄位做遞增或遞減排序. 第二節. 系統建構. 完成 D2R 伺服器以及 Solr 伺服器的建置之後，鏈結資料服務的基本雛型已經完成。本研究以上述服務為基礎，為館藏查詢系統實作鏈結資料的加值服務。本研究使用的電腦伺服器主機為臺灣師範大學圖書資訊學研究所所有，建立的系統與服務放置於 http://140.122.104.78/opac/j3.php。圖 4-2 為本館藏查詢系統之元件圖。本系統可分為六個單元，逐一解說如下：. 47.

(57) 圖 4 - 2 系統元件圖. 一、自動建議(Autocomplete). 在使用者開始輸入字串後，透過 JavaScript 即時傳送當下使用者所輸入的內容，並且將內容傳送至 Solr 伺服器中進行比對，將符合內容的前十筆紀錄回傳於系統，整理成一份清單供使用者選擇，使用者選擇清單中的項目之後，系統會自動填入使用者尚未輸入完畢的字串，讓使用者可以進行查詢。. 二、讀取 VIAF(VIAF Reader). 若使用者輸入作者欄位進行查詢，系統會將關鍵字送往 VIAF 所提供之 API 比對最接近的人名，參見表 4-6，此為向 VIAF 檢索海明威（Hemingway）範例。. 48.

(58) 表 4 - 6 VIAF 查詢網址. http://www.viaf.org/viaf/AutoSuggest?query=Hemingway. 若有符合項目，VIAF 將回傳相關人物之 VIAF 編號，本系統會讀取來自 VIAF 的作者紀錄，將作者的出生日、國籍、性別以及著作呈現於系統中，參見表 4-7 ，此為海明威於 VIAF 中的紀錄。. 49.

(59) 表 4 - 7 海明威之 VIAF 紀錄. <ns2:VIAFCluster xmlns="http://viaf.org/viaf/terms#" xmlns:foaf="http://xmlns.com/foaf/ 0.1/" xmlns:owl="http://www.w3.org/2002/07/owl#"xmlns:rdf="http://www.w3.org/1999/ 02/22-rdf-syntaxns#" xmlns:void="http://rdfs.org/ns/void#" xmlns:ns2="http://viaf.org/viaf/terms#"> <ns2:viafID>97006051</ns2:viafID> <ns2:Document about="http://viaf.org/viaf/97006051/"> <ns2:inDataset resource="http://viaf.org/viaf/data"/> <ns2:primaryTopic resource="http://viaf.org/viaf/97006051"/> </ns2:Document> <ns2:nameType>Personal</ns2:nameType> <ns2:sources>. 此外，本系統還會進行延伸查詢，透過 SPARQL 查詢語法將維基百科中對於該作者的生平資訊呈現其中，參見表 4-8，此為檢索海明威生平資訊之 SPARQL 語法。. 表 4 - 8 SPARQL 查詢語法. PREFIX foaf: <http://xmlns.com/foaf/0.1/> PREFIX dbo: <http://dbpedia.org/ontology/> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX. dbp: <http://dbpedia.org/property/>. SELECT distinct ?title. WHERE {{. ?s foaf:isPrimaryTopicOf <http://en.wikipedia.org/wiki/Ernest_Hemingway>. ?x dbo:author ?s. ?x rdfs:label ?title. } union { ?s foaf:isPrimaryTopicOf <http://en.wikipedia.org/wiki/Ernest_Hemingway>. 50.

(60) ?x dbp:author ?s. ?x rdfs:label ?title. } FILTER ( lang(?title) = 'en' ) }. 三、讀取書籍封面(Book Cover Reader). 本系統會盡其可能的將書籍的封面呈現給使用者。此部份有兩種方式進行。其一，若書籍資訊本身附帶 ISBN，本系統會直接連接 LibraryThing 或是 OpenLibrary 取回書籍封面。由於兩者會有書籍封面缺失的狀況發生，為減少此情況發生，本系統使用兩個來源互相補足，當本系統偵測到其一網站無法提供圖片，將會選擇另外一個來源，若兩者皆無法提供圖片，本系統亦會補上替代圖片告知使用者圖片無法取得。 LibraryThing 與 OpenLibrary 皆有提供 API 讓開發者輸入書籍之 ISBN 即可取得圖片，表 4-9 為該等網站所提供之 API 網址，其中 LibraryThing 須額外帶入開發者金鑰，加入會員後可免費取得該金鑰。. 表 4 - 9 書籍封面來源網址來源網站. API 網址. OpenLibrary. http://covers.openlibrary.org/b/isbn/{isbn}-L.jpg. LibraryThing. http://covers.librarything.com/devkey/{apikey}/large/isbn/{isbn}. 其二，若只有書名資訊則是先透過 OCLC 所提供之 API 查詢該書籍之 ISBN，再使用該 ISBN 取得 LibraryThing 或是 OpenLibrary 的書籍封面。表 4-10 為在 OCLC 查詢老人與海（the old man and the sea）之範例。 51.