• 沒有找到結果。

第二章 文獻探討

第一節 鏈結資料

第二章 文獻探討

本章主要目的在於探討鏈結資料對線上公用目錄的影響,以及線上公用 目錄的發展,本章依序介紹相關概念及研究。全章共分三節:第一節為「鏈 結資料」,第二節為「線上公用目錄」,第三節為「使用性評估」。

第一節 鏈結資料

隨著語意網的興起,2006 年 Tim Berners-Lee 更進一步提出了所謂的「鏈 結資料」,企圖賦予全球資訊網結構化的資料,資料可以在網際網路上自由 地相互連結在一起,自動將同一資訊物件的相關資訊予以彙整。將結構化資 料發布在 Web 上,並加以串聯使之成為一個機器能理解、富含語意和結構 化的資料網路。本節將從語意網的發展、鏈結資料的規範以及相關研究來探 討鏈結資料的運用。

一、 語意網

在 Tim Berners-Lee 發明了全球資訊網之後,有感於網路作為一個資訊 的空間,全球資訊網應達成一個目標,不僅是人與人之間的通訊,更要讓機 器參與以及協助,故在 1998 年 Tim Berners-Lee 提出語意網的概念。在傳 統的網際網路中,文件與文件有超連結關係,但並未指出其關係為何,如圖 2-1(a);圖 2-1(b)則為語意網之示意圖,相關的文件不但有超連結,而 且會標示出此連結關係為何。換言之,語意網中,資源連結會描述該連結之 類 型 屬 性 。 因 此 , Tim Berners-Lee 開 始 推 廣 資 源 描 述 框 架 ( Resource

6

Description Framework, RDF),使其成為語意網的基礎模型,讓電腦能有語 義辨識的功能。隨著相關技術的發展與成熟,如通用資源識別碼(Universal Resource Identifier, URI)、可擴展標記語言(eXtensible Markup Language, XML)以及知識本體(Ontology)等,在 2006 年 Tim Berners-Lee 提出運用 鏈結資料(Linked Data)建立語意網,並且認為鏈結資料為實現語意網的具 體做法。

圖 2 - 1 在語意網中資源與連結可擁有類型

資料來源:Koivunen, M.-R., & Miller, E. (n.d.). W3C Semantic Web Activity. Retrieved June 19, 2014, from http://www.w3.org/2001/12/semweb-fin/w3csw

7

圖 2 - 2 Semantic Web Stack資料來源: Semantic Web Stack. (2014). In Wikipedia, the free encyclopedia. Retrieved from

http://en.wikipedia.org/w/index.php?title=Semantic_Web_Stack&oldid=578539977

語意網所涉及的相關技術相當多元,包含了 URI、UNICODE、XML、

RDF、RDFS、OWL、SPARQL 等,可從圖 2-2 的 Semantic Web Stack 了解 其中關係,下列個別解釋每一層項目。

1. 最底層為通用資源識別碼(URI),利用國際通用的字集(UNICODE),

即可支援全世界主要語文的文件交換、處理以及顯示。

2. 可擴展標記語言(XML)讓電腦能透過可理解的 XML 編碼提供最基礎的 結構化資料,確保各知識本體的整合性。

3. 資源描述框架(RDF)和資源描述框架綱要(RDFS)用來描述資源或是 資源與資源之間的鏈結型態。三元組(Triple)是 RDF 資料內容的基本結

8

構,以 RDF 格式描述的資訊資源會以三元組的方式存在於 RDF 檔案。將 資訊實體擺放在三個位置以形成三元組,位置名稱依序分別為 Subject(主 詞) – Predicate(述詞) – Object (受詞),如圖 2-3 所示。

圖 2 - 3 RDF 圖示

4. 網路本體語言(Web Ontology Language, OWL)提供字彙來描述概念與關 係,並定義邏輯規則。

5. 規則交換格式(Rule Interchange Format, RIF)在不同規則語言提供交換的 格式。利用 SPARQL 查詢語言來查詢任何基於 RDF 建立的資料。

6. 統一邏輯層(Unifying Logic)賦予撰寫規則的能力。證明層(Proof)提供 一個以 RDF 基礎的語言來准許認證交換。

7. 信任層(Trust)則需要一個授信引擎幫助評估是否要相信 Proof 層的結果。

8. 使用者介面與應用程式(User Interface & Application)則是架構的最上層,

9

將使人類用戶能夠使用語意網應用程序。

Logic、Proof、Trust 這幾層之標準與功能目前尚未實現標準化,僅僅包 含的是為了實現語意網而應當加以實現的想法或概念,因此這些技術視未來 開發的狀況而定。

二、 鏈結資料定義及規範

鏈結資料使網路資料開放並且連接在一起, 讓語意網能透過鏈結資料 能具體實踐。Berners-Lee(2006)提出鏈結資料的四個原則:

1. 使用 URI 為事物命名;

2. 使用 HTTP URI 協定讓使用者可以找到這些標記的事物;

3. 當使用者用 URI 找東西,用 SPARQL 及 RDF 標準來提供有用的資訊;

4. 透過連接其他事物的 URI,以利使用者可以找到更多事物。

鏈結資料的運用包含資料的發佈(Data Publication)以及資料的使用

(Data Consumption)。資料發佈的流程根據 Bauer 和 Kaltenböck 的做法可 分為下列八個步驟:(1)分析資料、(2)精簡資料、(3)建立資料模型、

(4)選擇適宜的詞彙、(5)指定授權許可、(6)轉換為 RDF 格式、(7)

連結其他資料集,以及( 8)發佈且推廣至鏈結開放資料雲( Bauer &

Kaltenböck, 2011)。資料使用的流程根據 Bauer 和 Kaltenböck 的做法可分 為七個步驟,包含了:(1)具體描述使用狀況、(2)評估相關資料集、(3)

10

確認使用許可、(4)建立使用模式、(5)管理以及更新資料集、(6)建立 綜合服務界面及應用服務,以及(7)建立穩定持續的合作關係(Bauer &

Kaltenböck, 2011)。

除了鏈結資料之外,另有「開放資料」(Open Data)與語意網概念緊緊 相關,根據英國開放知識基金會(OKF)對 Open Data 的定義,它具有十一

(Linked Open Data,LOD)的概念。

整合鏈結開放資料發佈以及使用的流程,可以使用圖 2-4 之鏈結開放資 料生命週期圖(LOD Life Cycle)來完整解釋。圖 2-4 為歐盟 CORDIS-FP7 LOD2 (Community Research and Development Information Service - Seventh Framework Programme Linked Open Data 2)計畫的 LOD 2 Stack,依流程順 序簡介如下(Linked Data Stack, 2013):

1. 擷取(Extraction):擷取到的資料可分為兩種,非結構式資料與結構式

11

資料,其處理過程有所不同,非結構式資料需經過自然語言處理的三個 步驟再轉換成 RDF 格式:

(1) 命名實體識別:從文字中取出實體的標籤名稱。

(2) 關鍵詞擷取:辨識出主題核心的關鍵詞彙。

(3) 關係探勘:從資料來源取出描述實體與關鍵詞的關聯性。

而結構式資料,如關聯式資料庫以及 XML 格式,可以直接撰寫由轉換 工具所提供的對應語言來將資料轉換為 RDF。

2. 儲存/查詢(Storage/Querying):RDF 儲存與 Endpoint 伺服器架設,擁 有大量 RDF 資料之後,必須建立儲存空間以產生索引檔讓查詢更具效 益。Endpoint 是能夠接受 SPARQL 語言查詢的伺服器,目前已有不少 相關的產品,不過載入 RDF 資料以及查詢的執行效率仍不及關聯式資 料庫。

3. 修訂/創作(Revision/Authoring):創造新的結構化資訊或是修正已存在 的資訊。

4. 連結/融合(Interlinking/Fusing):資料間互相鏈結,當有不同資料出版 者提供相同或相似於某實體的資訊時,應當對這些資訊建立連結。

5. 分類/加值(Classification/Enrichment):由於鏈結資料主要是實例資料,

因此較缺乏分類或組織,此時可透過加入高等結構來助於聚合資料以及

12

有效率地查詢。

6. 品質分析(Quality Analysis):建立一套資料品質評估標準,針對提供 資料的專家、來源出處和網路資源的信賴度提供品質的參考數據。

7. 演進/修復(Evolution/Repair):建立修復策略。

8. 搜尋/瀏覽/發現(Search/Browsing/Exploration):對 LOD 資料雲進行搜 尋、瀏覽以及探勘,接著將資料回傳給使用者。

13

圖 2 - 4 LOD Life Cycle 資料來源:Linked Data Stack. (2013). Retrieved from http://stack.lod2.eu/blog/

Tim Berners-Lee(2006)提出 Open Data 五星資料評等,用此來註記資 料集,等級越高越能方便的被使用者運用,且可以衡量 LOD 的可用性及完

14

目前鏈結資料已開始廣泛運用於各種領域,如生命科學、地理、社群網 路、媒體等各領域, Google 和 Yahoo 等搜尋引擎公司也開始利用鏈結資料 來豐富他們的檢索結果。可見透過鏈結開放資料的重新組合可以創造出新的 知識與對事物的理解,而這些可帶來在全新的領域上的運用。

三、 鏈結資料的資料集

截至 2014 年 8 月為止,LOD 已收錄至少 1014 個資料集。由表 2-1 可 見 LOD 資料雲是由各種不同領域的資料集所串聯而成,如媒體、地理政府、

出版、生命科學等等。

從圖 2-5 的資料雲圖中可見到 DBpedia 為圖形中心,從顏色的分類上 屬於跨領域(Cross Domain)的資料集。DBpedia 是鏈結資料的主要核心,

從維基百科的詞條擷取結構化的資料,並且公開發佈在網路上。DBpedia 提 供使用者檢索 Wikipedia 資源屬性和關聯的功能,然後可連結至外面的資 料庫,如 Youtube 或是紐約時報等。透過語意網技術的導入,使維基百科能 有更豐富且創新的應用。也因此,美國科技媒體 ReadWriteWeb 將 DBpedia 選為 2009 年最佳的語意網應用服務(MacManus, 2009)。

15

表 2 - 1 LOD Datasets 統計表

Topic Datasets %

Government 183 18.05%

Publications 96 9.47%

Life sciences 83 8.19%

User-generated content 48 4.73%

Cross-domain 41 4.04%

Media 22 2.17%

Geographic 21 2.07%

Social web 520 51.28%

Total 1014

資料來源:Schmachtenberg, M., Bizer, C., & Paulheim, H. (2014). State of the LOD Cloud. Retrieved from http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/

16

圖 2 - 5 LOD 資料雲

資料來源:Schmachtenberg, M., Bizer, C., & Paulheim, H. (2014). State of the LOD Cloud. Retrieved from

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/

四、 鏈結資料的相關研究

1. 鏈結資料的一般應用

鏈結開放資料是目前鏈結資料最典型的應用。鏈結開放資料自 2007 年 開始發展,將可公開使用的資料集依照鏈結資料原則轉換為 RDF 並且上網 發佈。鏈結開放資料早期參與者為大學實驗室和公司的研發人員,隨著資料 集的增加,其他如 BBC、美國國會圖書館等也開始參與其中。由於鏈結開放

17

資料的開放性,參與者只要根據鏈結資料原則發佈資料集即可與其它資料集 相連,這使得鏈結開放資料迅速發展。

在 2009 年 Google 開始使用複合式摘要(Rich Snippets)來豐富其搜尋 結果,Google 利用了 RDFa、微格式(Microformats)以及微資料(Microdata)

來標記結構化的資料。在 2011 年 Google、雅虎以及微軟三大搜尋引擎公司 聯合協作 Schema.org 用來推廣微資料格式。微資料是 HTML 的一部份,目 的是要讓機器可以了解網頁內容,並且簡化 RDFa 與 Microformats 的複雜 度。透過 Schema.org 所提供的詞彙能使搜尋引擎了解網頁的內容並且進一 步知道事物彼此的關聯性。如圖 2-6 所示,使用者可以直接從搜尋結果中得 知評論的結果,或是了解專輯之中的曲目及其長度。在 2012 年,Google 推 出新服務,知識圖譜(Knowledge Graph),知識圖譜除了顯示其他網站的連 結列表,並且提供結構化且詳盡的主題資訊。知識圖譜的資訊來自許多出處,

主要包含 CIA 的世界概況和維基百科。如圖 2-7 所示,Google 使用語義檢 索從多種來源收集資訊,以提高 Google 搜索的品質。由此可以看出 Google 成功的運用鏈結資料為使用者提供更好的檢索品質。

圖 2 - 6 Rich Snippets

資料來源:Official Google Webmaster Central Blog: Introducing Rich Snippets.

資料來源:Official Google Webmaster Central Blog: Introducing Rich Snippets.

相關文件