• 沒有找到結果。

以語意網為技術推理論文參考文獻間的關聯性

大的負擔,往往變成在搜尋相關知識的同時,整理 和過濾手頭上搜尋到的資料,才是浪費使用者時間 的最大主因。為了讓使用者得到真正想要的資訊,

如何能在適切的時間內取得適量的有用資訊,是絕 大多數使用者的殷切希望。

面對這個問題,當在閱讀大量相關類型的論文 時,一般常用的方法就是人工搜尋和人工過濾判斷 所需要的資訊,在針對這些需要的標題做分類的蒐 集,利用搜尋的方式找尋論文和論文之間對於關鍵 字或是內容的解讀。然而在這種關鍵字文字比對模 式之下,會因文字描述不同而造成檢索回覆不佳的 情形,因為搜尋引擎能讀取文字,卻無法理解文字 中所代表的意思,所以為了使不同的使用者皆能夠 清楚瞭解論文間“參考文獻”的關係,進而可以更快 速地獲取相關的知識資源,本研究提供一個在使用 者或應用系統程式間,對於在一般論文所提供的

“參考文獻”的同時,在琳瑯滿目的論文下,面對著 眾多的參考資料,到底有哪幾篇論文是有共同的參 考資訊及共同被參考的價值,是論文研讀者迫切想 要瞭解的課題。為了能夠推理出文章中參考文獻之 間的關聯性,本體論即在強調知識架構的呈現,藉 由本體論的支援,可達成使用者或系統之間對特定 領域知識的傳達,進而推理出論文彼此間共同引用 和共同被引用的關係,也藉由符合的條件去推理另 一種關係,進而達到語意導向方式的檢索。

研究動機部份則是希望能擺脫過去僅參考單 一論文所產生的“缺乏廣泛性”的問題,而是有一系 列的主題關聯在思考。透過針對某一主題,每個人 有其不同見解的地方,進而有另一種新的思維來幫 助吸收知識,也希望能看得出該論文對於該主題的 貢獻度,以及此篇論文對研究主題的參考價值性,

再利用推理導出另一種關係式,擺脫以往的學習方 式,不再只是利用關鍵字搜尋而得到知識,而是利 用關聯式的方法再吸收知識。

2. 研究目的和方法

語意網(B. Abrahams, 2005)技術除了其有基 本的檢索功能,同時也擁有推理的能力,若能善加 利用,更能對資訊篩選和準確有一定的作用。因此

本 研 究 主 要 是 利 用 全 球 資 訊 網 的 創 始 人 Tim Berners-Lee 博士所提出的網際網路架構-語意網

(Semantic Web)為研究方法,將論文中有意義的 內容結構化,藉以查出其共同檢索的目的;並將論 文中共同引用以及被共同引用的地方規則化,進而 得以推理出所有論文共同引用和被共同引用的結 果;利用規則性加上判斷式,導出另一種關係,並 將所有論文的關聯性作本體論(Ontology)(Enhong Chen, 2005)之建置,就可以清楚地知道彼此的關 係。以期望能讓使用者透過推理之後,發現論文中 隱藏在背後的事實和意義,並且進一步地判斷其論 文的重要性,同時也可以看出該主題在每一篇論文 有什麼不同的應用性,也希望能讓使用者能利用語 意網的好處,使其能更快速地吸收所需要的知識和 訊息。

本研究在作法上不再只是單純的機械化列出 所有搜尋的條件,而是系統利用本體論建構好之 後,當一般論文提供“參考文獻”的同時,也可以利 用檢索功能,查出參考文獻大致的內容,和一些基 本資料;更可以利用語意網的推理,導出每篇論文 底下參考文獻是否為同一篇或是不同主題下的論 文皆是引用此篇參考文獻,幫助使用者在最短的時 間內得到此篇參考文獻的價值和應用,同時搜尋的 結果也因推理的關係有更準確的答案。

2、文獻探討

本章節主要為文獻探討的部份,介紹與本研究 相關的知識及研究參考文獻,其中包含語意網

(Semantic Web),以及本研究實做面的技術探討 等,以促成此系統的完成。

1. 語意網的介紹

由全球資訊網(World Wide Web)的創始人-

Tim Berners-Lee 博 士 於 1999 年 提 出 語 意 網

(Semantic Web)的架構。它是一種可以處理全球 資訊網上文件語意的技術,一種有別於只是文字敘 述的網頁,同時也具有學習的能力和解讀的能力,

還能進行邏輯判斷和推理,以提供更精準的答案給 網路使用者。換句話說,就是能夠瞭解網頁上所代 表真正的意思,進而做相對應的處理,同時語意網

能否發展成功,其基礎架構的完整性格外重要。圖 2-1是W3C所制定的語意網階層架構。

圖2-1: 語意網的階層式架構 2. OWL(Web Ontology Language)介紹 W3C提出了OWL(Web Ontology Language)

為本體論描述語言,用來補強RDF/RDF(s)的 不足。OWL主要是由DAML和OIL所結合演變而 來,OIL是第一個本體論語言結合敘述邏輯的元 素,以網路標準語言(XML、RDF)的方式呈現。

W3C為了應付不同的有效率推理的支援和表達的 方便性的需求,便進一步將OWL定義成三個不同 子語言,詳細說明如下:

OWL Full:提供完整的RDF語法,並可在一個 本體(Ontology)中增加預先定義的(RDF、OWL)

詞彙的意義,也因此並沒有任何的推理軟體能夠完 整支援的OWL Full特色的推理。在三種等級中是 具有最強的表達能力和完全自由的RDF語法。

OWL DL:OWL DL(Description Logic)提供 需要較強的表達能力的推理系統的使用者。它支援 OWL語言的所有結構以及具有描述邏輯處理和良 好計算性質的推理功能。本研究將以OWL DL語言 來建構本體知識。

OWL Lite:用於提供那些只需要一個類別層 次和簡單的條件的使用者。例如:當它支持基數限 制條件時,它只允許基數的值是0或1。與其他更具 有表現能力的相關規格比較起來,提供處理OWL Lite的工具相形比較簡單。

3. 語意網之實做面技術探討 本體論的建置(Protégé)

Protégé(Matthew Horridge, 2007)是由史丹佛 大 學 醫 學 資 訊 中 心 (SMI-Standford Medical

Informatics)所開發。它為一開放式、Java-Based 的圖形化應用程式,以建立、存取、顯示及維護本 體論與知識庫,亦可延伸作為以知識庫為基礎系

( Knowledge-based System ) 的 開 發 平 台

(Platform)。尤其是提供了Plug-in技術,讓使用 者自行開發子系統附掛於目前支援本體論的系統 中,這可以說是一項重要的主流。它的架構共分三 個層級:使用者介面(User Interface)、Protégé核 心模組(Core Protégé)、長期儲存體(Persistent Storage)。

本體論的推理(Jena)

Jena為惠普研究室所研發出來的JENA API(B.

McBride, 2002)。它可以用來剖析OWL(K. Youn Hee, 2007)文件,還可以利用Jena的推理引擎來定 義未明確表達的其他語句功能,再導入RDF規則進 行推理,例如:A的父親是B,B的兄弟是C,Jena 就可以推理出A的叔叔是C,他的表示方式為:{?A hasfather ?B} {?B hasbrother ?C} -> {?A hasuncle ?C }。下圖2-2為本研究所使用之規則:

圖2-2: 本研究所使用之規則 本體論的查詢(SPARQL)

SPARQL(H. Cherfi, 2007)是3C的RDF數據 工作組所設計的一種查詢語言和協定,主要用於 RDF數據的查詢,語法類似SQL,當安裝Jena API 之後,在Java程序就可以使用,SPARQL主要有以 下四種類型的查詢:

1. SELECT:為返回滿足查詢的一組變量設定,

非常適合於產生應用程序要消費的數據中。

2. CONSTRUCT:為傳回一個圖,其適合於檢 索和轉換RDF。

3. ASK:為傳回一個布林值,說明是否存在查 詢的結果。

4. DESCRIBE:為依賴於實現,接收一個資源