網際網路異質資訊內容整合之模型、語言、語意之研究

(1)

行政院國家科學委員會專題研究計畫成果報告

網際網路異質資訊內容整合之模型、語言、語意之研究

計畫類別：個別型計畫計畫編號： NSC93-2416-H-004-026- 執行期間： 93 年 08 月 01 日至 94 年 07 月 31 日執行單位：國立政治大學資訊管理研究所計畫主持人：諶家蘭報告類型：精簡報告處理方式：本計畫可公開查詢

中華民國 94 年 7 月 21 日

(2)

行政院國家科學委員會補助專題研究計畫

■ 成果報告

□期中進度報告

網際網路異質資訊內容整合之模型、語言、語意之研究

計畫類別：■ 個別型計畫 □ 整合型計畫

計畫編號：NSC 93－2416－H－004－026－

執行期間：93 年 08 月 01 日至 94 年 07 月 31 日

計畫主持人：諶家蘭

共同主持人：

計畫參與人員：

成果報告類型(依經費核定清單規定繳交)：□精簡報告 ▓完整報告

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、

列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

執行單位：國立政治大學資訊管理學系

中華民國 94 年 7 月 31 日

(3)

網際網路異質資訊內容整合之模型、語言、語意之研究

諶家蘭博士國立政治大學資訊管理學系教授 (02)29387692 [email protected]

摘要

在整合的過程中，必須面臨企業間不同來源的資訊內容，諸如關連式資料庫和超文件資料，它們皆儲存於各自不同的資料庫，且有其各自的資料模式與查詢語言來管理與維護這些資料。在面對這些異質的資料來源時，我們可能會面臨到的問題是：如何做內容整合的議題，亦即如何允許對多元資料來源之資料的存取、資料交換的能力，以方便不同來源的資料能夠作相互運算，達成異質性資料的同質化的功效。更進一步達到多元異質資料來源的可攜性、延展性、相容性與通透性。該如何解決這些問題，讓不同來源的資料可以雙向的互相溝通，以達到異質內容整合、內容交換、和運算的目的，是一項值得我們來探討的研究議題。關鍵字：異質資訊整合、內容整合、資料存取、資料交換、相互運算、可攜性、延展性、相容性、通透性

(4)

Abstract

With the multiple data sources from and within the legacy systems and web settings, enterprises are facing the new and multiplying challenges of information integration. In particular, enterprises have to offer B2Bi, web services, and transformation tools between structured data sources such as relational table files and unstructured web sources. The main issues involved consist of data modeling, data exchange, and interoperability such as the system to system auto execution. Only if the structured and unstructured models can be converted in between using the fundamental way of schema and metadata, can the interoperability of query and transaction be executed cross platform and automatically. Further, content integration gives the base of enterprise information and knowledge portal which then in turn leads to the success of business intelligence portal. In this research, heterogeneous information integration using XML and ontology model is developed to tackle this contemporary transformation and interoperability issues. A prototype has created to illustrate the feasibility and valid quality of this research model.

Keywords: Heterogeneous Information Integration 、 Content Integration 、 Data

Access、Data Exchange、Interoperability、Portability、Scalability、Compatibility、 Transparency

(5)

壹、緒論

一、研究動機

1. Ontology 本體論導向之初步異質資訊資源整合 在現今的資訊社會中，資訊科技發展快速，企業資訊經常是以許多不同形式儲存在各個不同的資訊來源中，尤有甚者，因為全球化企業的趨勢影響，地理位置區隔更造成企業資訊分散，因此，必須設法將這些資訊加以整合，企業才能夠辨識他們所擁有的資料之整體價值，然而整合具有分散及異質特徵的資訊，也並非僅對於企業運作影響重大，可以說目前資訊量爆增的時代，這樣的需求也跟隨著不斷地增加。因為經常需要去存取各種異質、分散的資訊來源，為了能夠有效地進行資訊分享，需要解決許多技術上的問題，故在此我們提出一個以本體論為導向的初步異質資訊資源整合模式，希望能夠對這樣的問題有所幫助。要進行資訊整合的工作，首先會面對到的問題就是該如何去找到具有我們所需要資料的資料來源，這是屬於 Information Retrieval 的問題，除此之外，當我們找到適當的資料來源後，該如何與我們所下查詢的系統進行互動，這則是屬於分散、異質系統間的 Interoperability 問題。對異質資料所可能產生的 Interoperability 問題早已被分散式資料庫社群所熟知，其中包括了：結構異質性 (綱要異質性)及語意異質性(資料異質性)，結構異質性所指的是不同的系統以不同的結構來儲存資料，而語意異質性則是考量了一個資訊項目的內容及意義。在了解到這些可能面臨的問題之後，在此我們依據初步轉換架構中所提出的理論架構來設計整合模式，我們希望可以讓使用者透過單一的方式來存取多樣化異質資訊來源，因此系統必須能夠以一種整合的方式來呈現這些資訊來源，以便使用者可以忽略這些異質性。再者，典型的異質資訊整合的方式是採用 Wrapper-Mediator 的三層式架構，由 Mediator 負責做為資訊中介的角色，提供使用者一個統一的方式來存取異質資訊來源，而 Wrapper 就負責與各個異質資訊來源做溝通的工作。除了 Wrapper-Mediator 的三層式架構之外，要達成資訊整合的目標，還需要對欲整合的資訊內容進行塑模(Modeling)的工作。首先，我們必須要提供一個整合所有異質資訊來源的 Global Schema 給使用者，使其能夠以一個統一的觀點來對這些異質性的資料做查詢。但是因為異質資料可能產生的 Interoperability 的問題包括了兩個面：結構異質性和語意異質性，而 Global Schema 這樣的資訊對於整合異質資訊解決其 Interoperability 問題上，僅支援至解決結構異質性的部份，有鑑於語意異質性在異質資訊資源整合工作上為一大重要的問題和困難，因此我們在此也思考能夠解決這個問題的方法，因此我們即引入 Ontology 至我們的異質資訊資源整合的工作中。Ontology 在資訊整合中所扮演的角色，一開始被用來作為”explicit specification of a conceptualization”，因此，Ontology 可以在整合工作中描述資訊來源的語意，並讓內容更加明確，之後，為了希望能夠整合資訊來

(6)

源，Ontology 則被用來作為資訊概念的語意映對之確認，例如知名的整合專案 OBSERVER 等等。此外，在一些方法中，不只是使用 Ontology 來作為內容明確化的工具，也將它當作 Global 查詢模式，或是用來驗證整合的描述，如：整合專案 SIMS、DWQ 等等。由於 XML 至目前已衍然成為一個新興的資料交換標準，其具備有不少的優點包括具有豐富、清晰的表達能力，而且具有很高的擴充性，因此使用 XML 來做為整合的資料模型應該是十分合適的。再者，XQuery 已經在最近成為 W3C 的所認可的標準，對 XML 來說也是一個十分有力的查詢語言，透過 XQuery 的使用，就可以以一個統一的方式，以及標準的介面，來對 XML 作查詢。因此本研究對整體需求作 Conceptual Modeling 後，會產生一個可以用來描述整體資訊資源結構的 Global Schema，而由於 XML 的各項功能及優缺點，我們也選擇以 XML 的方式來表達 Global Schema，而此 Global Schema 可以看成是各個 Local Schema 的整合體。在塑模之後，除了會產生一個用來描述整體資訊資源結構的 Global Schema 之外，也會產生一個用來描述各不同資訊資源彼此之間資訊概念語意映對的 Ontology，Ontology 也有許多種語言可茲描述，比如 RDFS、 DAML+OIL…等等，在此配合現已成標準的 XQuery 查詢語言，並且也可以使系統在彼此運作間具有一致性，我們也選擇以 XML 的方式來描述 Ontology，希望可以藉由結合 XML 與 Ontology 兩者對於整合工作上的優勢，對於解決異質資訊資源整合的問題更有幫助。

二、研究方法

1. Ontology-based Mediator 模式設計 因為我們所設計的整合模式，就是希望可以讓使用者透過單一的方式來存取多樣化異質資訊來源，所以系統必須能夠以一種整合的方式來呈現這些資訊來源，以便使用者可以忽略這些異質性，而採用 Wrapper-Mediator 的三層式架構， Mediator 就能夠負責做為資訊中介的角色，提供使用者一個統一的方式來存取異質資訊來源，因此，在此我們首先就先介紹能夠處理不同資料來源所產生之異質性，以 Ontology 為基礎的 Mediator 模式設計，如圖一。

(7)

【圖一：Ontology-based Mediator 模式】如圖一，我們介紹 XML 與關聯資料庫初步雙向轉換模式和設計相同，分為資料定義與資料操作兩個方向出發，資料定義部分包括 Global Schema 和 Ontology 兩個部份。當前端使用者下查詢時，我們必須提供一個整合所有異質資訊來源的 Global Schema 給使用者，使其能夠以一個統一的觀點來對這些異質性的資料做查詢，因此我們對底層各不同的資訊來源如何塑模，而後 Global Schema 是如何的被建立與修改，便成為系統中必須關心的焦點。因為 Global Schema 是以 XML 文件的方式來表現，因此建立 Global Schema 說明，在建立 Global Schema 時首先必須以一個單一的觀點來整合 Local Data Source Schemas，利用建立 XML 的元素、子元素、屬性與連結來表現這些異質性資料整合後的結構。而修改 Global 資料定義 Definition 建立 Global Schema (Creation) 修改 Global Schema (Evolution) 元素、子元素之新增、刪除與更新元素、子元素的建立修改 Ontology (Evolution) 建立 Ontology (Creation) 概念、屬性、限制與實體的建立概念、屬性、限制與實體之新增、刪除與更新資料操作 Manipulation 查詢 Global Schema 選擇值與模式相稱的查詢選擇性的條件子句屬性的條件子句一般路徑表達法的查詢查詢 Ontology 一般路徑表達法的查詢

(8)

Schema 則說明當 Local Data Source Schema 有修改異動時，在 Global Schema 中如何的做更新。Ontology 的建立是為了解決不同異質資料來源的語意異質性，作為資訊概念的語意映對，因此 Ontology 的建立與修改也是 Mediator 模式設計中不可缺少的一部份。之前提過，Ontology 也是以 XML 文件的方式來表現，在塑模之後，我們利用輔助工具 Protégé 2000 來建立我們的 Ontology，然後將工具所建立之 Ontology 轉成以 XML 文件方式來表達，以便於應用到本系統中，因此建立 Ontology 就說明，如何應用輔助工具建立 Ontology，並轉成 XML 文件的表達方式，而 Ontology 的修改則是說明，當底層資料來源在概念語意映對上發生變化時，Ontology 應該如何的做更新。

資料操作我們探討的是查詢 Global Schema 及查詢 Ontology 兩個部份。查詢 Global Schema，是為了讓使用者能夠了解其所能存取的異質資訊資源的結構，這部份說明，使用者在前端要下查詢指令時，如何能夠透過對 Global Schema 的查詢而顯現出底層資訊資源的整合結構，以方便使用者下查詢指令。而查詢 Ontology 則說明了，當前端使用者下查詢指令之後，如何找出各個概念間語意的映對關係，以及如何將使用者所下之查詢拆解為對應到個別資料來源的子查詢，以及如何安排這些子查詢順序的查詢計畫。

A.建立 Global Schema

因為我們希望可以讓使用者透過單一的方式來存取多樣化異質資訊來源，因此我們就必須要為前端使用者提供一個統一的觀點以方便他們下查詢。在此我們以 Global Schema 來作為這一個統一的觀點。在建立 Global Schema 之前，我們需要對我們現有的資訊資源做塑模的工作，定義出它們之間的 Structural Constructs、Structural Constraints，然後依照 Modeling 的結果，建立 XML 文件來表現 Global Schema。透過 Modeling 的過程可以定義出整合後的資訊資源的整體結構性，我們也利用 XML 元素、子元素…等特徵的建立來表現整合後的資訊資源整體結構，此 Global Schema 與前端的 XQuery 查詢介面就能夠互做搭配，讓使用者可以以單一的方式來查詢多個不同的異質資訊來源。

B.修改 Global Schema

修改 Global Schema 也就是對描述 Global Schema 的 XML 文件做包括對元素、子元素的新增、刪除與更新。因為 Global Schema 是依據對 Local Data Source Schemas 做 Modeling 後產生的結果，當 Local Data Source Schema 有更動時，勢必會對 model 有所修正，修正後會反映到 Global Schema 的更動，通常的情況是當 Local Data Source Schema 有新增一個屬性，或是新增一個元素…等等，則在未影響 Structural Constraint 的情況下，在 Global Schema 部份也會同樣在該結構下新增一個相對應的元素或子元素，但是若影響整體結構，或是結構間的階層關係等，則需再做 Modeling 之工作，以求整合結構正確無誤，以避免影響使用者做查詢時可得的訊息錯誤，以及之後的查詢處理錯誤。

(9)

C.建立 Ontology

建立 Ontology 就是要為不同的異質資訊來源找出其中的映對關係，因為 Ontology 可以清楚的來表達不同資訊來源他們彼此之間概念上的映對以及關聯，因此我們在塑模之後，就可以藉助使用 Ontology 來描述 Local Data Source 所要表現的概念，和他們之間語意上的映對。有了 Ontology 這個語意上的映對描述，使用者所下的查詢到系統中後，就能夠更正確地把其所需要的分散在各處的資訊擷取出來。使用輔助工具 Protégé 2000，通常我們利用 Concept 來表現塑模後所形容的實體部份，然後也會定義 Concept 和 Concept 之間的階層關係，另外，在 Ontology 中我們也以 Slot 來表現相關的屬性，另外一些 Structural Constraint 也可以在 Ontology 中以 Facet 來表現。另外也可以為抽象化的概念建立其中的一些特殊化的實例來代表一些特定的狀況。 D.修改 Ontology 修改 Ontology 也就是對概念(Concept)、屬性(Slot)、限制(Facet)、實體(instance) 的新增、刪除與更新。當異質資訊來源有更動時，就有可能會影響到 Ontology 對這些概念的描述。舉例來說當資料來源為關聯資料庫，新增一個關聯表，通常在塑模的層次是增加了一個實體或是類別，而對應到 Ontology 中可能就是新增一個概念，然而，這個概念仍然需要依據塑模時與其他實體或類別間的關聯，來決定與其他概念間的階層關係，除此之外，概念的刪除與更新也是類似的情況，只不過要注意的是當概念刪除與更新時是否會影響到與其他概念間的映對關係。概念中屬性的更新通常也對應到對概念所擁有的資訊的描述，例如關聯資料庫中的一個關聯表，關聯表中所擁有的資訊就是所有它的屬性，這在通常也對應到 Ontology 中的屬性，因此當關聯表的屬性更新時，對應到 Ontology 中的屬性也可能需要做更新。只是必需注意的是，在更新這些屬性時，若是會影響到語意上的映對關係或是關聯性，則也必須要在更新屬性時同時要更新在屬性定義時同時會定義的限制，以維持 Ontology 整合異質資訊來源表現其概念與語意的完整性和一致性。至於 Ontology 中實體的修改則是在資料來源的特定狀況發生異動時進行。

E.查詢 Global Schema

在資料操作方面，在 Global Schema 建立完成後，我們就可以藉由查詢 Global Schema 將整合過後的整體資訊資源結構呈現給使用者。由於 Global Schema 是以 XML 文件的方式來描述，因此藉由 W3C 標準 DOM(Document Object Model)物件模型的使用，就可以找出整個 Global Schema 的樹狀結構，並且因為要配合使用者在前端下 XQuery 查詢指令，所以在此我們使用一般路徑表達法(Regular Path Expression)的查詢，此類查詢是指找出參考到一特殊值所連接的所有物件，藉由

(10)

找到連接的所有物件，我們就能夠準確地將整條路徑查詢出來，並且可以在之後拆解查詢、安排查詢計畫時使用。 F.查詢 Ontology Ontology 建立完成之後，我們就可以藉由查詢 Ontology 來找出異質來源間的映對關係，因為 Ontology 亦為一 XML 文件，因此查詢時仍然會搭配 DOM 物件模型的使用，並且透過幾種主要查詢 XML 文件的查詢類型，包括選擇值 (Selections Value)的查詢、選擇性的條件子句(Optional Predicates)、屬性(Predicates on Attributes)的條件子句、一般路徑表達法(Regular Path Expressions)的查詢等，運用這些查詢類型我們可以查出定義在 Ontology 中的概念、屬性和它們的結構化限制關係(Structural Constraints)等，而這些資訊再投入到預先寫好推論規則中，我們就能夠找到這些概念間彼此在語意上的映對關係，找到這些關聯性對於拆解使用者所下查詢至成為對應到各個 Wrapper 可用的子查詢是十分重要的。 2. Ontology-based Wrapper 模式設計 在本研究中，Mediator 的模式設計是希望能以統一的觀點來整合各個不同的異質資訊來源，然而 Wrapper 的模式設計則是對應每一個不同的資訊來源，會設計一個與其相對應之 Wrapper 以適應該資訊來源對資料的處理方式，在本研究中 Wrapper 的模式設計也會配合在 Ontology 的基礎下，對拆解後的子查詢，利用推論出來的映對規則，到各異質資訊來源做相對應的處理，因此我們的 Ontology-based Wrapper 模式設計就如圖二所示。 【圖二：Ontology-based Wrapper 模式】 如圖二，在本研究中 Wrapper 的模式設計僅討論資料操作方面，因為本研究是要去整合一些既有的異質資訊來源，而這些資訊來源其資料應該已經在其建立之初就被定義，因此，在此模式設計就不納入資料定義部分。在資料操作部份，我們認為 Wrapper 應該具有查詢 Local Data Source，和包裝查詢結果的能力。查詢 Local Data Source 說明了該 Wrapper 應該如何將使用者所下之查詢，深入到其對應的資料來源，真正地擷取出所需要的資料，而包裝查詢結果則是說明了， Wrapper 如何將查詢出來的結果以一個統一的方式來做包裝，而使包裝後的結果

資料操作 Manipulation

查詢 Local Data Source

包裝查詢結果

(11)

能夠在傳回前端時讓使用者了解，或是在有需要時回傳到 Mediator，而這個包裝後的結果也必須能讓 Mediator 了解，以便於讓 Mediator 能夠重新做結果整合的工作。

A.查詢 Local Data Source

Wrapper 要查詢其相對應的 Local Data Source 時，由於由 Mediator 送過來的子查詢仍然是 XQuery 的形式，但是因為 Local Data Source 處理資料的方式都各有不同，也有適用於該資料來源的查詢語言，所以當子查詢由 Mediator 傳送至 Wrapper 時，做適當之轉譯是有必要的，例如將 XQuery 轉譯為 SQL，而這部份在本研究中借助在前一個雛形系統－XML 與關聯資料庫初步雙向轉換雛形系統所得之查詢轉譯的經驗，就能夠順利將幾種 XML 查詢類型轉成為 SQL 查詢。查詢轉譯在 Wrapper 中是運作的一個重要部份。 B.包裝查詢結果由於 XML 在本研究中作為一個資訊的共通格式，因此當不同的 Data Source 查詢出不同形式的資料，就必須先加以包裝成 XML 文件，再將包裝後的結果回傳或做進一步的處理。舉例來說如：關聯資料庫查詢的結果為一筆一筆的 Record，則 Wrapper 要回傳結果的時候就必須將之重新包裝成 XML 文件，以便於使用者觀看查詢結果或是再進一步做結果整合。 3. Ontology-based 異質資訊資源整合雛形系統設計 A.情境描述在本研究中由於沒有實際案例可茲參考，於是僅能以模擬的方式創造一個簡潔但又希望能夠符合商業環境且較具代表性的應用情境，我們選擇客戶－訂單的情境，我們設想 XML 成為新興的資訊格式之後，現今的資訊系統還有商業上的應用，很多就以 XML 文件的方式來做為訂單的通用格式，然而客戶資訊卻仍然以既有的關聯式資料庫以一筆一筆的記錄的方式來存放。然而，關聯式資料庫處理像 XML 文件這樣的樹狀結構困難度增加，而且效能不算太好，因此，為了在求取資訊處理的速度、效能，會有越來越多的企業開始選擇使用原生性資料庫來存放他們的 XML 文件。 B.建立 Global Schema 由於我們要提供前端使用者一個統一的觀點以方便他們下查詢，因此我們會需要對目前所擁有的異質資料做塑模整合的工作，並且從中找出一個較能夠涵蓋現有異質資源所代表概念的點，以此做為 Global Schema 中的一個統一的觀點。

(12)

C.建立 Ontology

在完成 Global Schema 的建立之後，在本研究中我們還需要建立 Ontology，以描述情境中異質資訊來源間的映對關係。

在找到異質資料來源彼此間的映對關係之後，我們就可以用輔助工具 Protégé 2000 來建立我們所需要的 Ontology，下圖三為 Protégé 2000 示意圖，另外圖四為本研究中使用之 Ontology 文件的部份節錄，此為使用 Protégé 2000 建立 Ontology 後，將之轉以 XML 文件方式儲存：

(13)

- <protegekb xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="http://protege.stanford.edu /plugins/xmlbackend/protege_xml_backend.xsd"> - <slots> + <slot> … - <slot>

- <own-slot slot-name=":NAME">

- <entry type="String">

<value>contactPerson</value> </entry>

</own-slot>

- <own-slot slot-name=":SLOT-NUMERIC-MAXIMUM">

- <entry type="Float">

</own-slot>

- <own-slot slot-name=":SLOT-MAXIMUM-CARDINALITY">

- <entry type="Integer">

</own-slot>

- <own-slot slot-name=":SLOT-NUMERIC-MINIMUM">

- <entry type="Float">

</own-slot>

- <own-slot slot-name=":DIRECT-TYPE">

- <entry type="Class">

<value>:STANDARD-SLOT</value> </entry>

</own-slot>

- <own-slot slot-name=":SLOT-VALUE-TYPE">

<value>String</value> </entry>

</own-slot>

</slot>

(14)

</slots>

- <classes>

+ <class> … - <class>

- <own-slots>

- <own-slot slot-name=":NAME">

<value>orders</value> </entry>

</own-slot>

- <own-slot slot-name=":DIRECT-SUPERCLASSES">

<value>:THING</value> </entry>

</own-slot>

- <own-slot slot-name=":DIRECT-TEMPLATE-SLOTS">

- <entry type="Instance">

<value>sendType</value> </entry>

<value>receiverName</value> </entry>

<value>sendCountry</value> </entry>

<value>orderDate</value> </entry>

<value>snedPhone</value> </entry>

<value>orderID</value> </entry>

<value>customer</value> </entry>

(15)

<value>sendAddress</value> </entry>

<value>employee</value> </entry>

<value>sendDate</value> </entry>

<value>orderdetail</value> </entry>

</own-slot>

- <own-slot slot-name=":ROLE">

<value>Concrete</value> </entry>

</own-slot>

- <own-slot slot-name=":DIRECT-TYPE">

<value>:STANDARD-CLASS</value> </entry> </own-slot> </own-slots> </class> + <class> … </classes> - <instances> - <instance> <id>ontology_00046</id> <type>location</type> - <own-slots>

(16)

</own-slot>

- <own-slot slot-name="conceptName">

<value>orderDetail</value> </entry> </own-slot> </own-slots> </instance> - <instance> <id>ontology1_00029</id> <type>location</type> - <own-slots>

- <own-slot slot-name="locatedAt">

</own-slot>

- <own-slot slot-name="conceptName">

<value>orders</value> </entry> </own-slot> </own-slots> </instance> + <instance> … </instances> </protegekb> 【圖四：Ontology】 D.系統架構設計針對前述之研究方法，以關聯式資料庫與原生性 XML 資料庫為基礎，我們實作的 Ontology-based 異質資訊資源整合雛形系統架構如圖五所示。使用者由 PC 端的瀏覽器(Browser)，透過 Internet 連接至架構在 Web Server 上的雛形系統，透過雛形系統接收來自前端使用者所下之查詢指令並進行處理，包括查詢

(17)

Ontology 找出資訊資源間映對關係，以及拆解查詢、安排查詢計畫，然後將各個子查詢下至對應的底層關聯式資料庫或原生性 XML 資料庫找出所需資料，資料傳回雛形系統再加以打包成 XML 文件，最後透過 Internet 回傳結果給使用者利用瀏覽器來觀看查詢結果。雛形系統功能設計之架構圖則如圖六。

(18)

Web Server Application 雛形系統 SQL Server 2000 Tamino Internet 關聯式資料庫 _{原生性XML資料庫} PC 端的Browser 【圖五：Ontology-based 異質資訊資源整合雛形系統架構圖】

(19)

雛形系統 XQuery 查詢介面 Mediator Wrapper 查詢 Ontology 查詢 Global Schema 推論映對規則拆解查詢查詢 Local Data Source

包裝查詢結果查詢轉譯

【圖六：Ontology-based 異質資訊資源整合雛形系統設計架構圖】

4. 雛形系統設計

A. XQuery 查詢介面

查詢介面依循 XQuery 的形式來設計，利用下拉選單來表現 Global Schema 的方式不但可以讓使用者了解到異質資訊資源的整體架構，也較便利使用者下 XQuery 查詢。

B. Mediator

(20)

我們利用 DOM 物件模型來存取 Global Schema 所描述的異質資訊資源整體的樹狀結構，然後可以利用此找到使用者下查詢時參考到一特殊值所連接的所有物件。有了這樣的資訊對於拆解查詢，以及整合、包裝查詢結果時都是有用的。 (b)查詢 Ontology

我們利用查詢 Global Schema 時所找到的一整條路徑的資訊，就可以到 Ontology 中找出其相對應的 Concept 或是 Slot，或是發現一些對應的 Facet 等。

(c)推論映對規則將查詢 Ontology 所找到的資訊投入我們在程式中預先寫好的推論規則，就可以找出查詢條件和欲查詢的資料間的映對關係。 (d)拆解查詢找出映對關係之後，就可以據此將使用者的查詢拆解成適當的子查詢，然而上一階段所推論出的映對具有關聯性，故在此也會依據映對之間的關聯性來安排查詢計畫。 C. Wrapper (a)查詢轉譯子查詢在進入 Wrapper 之後，通常會需要經過轉譯的過程，例如在本雛形系統中，因為前端所下查詢為 XQuery，但是資料來源若為關聯式資料庫，則其適用的查詢語言是 SQL，此時，查詢就需要轉譯，然而，若是資料來源為 XML 原生性資料庫，因為 XQuery 已成為 W3C 標準，市面上的 XML 原生性資料庫也開始支援 XQuery 查詢語言，在本研究中所使用之 Tamino 原生性資料庫亦能夠支援 XQuery 查詢語言，則此時查詢即可不經轉譯，直接以 XQuery 對 Tamino 下查詢。

(b)查詢 Local Data Sources

經過查詢轉譯之後，Wrapper 就以該子查詢真正對資料來源做查詢，在本研究情境中，查詢出來的結果：關聯式資料庫是逐筆的記錄，而原生性資料庫則是元素型態呈現。 (c)包裝查詢結果因為從資料來源回傳的查詢結果格式不一，為了避免後續若有繼續處理的需求會面臨困難，以及將之回傳給使用者希望是一個具有意義、使用者亦能了解的格式，因此 Wrapper 就會把資料來源回傳的查詢結果加以包裝成在本研究中所使用的共通格式－XML 文件。

(21)

貳、研究建議

自從 90 年代中期企業間(B2B)電子商務迅速崛起之後，顯而易見地，網際網路已經嚴重地衝擊到企業之間的商業運作，「速度」、「彈性」以及「同步作業」成為企業所要追求的重要目標，企業必須藉由整合客戶和供應廠商兩端，形成一條具有價值、堅強的供應鏈，在供應鏈整合的高度需求下，企業與其供應商之間大量的交易資料必需設法透過網際網路來做快速的交換與整合，然而，這些資訊皆儲存於各自不同的資料庫，且有其各自的資料模式與查詢語言來管理與維護這些資料，並沒有一個統一的標準，這將造成企業間自動化的交易程序出現了重大的障礙。不管是目前熱門的 B2Bi 或是協同商務(Collaborative Commerce)，在推行的過程，都不免會遇到前述的困難，因此，該如何設計出一套解決方案，以解決當前各企業面對多樣化異質資訊來源時所遇到的整合瓶頸，應該是我們所要繼續探究的問題？早期企業之間透過專線以 EDI 進行資料交換的方式已逐漸被淘汰，XML 因為使用方便，成為網路應用上的一顆明星，XML 可以自訂標籤，描述文件格式與結構，可以用來設計與發展電子商務應用之標準，所以，我們可以將這類以 XML 為基礎的商業整合模式稱作 Meta-Language-Driven Integration；但是，漸漸地，大家也發現了 XML 在使用上的限制，因此，我們在此時加入了 Ontology 的概念，希望能達到語意上的相互操作性(Semantic interoperability)，以避免造成商業邏輯一更動，或是文件內容一修改，就伴隨而來大量中間應用程式的修改，徒然耗費大量的時間與人力，我們將這類的整合稱作 Knowledge-Driven Integration；為了進一步讓企業間的 Metadata 可以共享，以達到更高層次的整合方式，CWM 定義一套共同的 Metamodel，做為描述 meta data 的共同語言，並採用以 XML 為基礎之交換機制，並且可支援模式驅動(Model-Driven)的 Metadata 交換方式，對於這種整合模式，我們稱作 Metadata-Driven Integration。傳統關聯式資料庫與 XML 文件在資料轉換上之議題日趨重要，且透過人工轉換在成本與成效上皆大打折扣，對現代交易資料量龐大之企業組織確實為刻不容緩急欲解決的問題，本研究實作之雙向轉換雛形系統便在對此問題作了深入探討並提出解決之道，讓關聯式資料庫表格與 XML 文件達到資料整合與轉換的功能，讓關聯式資料表可由 XML 文件之形式，直接在網路上傳輸，整合至不同企業之中，無需任何加工的轉換處理。而企業接收了 XML 文件後，亦可輕易透過本系統轉換儲存於關聯資料表中，運用既有關聯資料庫之強大運算分析能力，對 XML 文件資料進行分析處理。而本研究實作之異質資訊整合雛形系統更是進一步提供企業一個存取異質資訊資源的單一窗口，企業在面臨龐雜的資訊格式時，不需要再透過繁複的手續一步一步去搜尋所需的資料，僅需透過雛形系統所提供之一個整合性的觀點，以單一的查詢語法進行查詢，即可輕鬆得到想要的資訊。

Ontology 是對於概念的正式描述，我們必須先定義出 main terms，再定義出 relative terms，最後再定義出上一層或是下一層的 terms，即 brother terms，這樣

(22)

我們便可以知道這些 terms 之間的關連，當我們在作搜尋時，便可以依照所下達的查詢找出所有相關的內容，這比一般的關鍵字查詢強大許多；雖然，本研究已經引入 Ontology 的概念以補足 XML 在應用上所產生的限制，但是，本研究的雛形只應用了 Ontology 在 Mapping 上的功能，尚有許多 Ontology 所能應用的概念未實作，在未來的研究中可以繼續加強；另外，在進行企業間整合時，該如何整合兩個企業的 Ontology，或是如何制訂出一套企業都願意遵循的 Ontology 標準，甚至是訂定出一個代表某個產業的 Ontology，在實際的執行面上仍會遇到諸多限制與困難，值得後續深入研究，企業之間要進行整合應該是要很直接的，我們所採用的 Wrapper 和 Mediator 的三層式架構，在未來與其他企業進行整合時，是否會有銜接上的困難，是否在實作時也要遵循一套標準，也值得繼續探討；除此之外，我們所設計的架構、概念皆是以資料整合為基礎，並未考慮到流程整合的問題，然而，企業內部或是企業之間都可能需要進行流程整合，這樣的架構是否能同時處理資料與流程的整合，或是有其他的解決方案呢？我們或許也可以再從這個角度來進行研究。

(23)

參考文獻

1. Abiteboul, Serge, Dallan Quass, Jason McHugh, Jennifer Widom and Janet

Wiener (1997), "The Lorel Query Language for Semistructured Data," International Journal on Digital Libraries, 1(1), pp68-88.

2. Amann, B., Beeri, C., Fundulaki, I., and Scholl, M. (2002), “Querying XML

Sources Using an Ontology-Based Mediator,” Proceedings of the Confederated International Conferences DOA, CoopIS and ODBASE 2002, October,

pp.429-448.

3. Arocena, Gustavo O. and Alberto O. Mendelzon (1998), "WebOQL:

Restructuring Documents, Databases and Webs," In Proceedings of International Conference on Data Engineering (ICDE).

4. Atzeni, Paolo, Giansalvatore Mecca and Paolo Merialdo (1997), " To Weave the

Web," In Proceedings of the International Conference on Very Large Data Bases (VLDB), pp. 206-15.

5. Baru, C. K., Gupta, A., Ludascher, B., Marciano, R., Papakonstantinou, Y.,

Velikhov, P., and Chu, V. (1999), "XML-Based Information Mediation with MIX," Proceedings of ACM SIGMOD International Conference on Management of Data （SIGMOD1999）, June, pp.597-599.

6. Berners-Lee, Tim, et al. (2001), “The Semantic Web,” Scientific American, May

2001.

7. Bertino, Elisa and Barbara Catania (2001), “Integrating XML and Databases”,

IEEE Internet Computing, 5(4), pp.84-88.

8. Bird, Linda, Andrew Goodchild, and Terry Halpin (2000), “Object Role

Modelling and XML-Schema”, ER2000.

9. Bohannon, P., Freire, J., Haritsa, J. R., Ramanath, M., Roy, P., and Siméon, J.

(2002), “LegoDB: Customizing Relational Storage for XML Documents,”

Proceedings of the 28th VLDB conference, pp.1091-1094.

10. Buneman, Peter, Susan Davidson, Gerd Hillebrand and Dan Suciu (1996), "A Query Language and Optimization Techniques for Unstructured Data," In Proceedings of ACM SIGMOD Conference on Management of Data, pp. 505-16. 11. Chamberlin, Don, Jonathan Robie and Daniela Florescu (2000), "Quilt: An XML

Query Language for Heterogeneous Data Sources," Proceedings of WebDB 2000 Conference.

12. Chamberlin, Donald D. (2001), "Query Languages and XML," IDEAS 2001, pp. 297-300.

13. Chawathe, S., Garcia-Molina, H., Hammer, J., Ireland, K., Papakonstantinou, Y., Ullman, J., and Widom, J. (1994), “The TSIMMIS Project: Integration of

(24)

Heterogeneous Information Sources,” Proceedings of the 10th Meeting of the Information Processing Society of Japan (IPSJ), October, pp.7-18.

14. Decker, S. et al. (2000), “The Semantic Web: The Roles of XML and RDF,” IEEE Internet Computing, Sep/Oct, 63-74.

15. Decker, Stefan, Prasenjit Mitra and Sergey Melnik (2000), “Framework for the Semantic Web: An RDF Tutorial”, IEEE Internet Computing, pp. 68-73.

16. Decker, Stefan, Sergey Melnik, Frank Van Harmelen, Dieter Fensel, Michel Klein, Jeen Broekstra, Michael Erdmann and Ian Horrocks (2000), “The Semantic Web: The Roles of XML and RDF”, IEEE Internet Computing, 4(5), pp.63-64.

17. DeHaan, D., Toman, D., Consens, M., and Ozsu, M. (2003), “A Comprehensive XQuery to SQL Translation using Dynamic Interval Encoding,” Proceedings of the ACM SIGMOD Conference 2003, June, pp.623-634.

18. Deutsch, A., Mary Fernandez, Daniela Florescu, Alon Levy and Dan Suciu (1999), "A Query Language for XML," Computer Networks, 31, pp.1155-69. 19. Ding, Y., D. Fensel, M. Klein and B. Omelayenko (2002), “The semantic web:

yet another hip?,” Data & Knowledge Engineering, 41(2-3), June, pp.205-227. 20. Domenig, R., and Dittrich, K. (2000), “A query based approach for integrating heterogeneous data sources,” Proceedings of the Ninth International Conference on Information and Knowledge Management (CIKM2000), November,

pp.453-460.

21. Duckett, Jon, Oliver Criffin, etc. (2001), Professional XML Schema, Wrox. 22. Eisenberg, Andrew and Jim Melton (2001), "SQL/XML and the SQLX Informal

Group of Companies," ACM SIGMOD RECORD, 30(3), pp.105-8

23. Fankhauser, Peter (2001), "Xquery Formal Semantics: State and Challenges," ACM SIGMOD RECORD, 30(3), pp.14-9.

24. Fankhauser P., M. Marchiori and J. Robie (2000), “XML Query Requirements,” http://www.w3.org/TR/xmlquery-req

25. Fegaras, Leonidas and Ramez Elmasri (2001), “Query Engines for Web-Accessible XML Data”, Roma, Italy, Proceedings of the 27th VLDB Conference.

26. Florescu, D. and D. Kossmann (1999), “Storing and Querying XML Data Using an RDBMS,” IEEE Data Engineering Bulletin, 22(3), pp.27-34.

27. Florescu, Daniela and Donald Kossmann (1999), "A Performance Evaluation of Alternative Mapping Schemes for Sorting XML Data in a Relational Database," Technical Report No.3680, INRIA, Le Chesnay Cedex.

28. Florescu, Daniela, Alon Levy and Alberto Mendelzon (1998), "Database Techniques for the World Wide Web: A Survey," ACM SIGMOD RECORD,

(25)

pp.59-74

29. Florescu, Daniela, Alon Levy, Mary Fernandez and Dan Suciu (1997), "A Query Language for a Web-Site Management System," ACM SIGMOD RECORD, 26(3), pp.4-11.

30. Gardarin, G., Mensch, A., and Tomasic, A. (2002), “An Introduction to the e-XML Data Integration Suite,” Proceedings of the 8th International Conference on Extending Database Technology (EDBT2002), March, pp.297-306.

31. Gardarin, G., Mensch, A., Tuyet Dang-Ngoc, T., and Smit, L. (2002),

“Integrating Heterogeneous Data Sources with XML and XQuery,” Proceedings of the 13th International Workshop on Database and Expert Systems

Applications (DEXA 2002), September, pp.839-846.

32. Garofalakis, M., Gionis, A., Rastogi, R., Seshadri, S., and Shim, K. (2000), “XTRACT: A System for Extracting Document Type Descriptors from XML Documents,” Proceedings of the 2000 ACM SIGMOD international conference on Management of data, 29(2), May, pp.165-176.

33. Heflin, J. and J. Hendler (2001), “A Portrait of the Semantic Web in Action,” IEEE Intelligent Systems, 16(2) 54-59.

34. Heidelberger, P. and S. S. Lavenberg (1984), “Computer Performance Evaluation Methodology," IEEE Transactions on Computers, C-33(12): 1195-1220, December 1984.

35. Hendler, James (2001), “Agents and the Semantic Web,” IEEE Intelligent Systems, 2001.

36. Hull, R. and R. King (1987), “Semantic Database Modeling: Survey, Applications, and Research Issues,” ACM Computing Surveys, 19(3), September, pp.201-260.

37. IBM Press Release: Somers, NY, September 12, (2000), “New SAP R/3 Performance Record by RS/6000 S80 and DB2 Overtakes HP and Oracle”.

38. Ishikawa, Hiroshi and Manabu Ohta (2001), “Querying Web Distributed Databases for XML-based E-Businesses: Requirement Analysis, Design, and Implementation”, IEEE.

39. Jennings, N. R., K. Sycara, and M. Wooldridge (1998), “A Roadmap of Agent Research and Development,” Autonomous Agents and Multi-Agent Systems, 1, Kluwer Academic Publishers, 1998, pp. 7-38.

40. Josifovski, V., Schwarz, P., Haas, L., and Lin, E. (2002), “Garlic: A New Flavor of Federated Query Processing for DB2,” Proceedings of the 2002 ACM SIGMOD international conference on Management of data, pp.524-532.

41. Klein, M., et al., “The Relation between Ontologies and XML Schemas,” Electronic Transactions on Artificial Intelligence – The Semantic Web, 6 (4).

(26)

42. Konopnicki, David (1995), "W3QS: A Query System for the World Wide Web," In Proceedings of the International Conference of Very Large Data Bases (VLDB), pp54-65.

43. Mani, Murali, Dongwon Lee and Richard R. Muntz (2001), “Semantic Data Modeling using XML Schemas”, ER2001, pp.149-163.

44. Manolescu, I., Florescu, D., and Kossmann, D. (2001), “Answering XML

Queries on Heterogeneous Data Sources,” Proceedings of 27th International

Conference on Very Large Data Bases (VLDB2001), September, pp.241-250. 45. Marcos, E., P. Caceres and B. Vela (2001), “MIDAS/BD: a Methodological

Framework for Web Database Design”, ER2001 Workshops, pp.227-238. 46. Miller, R. J., Hernández, M. A., Haas, L. M., Yan, L., Ho, C. T. H., Fagin, R.,

and Popa, L. (2001), “The Clio project: managing heterogeneity”, ACM SIGMOD Record, 30(1), March, pp.78-83.

47. Nambiar, Ullas, Zoe Lacroix, Stephane Bressan, Mong Li Lee and Yingguang Li (2002), “Current Approaches to XML Management”, IEEE Internet Computing, pp.43-5.

48. Patel-Schneider, Peter, Jérôme Siméon (2002), “The Yin/Yang web: XML syntax and RDF semantics”, Proceedings of the eleventh international conference on World Wide Web, pp.443-453.

49. Patel-Schneider, Peter F., Jerome Simeon (2002), “Building the Semantic Web on XML,” The Semantic Web – ISWC 2002, Springer-Verlag, 2002, pp. 147-161. 50. Peer, Joachim (2002), “Bringing Together Semantic Web and Web Services,”

The Semantic Web – ISWC 2002, pp. 277-291.

51. Shanmugasundaram, Jayavel, Eugene Shekita, Rimon Barr, Michael Carey, Bruce Lindsay,Hamid Pirahesh and Berthold Reinwald (2001), “Efficiently publishing relational data as XML documents”, The VLDB Journal, 10, pp.133-154.

52. Shanmugasundaram, J., Kiernan, J., Shekita, E., Fan, C., and Funderburk, J.

(2001), “Querying XML Views of Relational Data”, Proceedings of 27th

International Conference on Very Large Data Bases, pp.261-270.

53. Shanmugasundaram, Shekita, Kiernan, Krishnamurthy, Viglas, Naughton and Tatarinov (2001), "A General Technique for Querying XML Documents Using a Relational Database System," ACM SIGMOD RECORD.

54. Tomasic, A., Raschid, L., and Valduriez, P. (1998), “Scaling Access to

Distributed Heterogeneous Data Sources with DISCO,” Proceedings of the IEEE Transactions on Knowledge and Data Engineering.

網際網路異質資訊內容整合之模型、語言、語意之研究

行政院國家科學委員會專題研究計畫 成果報告