• 沒有找到結果。

植基知識本體之公部門資訊整合

N/A
N/A
Protected

Academic year: 2021

Share "植基知識本體之公部門資訊整合"

Copied!
7
0
0

加載中.... (立即查看全文)

全文

(1)植基知識本體之公部門資訊整合 Ontology-Based Government Information Integration 朱雨其. 黃素梅. 楊鍵樵. 行政院環境保護署 環境監測及資訊處 ycchu@epa.gov.tw. 東吳大學 資訊科學研究所 94756019@scu.edu.tw. 國立台灣科技大學 電子工程研究所 ccyang@et.ntust.edu.tw. 摘要 本文倡議運用知識本體來驅動資訊整合的作業 架構及其相關機制,由於知識本體論是以概念的 表徵為核心,所以在這個層次上的整合作用可以 具有一定程度的語意互通效果。我們發展一套系 統化的作業流程及相關演算法;首先我們從現存 的知識環境及已知的部分資訊源中構築個別性的 本體原型,而後將各個原型本體作校正及合併等 調整,以得到在特定應用領域中具有整合效用的 知識本體。以上述知識本體為基底,我們發展二 階段式之公部門資訊整合架構;知識本體建構階 段負責針對公部門領域之特定應用構建整合性知 識本體,而實體資料整合階段則結合資料倉儲技 術,參用知識本體之概念規格與作業準則,實際 執行資料萃取、轉換及匯入工作。我們以公部門 之環境保護領域實作建置整合性環境資料庫,驗 證本文倡議方法之可行性及具體效益。. which is dedicated to the specific domain of government. The physical data integration phase combines data warehouse technologies and consults the conceptual specifications and operation guidelines of the integrated ontology to perform data extraction, transformation and loading. We have been implementing an integrated environment databases for verifying the feasibility and performance of proposed approach. Keywords: ontology, heterogeneity, information integration, data warehouses, e-Government. 1. 緒論. 以網際網路為主軸的多元化資訊時代已然成形, 在可預見的將來,所有的個人裝置均將與網路 連結,而所有的資訊服務也將透過網路遂行。當 然,公部門的政務管理工作及對人民所提供的服 關鍵詞:知識本體、異質性、資訊整合、資料倉 務,更不能自外於這波潮流。藉由網路無遠弗屆 的特性,未來公部門所提供的各項服務勢將展現 儲、電子化政府 與傳統全然不同的嶄新風貌。. ABSTRACT This paper proposes a lightweight ontology-driven framework (LODF), which is the major component to drive the information integration process. An integrated ontology can be seen as a kernel of concept representation; hence the semantic interoperability among heterogeneous information sources can be achieved at the concept level. We develop a systematic process and related algorithms to support the construction of the integrated ontology. First, we capture the ontologies from existing knowledge sources to form distinct prototype ontology. Then, those distinct ontologies are aligned and merged to construct an integrated ontology for a specific application domain. Based upon the LODF, we develop a two-phase architecture for government information integration. The ontology construction phase is in charge of developing an integrated ontology. 以往政府部門大都依個別機構的權責劃分資 訊處理作業,也就是從「政府觀點」發展,不論 各政府機關間,或是機關內部各單位間,係以獨 立方式進行業務電腦化流程,於是形成許多「煙 囪式」(stove-piped)系統。這些系統彼此不盡 相容,同時重複建置資料。民眾要擷取資料時, 需 分 別 從 各 業 務 主 管 機 關 進 行 查 詢 檢 索 [1]。 例 如,有民眾欲申辦「工廠設立許可」,他可能 要查詢縣市政府建設局、環保局、工務局(建 築管理)等單位,甚或是中央政府經濟部(商業 司、工業局)環保署等單位的網站才能取得完整 資料。而目前所謂的「政府入口網站」,只是將 各機關的網址集中放在某個網頁,對資訊整合並 無助益,民眾還是得大費週章地到各個網站查詢 資料加以整理後才能應用。未來政府部門應該以 「民眾觀點」發展,也就是資訊整合的觀點,提 供 主 題 導 向 (subject-oriented) 的 整 合 與 服 務 ,.

(2) 才能提昇為民服務的水準。 本文擬探究公部門如何運用資訊與網路科 技,進行資料整合之相關問題及其解決方案,包 括學理面的論述、實作面的系統架構發展及實作 驗證。第二節將討論異質性的特徵及其對資料品 質的影響,並對資訊整合過程容易衍生的問題提 出具體說明。第三節說明領域應用的知識本體發 展,我們提出 LODF 作為本體發展的理論基礎架 構,同時研擬系統化的領域知識本體發展程序與 流程。第四節則從系統設計及實作二方面說明資 訊整合系統架構及現階段實作的成果。第五節作 結論並闡明未來發展方向。. 2. 異質性與資訊整合課題. 資 訊 整 合 及 分 享 (information integration and sharing) 技 術 近 年 來 受 到 學 術 界 與 實 務 界 廣 泛 重視。傳統的整合工作大部分是屬於「系統」層 面的整合,但在實際運用上,「資料」的整合才 是使用訴求的重點。其次,現行多數研究或產品 大體上只是在系統表現層次的整合(presentation integration), 對 資 訊 使用 者 的助 益極 為 有限 。 欲達成資訊基礎面的整合,尚有相當多課題待 克服,但綜觀現行實務應用上,以資訊異質性 (information heterogeneity) 未 能 有 效 調 合 對 資 訊整合系統的成敗影響最大,導致資訊分享困 難。本節將針對異質性資訊之特性進行剖析,討 論現行的處理方法及其面臨的窘境。. 2.1. 資訊異質性. 異質性問題是資訊運用到某個程度後的一種必然 現象。早期的研究大都針對資料模式的整合,例 如將網路式、階層式及關聯式的資料模式轉換或 映射到一個共通的模式,但是近年來由於多媒體 與超文件的出現,資料型態較往昔複雜許多,一 般而言,資料異質性問題可以分為下列二個面向 討論 [9]: • 語 法 (syntax) : 通 常 指 相 同 概 念 的 屬 性,以不同的方式表現。例如「日期」, 可 能 有 的 以 day/month/year 表 示 , 有 的 以 month/day/year 表示;又以「長度」而言, 其所用到的單位可能有的以英吋為單位計 量,有的以公分為單位。. 或應用系統,某個詞語所代表之意義各不相 同。 一般而言,語法層面的異質性較為容易處 理,通常設定若干標準格式或協商共通性作法 後,可以達到一定程度的整合效果 [11]。但是語 意層面的異質性則不容易處理,不可能藉由某種 標準來「迫使」所有的資料來源遵守規定,在實 務面是不可行的。其次,資訊系統所處理的資料 型態日益複雜,語意異質性不能只考量單純的文 數字資料型態,越來越多的應用系統要求能有效 率且正確的整合圖形、影像甚或是聲音資料,更 突顯語意異質性問題的重要性。 資訊異質性對資料品質(data quality)之衝 擊更是顯著,資料品質不佳或錯誤的資料,可能 衍生不可預期的後果,致使管理階層對整合性資 訊系統失去信心。近年來有許多公私企業導入資 料倉儲(data warehouses)作為資料整合平台, 但資料倉儲內的資料品質問題卻是影響應用成果 的重要因素之一。據估計約有六成以上的資料倉 儲系統宣告失敗,其主要的原因就是因為存在於 系統中的資料品質問題,系統開發人員沒有給予 充分的時間與努力來解決、淨化資料品質的問題 而導致整個系統失敗 [5, 6, 12]。 資料品質也可以從語法及語意二個面向討 論。語法性的資料品質問題指的現實世界中有 此項資料,但其內容與資料庫中所儲存的資料 不同。例如「地址」,將台北市「凱達噶蘭大 道」,儲存成台北市「凱達噶欄路」,這種資料 錯誤很容易被辨識,處理上也有較具體明確的作 法。但若系統記成是「高雄市凱達噶蘭大道」, 便不容易處理,因為高雄市並無凱達噶蘭大道, 這類資料與現實世界無法勾稽的現象,則屬於語 意性的資料品質問題。 不論是語法性或是語意性的資料品質問題, 因著網路上資料的飛速增長已成為當前公私企業 部門亟待處理的課題。換句話說,資料品質是組 織內任何資訊系統是否能夠有效運作發揮實際功 效的一項關鍵因素。特別是當我們要整合來自不 同機構部門的資料時,資料品質問題的困難度與 挑戰性較傳統單一目的性的資訊系統更高。但是 在目前絕大部分的相關研究與實作發展中,大都 將焦點著重於整合性資訊系統的查詢檢索功能的 提昇,卻忽略了最基本的資料品質問題。. • 語意(semantics):不同資料來源中其資料 2.2 資訊整合面對的問題 屬性在內涵結構或命名方式的衝突效應,例 綜合前節所描述的資訊異質性相關困境及影響, 如「同義異型」(相同物件但命名不同)或 本文嘗試回答以下問題: 是「同型異義」(不同意義的物件卻有相同 • 在資訊整合過程中,不同來源的資料語意異 的名稱及格式)。尤有甚者,在特定的情境.

(3) 質性其內在與外在的原因為何?而這些語意 上的衝突對資料品質有何不利之影響?現行 處理類似問題的方法與工具其優劣為何?是 否有具體可行之改善空間? • 如何在顧及各資料來源的自主性原則下,處 理語意異質性問題?如何藉由語意調合作業 平台,達成資訊整合的目標?其次,政府部 門採行語意調合技術其利基為何?實作面有 些應行注意事項? 有論者以為透過「標準」制定並強制各個資 料來源遵行,就可化解資料異質性的衝突,但這 種作法只能處理語法面的異質性問題,對於語意 異質性,並不能發揮作用,主要是因為各個資料 來源通常擁有絕對的自主性(autonomy),這種 情形在公部門更是普遍。是以各種語法層面的格 式標準規範,只能解決「外在」的資料衝突,對 於「內在」的或是「隱性」的資料衝突,未有助 益。而這類資料衝突卻是影響資料品質的最大因 素,也是極具挑戰性及實用性的課題。. 3. 領域應用之本體發展. 本 體 論 (ontology) 是 哲 學 領 域 中 用 以 探 討 真 實 世界中事務存在的本質課題。近年來,計算機科 學領域廣泛地引用本體論的概念及原理,針對人 工智慧、知識工程及資訊整合等課題,提出具學 理性及實作性的應用 [2, 13, 14]。本節將提出一個 針對特定領域應用的簡易型知識本體發展架構, 並以此架構為基底,發展以資訊整合為標的之知 識本體構建程序及相關作業機制。. 3.1. LODF. 校正(alignment)。校正的功能在於提供不同本 體 間 的 語 意 一 致 性 (semantic consistency) , 具 有語意調合的效果,校正過後的本體稱為「校正 本體」(aligned ontologies)。舉例來說,對於某 個「工廠地點」的描述,在公部門中不同機關有 不同的概念性描述及辭彙用語,工商管理部門用 「工廠地址」、工務部門用「工程地點」、環保 部門用「污染源」或「污染場址」等。經過校正 後 , 可 以 根 據 統 一 調 整 成 「 場 址 」 (site) 。 將 這類校正本體經由分階段地合併或組合後,就形 成「整合性本體」(integrated ontology)。 我們將上述程序以正規化方式定義成「簡 易本體驅動架構」(Lightweight Ontology-Driven Framework, LODF),這裡所謂的簡易係指本體 建構中儘可以採行特定領堿中容易獲取共識的知 識來源,例如各類辭彙書、資料字典、詞語彙編 及分類標準等。是以針對特定應用領域 D 的簡易 本體驅動模型,標示為 L(D),可以定義成是一個 五項值組(5- tuple)的結構,表示如下: L(D) = (R, Op , Oint ,f, g) 其中 R = {r1 , r2 , . . . , rn } 是 一 組 由 領 域 D 的 各 種 背 景 知識所組成的資源集合(a set of resources),對 於資源 ri ∈ R,ri 可以是一個資料庫的綱目、一 組 XML 文件資料、甚或是一群領域專家。 Op = {p1 , p2 , . . . , pn } 是對應於 R 所組成的一個原 型本體集合。 Oint 表示植基於 Op 的整合性本體。 f 是 一 個 映 射 過 程 (mapping process) , 其 作 用 f 記為 R → Op ,表示 R 中各個資源 ri 的知識,藉 由 f 產生出 Op 中相對應的原型本體 pi 。 g 是一個整合過程(integrating process),其作用 g 記為 Op → Oint , 表 示 藉 由 針 對 Op 執 行 一 連 串 的程序,例如本體校正、本體組合等,g 可以導 出一個整合性本體 Oint 。 有關 LODF 更詳細的說明及其功能的論述詳 [4] 見 , LODF 的整體作用可表成下式:     r1 p1  r2      f  p2  g  ..  →  ..  → Oint  .   . . 針對資訊整合之目的,必須要能有操作簡便而 且能達到一定用途目標的知識本體。換言之, 投入在建構知識本體的成本,包括勞力、物力 及其它投資,應該降至最低,而且建構過程必 須配合不同的用途及不同的使用者,分階段完 成。從實務角度看,我們可以採取下列方式: 首先我們提供一個環境讓參與的使用者先建一 個 「 原 型 本 體 」 (prototype ontologies) , 原 型 ri pi 本 體 的 來 源 可 以 從資 料 庫 綱 目或 是 XML 文件 的 DTD 等 這 類 既 有 的 資 訊 源 中 萃 取 ; 其 次 , 在 原 3.2 發展資訊整合之知識本體 型本體中所形成的概念詞彙必須與上層的共通性 本體,例如 Cyc [8], WordNet [10],或是某些特定 晚近對於知識本體的發展與構建等課題已有甚多 領 域 中 的 辭 彙 性 質 的 本 體 , 例 如 GEMET 1 進 行 的 研 究 文 獻 [7]; 但 以 發 展 方 法 之 完 整 性 而 言 , 1 歐 洲 環 境 總 署 (European Environmental Agency) 制 訂 的 「 通 用 多 語 環 境 詞 彙 」(General European Multi-Lingual. Environmental Thesaurus),目前已有 19 國語言,廣獲環境 保護領域採行作為語意交換標準。 http://www.eea.eu.int/.

(4) Uschold 倡議的四階段方式似較為完整 [15]: 1. 確 認 目 的 與 範 圍 : 尤 應 辨 明 所 欲 發 展 的 知 識本體其預期用途、是否有特殊性(specialization)?各種可能的情境、及詞語的集合 等,同時應決定發展過程之精細度(granularity),以有效控制發展之進度與範圍。 2. 建構知識本體:可以分成下列三部分工作. Ontologies Extraction and Acquisition RDB Data and Schema. Extraction Models for RDB. XML/HTML Documents with DTD/ Schema. Extraction Models for XML and HTML. Coresponding Prototype Ontologies. O1. O2. OntoBuilder. (a) 本體徵集(ontology capture):尋求領 Exixting Ontologies 域知識,不斷與前階段互動,隨時調整 (top-level and domain-specific) 以契合發展之目的與範圍。 (b) 本體編碼(ontology coding): 將領域知 識加以結構化、組織化及規格化。 (c) 整 合 既 有 本 體 (Integrating existing ontologies): 重 複 運 用 既 有 本 體 之 相 關 成 果以加速發展時程。 3. 評估:確認及驗證前述成果。 4. 建立上述各階段之指導方針(guidelines) 我們將上述 2(a) 及 2(c) 加以推展擴張,導出 系統化之知識本體發展與整合程序,如圖 1。此 程序針對特定領域知識本體的整合過程,較上述 Uschold 倡議之四階段方式更為週延,在操作上也 更簡易。尤其在公部門領域中,因為各機關橫向 (如縣政府之各局室)及縱向(如行政院環保署 與縣市政府環保局)之關係錯綜,我們相信以圖 1 之作業程序應有利於公部門之資訊整合。以下 我們扼要說明圖 1中各步驟之內涵及執行方式。 1. 擇定參與整合的資訊源、相關的標準、法規 及詞語分類規則等:此步驟主要係標定領域 中可能持有知識的來源;以公部門為例,可 以是各種法令規章、標準作業程序及各類檔 案分類規則等,這些來源可能係數位化資源 (資料庫系統、網頁或檔案資料系統)、紙 本資料,甚或部門中某位職員或是某個工作 團隊。 2. 知識萃取:此步驟從上述標定的來源中擷取 知識,用以構築相對應的原型本體。部分現 行工具如 WebODE [3] 等可以協助執行本步驟 工作,但相對「簡易」之目的而言,這類工 具顯得過於沉重而不適用,我們正進行發展 一個簡便的工具軟體,稱為 OntoBuilder, 用以專注處理關聯式資料庫及 XML 文件的知 識本體萃取,因為公部門有愈來愈多的資訊 源 屬 於 這 二 類 型 態 。 圖 2描 述 OntoBuilder 的操作方式。. Metadata and Dictionaries. Ontologies Importation and Indigenezation. Ontologies Alignment and Integration. Thesauri. O12. Ontologies Enrichment. Integrated Ontologies. 圖 1: 針對特定特領域知識本體之整合程序. 3. 匯 入 (importation) 及 本 土 化 (indigenization) : 特 定 領 域 現 存 的 知 識 本 體 , 它 可 能存在其它團體甚或其它地域國家,此步驟 加以輸入並作適當調整使其契合本地環境使 用,這種現象在公部門極為常見。例如環境 保護領域之知識本體,就有關詞語定義與術 語分類方面,現行 OECD2 國家已對環保工業 有相當完整之分類,而絕大部分歐洲國家均 已採納 GEMET 作為環境詞語之標準定義。 這些均可視為知識本體的一種,在應用上 只要加以若干調整裁剪,對建構新的知識本 體亟有助益。舉例來說,如果我們欲就環境 保護領域採行 OECD 的分類架構,只要將有 關「森林管理」部分作調整,因為在臺灣公 務體系的「森林管理」,目前係屬於農政單 位,而非環保機關之權責,利用匯入及本土 化程序,可以大幅提昇本體構築的效率。 4. 本 體 校 正 與 整 合 : 針 對 原 型 本 體 、 匯 入 及 本土化後之本體,以及部分上層共通性的知 識本體,先進行辭彙用語及術語定義等一致 化;其次,進行本體彼此間的合併組合等工 作,藉以構成特定應用領域中單一整合性的 知識本體。 2 經 濟 合 作 發 展 組 織 (Organization for Economic Cooperation and Development).

(5) 5. 本 體 強 化 (enrichment) : 傳 統 作 法 多 利 用 知識本體表達概念的分類或是對某個概念 的屬性略加描述,我們希望再進一步,對已 經整合的知識本體,再探求其額外的知識, 用以強化本體的適用性。這在公部門應用上 尤其重要,例如前述各機關單位橫向與縱向 間的關係,即便已有某種程度的整合性知識 本體,但隨著時間及空間的變異(如行政組 織、業務或法規的調整),必須在事先預為 設定相關前題條件。. 節提及的校正、整合及強化等程序。當然,在實 作上這些程序可以視實際情況作彈性調整,但基 本上,其執行若能依循圖 1的先後順序,可以獲 得較一致性效果。 其次,我們特別強調「人員」在這個階段的 重要性,由於公部門的組織形態及文化與一般企 業有所差異,是以參與人員表現之良窳可能影響 知識本體構築的執行效率及正確性,我們認為參 與人員除了應來自各相關部門外,也應同時顧及 不同層級,包括決策人員及基層業務人員。 就實體資料整合階段而言,資料倉儲技術近 年來對資料整合已有初步的系統化作法,但若單 Context Ontology Ontology 純以資料萃取、轉換及載入(extraction, transforDescription Level Specification Specification mation, and loading, ETL)工具直接將資料由各 個資訊源匯入單一的資料倉儲,則匯入的資料是 Data-graph 否合宜使用?其正確性如何?這些問題在現行資 E-R Model Modeling Level Model 料倉儲技術尚難獲得有效的解決方案。我們倡議 在 ETL 階段,必須以先前階段建構的知識本體作 為「基底」,亦即 ETL 在執行資料的匯入或刷新 Rational DTD/ Implementation Model Schema Level (refresh)工作時,必須參用知識本體的概念規 格及作業準則,如此對整合後資訊之適用性及語 意調合才有正面助益。 Relational XML/HTML Databases Documents 至於整合性資料倉儲的資料存取的介面,依 循介面設計的「分眾」原則,分成一般性使用者 介面及特殊性操作介面二項。一般性介面主要提 圖 2: OntoBuilder 的操作方式 供民眾及工商企業取用經過整合的資訊,例如, 有民眾欲查詢如何申辦工商登記,此介面可提 供完整的訊息,也就是將工務(都市計畫)、建 設、環保等相關規定一次提供給民眾,不須要民 4 系統架構及實作 眾到各個機關的網站查閱。特殊性操作介面則提 圖 3係我們規劃之系統發展架構。從作業程序方 供公部門特定人員作為系統回饋資料查閱及參用 SQL 查詢語句外, 面 , 大 體 上 可 分 為 上 半 部 的 「 知 識 本 體 建 構 階 的管道,此介面的設計除傳統 段」及下半部的「實體資料整合階段」;從組成 應以圖表等視覺化工具,強化資料表現方式。 面來看,包括人員、資訊來源、相關作業機制及 4.2 實作成果 軟硬體工具及發展平台等。. 4.1. 二階段式發展架構. 知識本體建構階段主要指構築「公部門整合性 知識本體」及建立相關回饋作業機制。若以縣 市政府為例,這個階段主要由組織內的資訊人員 及各個不同的業務單位人員(亦即領域專家)參 與,同時要有更客觀的公部門人員(可以是上級 機關人員或第三公正團體人員)執行系統回饋機 制。本階段主要的工作環境是「語意調合作業平 台」,除了操作性的介面外,也包括 3.2 節所提 的 OntoBuilder 及其它商業化的知識本體編輯工 具。語意調合作業平台的主要作用係運用知識本 體建構過程,將公部門各機關單位存有的資訊異 質性問題加以弭平。這裡所稱的「調合」涵括 3.2. 我們運用上述架構,以環保署及相關單位間的環 境資料,實作「整合性環境資料庫」3 。圖 4(a) 是 對應於知識本體建構階段的簡要示意,我們主 要取用目前各級環保機關現有的資訊來源,包 括空氣品質監測資料、水質監測資料及列管的污 染 源 ( 工 廠 、 畜 牧 場 、 醫 院 · · ·) 等 資 料 , 並 與 GEMET 進行本體校正、整合,建立符合臺灣國 情的簡易型「環境保護知識本體」,而後結合資 料倉儲技術,進行實體資料整合。 系統硬體環境以 HP Proliant DL-380 系列作 為主要伺服器平台,並搭配磁碟陣列作為資料 儲存媒體。軟體環境以 Win-2003 Server 為作業系 統 ,Microsoft SQL-2000 DBMS 作 為 資 料 倉 儲 管 3 http://edb.epa.gov.tw/.

(6) 不同單位的 業務人員 (領域專家). 知識 本體 建構 階段. 系統回饋 作業機制. 語意調合作業平台 資訊人員. 實體 資料 整合 階段. 工務局 資料庫 建設局 資料庫.  . 參與者操作介面 知識本體編輯工具. 公部門員工 系統評估. (OntoBuilder and other tools). 公部門應用領域 整合性 知識本體 資料整合 工作軟體. . . 環保局. (ETL Tools). 資料庫. 特殊性操作介面. 整合性 資料倉儲. 一 般使 用者 介面. 民眾及 工商企業. 圖 3: 以知識本體為基底的公部門資訊整合架構. 理平台,開發工具則以 ASP, Visual Basic 為主。 5 結論及未來發展方向 此外針對地理資料及部分衛星遙測影像等空間性 資 訊 , 則 運 用 ESRI 公 司 之 ArcIMS 及 ArcSDE 開 本文針對公部門資訊整合的相關課題進行深入探 發工具及發展平台。圖 4(b) 係環境資料庫首頁, 討;為有效調合不同部門間資訊異質性問題,我 目前約有 200 萬筆資料可提供線上查閱。 們以公部門領域知識本體為基底,倡議一種可實 際操作的資訊整合作業程序及相關配套措施。綜 GEMET S1(工廠名稱 廠址 ) 合以上各節所述,我們認為本文可陳現以下具體 Alignment S2(事業名稱 地址 ) Sonto(場址 地址 ) 之成果與貢獻: Integration ,. S3(污染場址. ,. ,. , ……. , ……. 地點 ) , ……. ,. , ……. Enrichment. 1. 就 公 部 門 提 供 全 民 資 訊 服 務 及 運 用 資 訊 科 技所面臨的問題與困境,進行深入的剖析探 究。特別是針對資訊異質性所衍生的相關問 題,作了組織性及系統性的描述與說明,可 為公部門資訊整合工作標定明確方向。. (a). 以主題陳列 方式,提供 整合式查詢 提供經過整合後 之列管污染場址 查詢. 衛星遙測 資料整合 環境領域 知識本體. (b). 圖 4: (a). 資訊源 Schema 配合 GEMET 以調合語意 異質性 (b). 環境資料庫首頁及其提供之功能簡要 說明. 2. 正規化方式定義以知識本體為基底的資訊整 合架構,有利於參與人員資訊整合工作之相 關人員通盤性掌握整體架構及作業程序,可 以避免傳統資訊整合工作因過於冗瑣而造成 之「見樹不見林」的現象。同時,藉由數學 語句的表達方式,可以提供一致性的描述及 表達效果。 3. 改 良 Uschold 四 階 段 式 的 知 識 本 體 構 建 程 序 [15],發展更為週延之作業程序及流程。提出 ontology indigenization 概 念 , 使 得 現 存 之 本 體可以高度被重用(reuse),不僅可加速本 體構建時程,同時對本體的完整性及適用性 亦有正面助益。為驗證此一概念之可行性,.

(7) 我們引 入 GEMET,並 加以本土化成 為適用 臺灣地區的「環境保護領域知識本體」,基 本上獲致相當良好的成果。 隨著「電子化政府」工作之推展,未來整合 型之公部門資訊服務勢將成為政府便民服務的 主流業務,同時也是政府部門未來重要的施政項 目。我們認為在遂行資訊整合的各階段,下列課 題仍有相當空間可加以進一步探討研究:. [6] Inmon, W. Building the Data Warehouse, 3rd Edition, John Wiley & Sons Ltd., NJ USA, (2002). [7] Jones, D. M., T. Bench-Capon, and P. Visser, “Methodologies for ontology development,” Proc. of IT&KNOWS Conference of the 15th IFIP World Computer Congress, Budapest, Hungary (1998).. [8] Lenat, D., “CYC: A large-scale investment in knowledge infrastructure,” Communications of 1. 如何確保整合性資訊的資料品質?單一資料 the ACM, 38:11 33-38, (1995). For further in來源的資料品質控管程序與多個資料來源的 formation, refer to http://www.cyc.com/ 控管程序差異甚大,現行資料倉儲技術可否 有效提昇資料整合後的資料品質問題?事實 [9] Mecella, M., Cooperative processes and eService, Ph.D. Dissertation, Universita Degli 上,資料品質的問題在傳統資料庫與整合性 Studi Di Roma, Italy, (2003). 資訊系統(或資料倉儲)中最大的不同在於 整合性資料通常具有一定程度的時序特性, [10] Miller, G., “WordNet: a lexical database for English,” Communications of the ACM, 38:11 資料的品質問題絕非突然間憑空形成,必定 39-41, (1995). 是經過長時間延續所累積而成,因此資料的 品質與時序因素之間應存在著某種關係。未 來如何探究資料時序特性及知識本體等相關 [11] Park, J., and S. Ram, “Information systems interoperability: what lies beneath?” ACM 學理技術,藉以提昇資料品質,當是亟具學 Trans. on Information Systems, 22:4, 595-632, 理與實用價值的研究課題。 ( 2004). 2. 如何運用整合性資訊提供「主動式」服務? [12] Pipino, L., Y. Lee, and R. Wang, “Data qual舉例來說,倘若社會福利資訊系統與醫療照 ity assessment,” Communications of the ACM, 護系統的資料能有效整合,則醫療機構可以 April. pp. 211-218, (2002). 為獨居老人或遊民提供主動式的健康照護工 [13] Pollock, J. and R. Hodgson, Adaptive Informa作,尤有甚者,透由網際網路,可以進一步 tion, Wiley Interscience, USA, (2005). 提供「遠端照護」服務。這類整合型、主動 式的服務,應是未來公部門運用資訊科技提 [14] Smith, B. and C. Welty, “Ontology: Towards a new synthesis,” in Formal Ontology in Infor供創新性服務亟待發展之方向。 mation Systems, C. Welty and B. Smith eds., ACM Press, USA, pp. iii-x (2001).. 參考文獻. [15] Uschold, M., “Creating, integrating and maintaining local and global ontologies,” Proceed[1] 行政院研究考核發展委員會《電子化政府報 ings of 14th European Conference on Artifi告書- 93-94 年度》( 2005),台北,中華民國 cial Intelligence (ECAI’00), Berlin, Germany (2000). [2] Alexiev, V. et al., Information Integration with Ontologies, experiences from an industrial showcase, Wiley Ltd, England, (2005). [3] Arpirez, J., WebODE User Manual, Technical Report, Technical School of Computer Science, Madrid (2001). [4] Chu, Y-C., Integrating Heterogeneous Information Sources through Ontology-Driven Model and Data Quality Analysis, Ph.D. Dissertation, National Taiwan University of Science and Technology, (2001). [5] Dasu, T. and T. Johnson, Exploratory Data Mining and Data Cleaning, John Wiely & Sons Ltd., Koboken, NJ USA, (2004)..

(8)

數據

圖 4: (a). 資訊源 Schema 配合 GEMET 以調合語意 異質性 (b). 環境資料庫首頁及其提供之功能簡要 說明 5 結論及未來發展方向 本文針對公部門資訊整合的相關課題進行深入探討;為有效調合不同部門間資訊異質性問題,我們以公部門領域知識本體為基底,倡議一種可實際操作的資訊整合作業程序及相關配套措施。綜合以上各節所述,我們認為本文可陳現以下具體之成果與貢獻:1.就 公 部 門 提 供 全 民 資 訊 服 務 及 運 用 資 訊 科技所面臨的問題與困境,進行深入的剖析探究。特別是針對資訊異質

參考文獻

相關文件

Good Data Structure Needs Proper Accessing Algorithms: get, insert. rule of thumb for speed: often-get

In this section we define a general model that will encompass both register and variable automata and study its query evaluation problem over graphs. The model is essentially a

• 57 MMX instructions are defined to perform the parallel operations on multiple data elements packed into 64-bit data types. • These include add, subtract, multiply, compare ,

• 57 MMX instructions are defined to perform the parallel operations on multiple data elements packed into 64-bit data types.. • These include add, subtract, multiply, compare ,

“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced?. insight and

Know how to implement the data structure using computer programs... What are we

• Recorded video will be available on NTU COOL after the class..

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in