異質資料源之新聞查詢與事件追蹤系統
A News Query and Tracking System for
intermediary heterogeneous data source
陳志達 南台科技大學資訊管理所副教授 [email protected] 邱俊銘 南台科技大學資訊管理所研究生 [email protected]
摘要
網路迅速發展之下,資料量日益增多, 使得搜尋結果中常常找到許多並非符合使 用者需求或網頁鏈結失效的資訊;因此, 本研究為了克服資訊來源失效與提升資料 搜尋之準確度,故以 RSS 和語意網路技 術為基礎,提供一個自然語言查詢和新聞 事件關聯與追蹤模組,以建置一個異質資 料元處理的中介系統,希望提供高準確性 的搜尋技術和完整的資訊整合。首先收集 目前存在於網際網路上的 RSS 文件並加 以整理分類,再利用本體論對資源描述的 能力進行推論,得到相關資訊並產生語意 註解的文件,而使得搜尋上更能提升其準 確性;另一方面,自然語言和新聞事件能夠 讓使用者提升其便利性,並且在使用者介 面上利用 Ajax 技術,達到即時的互動,並 有效的整合功能,提供使用者真正需要且 有用的資訊,提升系統整體搜尋的品質與 效率。 關鍵字:語意網路、自然語言查詢、事件 追蹤、本體論、註解。Abstract
With the rapid development of Internet, Information is more and more abundant than ever. This causes the problems that search results on Internet often can’t meet users’ demand and failure of website link. To solve the mentioned problems, we adapt the technology of RSS and Semantic Web. In this paper, the goal is to build an intermediary heterogeneous data processing system that provides high accuracy and integrity of the Internet search results. First, the RSS document will be collected and be filtered to some classification. Second, the ontology of information description will be used to complete the machine reasoning. We also use the annotation of documents to maintain the information what users really want to get. On the other hand, the design of news event tracking and query by design natural language provide more efficient user interaction and searching results.
Keywords : Semantic Web, Ontology,
Annotation, event tracking, Natural language.
一、前言
第一代的全球資訊網起初只是為了分 享資料,但隨著網際網路的蓬勃發展,資 料量不斷的增加,以致於想要在廣大的網 路中,找尋到符合使用者需求的資料,往 往不是那麼容易的,因此,為了提高資料 搜尋的準確性,有學者提出當網路的資源 漸趨龐大的同時,需要有一個可以理解網 路上資訊的機器。 近年來的另一個概念「語意式網站」 (Semantic Web)也被提出,稱為第二代全球 資訊網。Tim Berners-Lee 定義語意式網站 為「一個可以被機器所理解的網站」,同時 也是一個資訊的集合體。為了達到語意網 的目的,採用的方式為使用本體論定義不 同領域所用到的知識,這些知識包含字彙 和關係,本體論以 XML based 的方式表達 以方便網路資源存取。語意網[17]中的本 體論(ontology)運用在網路的資訊表達,可 達 到 兩 個 功 用 : 分 類 (taxonomy) 和 推 論 (reasoning),分類為了將不同類別的資訊 作區分,並可將之視作階層化的表示,而 推論知識結合類別與階層性的關係,將隱 性知識發掘出來。 由於網際網路的資訊量相當龐大,維護 不易,容易造成鏈結失效或結果無法滿足 使用者需求的問題。因此,本論文之研究 目的如下:1. 利用 RSS(Really Simple Syndication)自 動的蒐集資料,並且加以分類,讓資料 更有組織性。
2. 透過 Semantic Web 和 Annotation 去建 置檢索機制,以提升資訊搜尋的準確度 並且提供於自然語言的查詢。 3. 匯總所有新聞事件,讓使用者在檢閱新 聞時,可以針對單一新聞事件進行檢索, 如“911 事件"的相關資訊和重要時 間,使用者皆可以完整的閱覽,增加其 閱讀新聞之便利性。 4. Web 應用在 Internet 中愈來愈多元化, 而許多技術的加入,使得伺服器負擔過 重,因此使用 Ajax 技術之非同步性以 降低伺服器的負擔。並能與使用者更緊 密的互動。
二、相關研究
以下將針對與本研究相關領域之重點 部份進行探討,包含 Semantic Web、語意 註記。 2.1 Semantic Web 語意網是呈現知識本體語言中之一種 標準語言,這種形式可以讓電腦理解其中 的 語 意 。 目 前 所 制 定 規 範 的 規 格 有 RDF(S)[14]、DAML + OIL[18]、OWL[19] 等等。 2.1.1 資源描述架構 (RDF(S)) W3C 發 展 出 RDF(Resource Description Framework),使能夠在 Web 上 交換 metadata,強化關係描述與資料處理 的能力。RDF 是一個三元架構,其內容包 含三種物件型態:資源(Resource)、屬性 (Property)、敘述(Statements). (1) 資源(Resources):事情可以由RDF 描 述就稱為來源,亦為資料來源。 (2) 屬性(Properties):屬性可以是來源的 觀點、特徵或是關係。每個屬性都有 一個意義,定義許可的值。描述來源的型別和其他屬性的關係。 (3) 敘述(Statements):敘述的語句以RDF 的格式表示。敘述被分成三個部分, 分別是Subject、Predicate 和Object。 Subject 可以表示來源,Predicate 可 以表示屬性,Object可以是文字或是 其他的來源。 RDF Schema 提出了抽象世界中主要 關係,而建立了類別系統,從而支援了從 客觀世界到抽象世界的映射,也成了知識 分享的基礎。屬性就是資源間的關係,其 中包含類別、限制的概念、屬性從屬的概 念,這樣就可以基於RDF Schema為某個領 域定義出自己的Schema。然而RDF 對於 知識的表示能力上仍有所限制,缺乏支援 變 數 (Variables) 、 一 般 性 定 量 (General Quantification)和規則(Rules)的功能。
2.1.2 DAML +OIL 與 OWL
近年來,語意網路語言不斷演化,其 語意定義更加豐富完整,DAML + OIL 由 歐洲與美洲的聯合委員會所發展的語意網 路標準語言,其定義描述的語法是承續 RDF(S)的基礎之上,再更進一步制定更豐 富更嚴謹的標記定義。 OWL 是 W3C 所公佈網路本體描述語 言 , 除 此 之 外 , OWL 的 語 法 是 以 DAML+OIL 為基礎,主要的功能是用來定 義 Web Ontologies 以及 Ontologies 的相關 知識基礎。OWL 的應該是不限領域的, 而且允許資源可明確的描述反推(negative information)。目前 OWL 有三種規格:OWL Lite、OWL DL、OWL Full。
2.2 語意註記(Annotation) 網際網路發展至今,網頁的數量已經到 了難以估計的量,語意網路更是往後發展 的趨勢所在,然而註解系統的發展是為了 建立一個網路文件語意化的世界,讓透過 網路能夠準確取得正確的資料。 Swoogle[11]是一個在語意網路上搜尋 與註記的搜尋引擎。它從每個文件上擷取 出一些註記,並且計算每個文件的關聯。 它認為語意網路跟一般網頁(HTML)是平 行發展的,語意網路只是在一般的文件上 給予語意的註記。
SMORE(Semantic Markup, Ontology, and RDF Editor)[4]是一套資源註記的工具, 它提供使用者對於網頁、電子信箱和其他 線上內容的整合環境。SMORE 允許使用 者在圖片的地方使用 SVG 去註記。
三、系統架構
本系統功能大概可分為三大部份: (1) 資訊擷取模組:主機定時或及時去擷 取資訊,剖析所需要之資料,並加入 RSS URL Database。 (2) 註解與比對模組:將擷取蒐集來的資 料,加入語意和註解的技術,讓搜尋 引擎增加其準確性,並且將其文件透 過 剖 析 器 分 析 後 , 存 入 其 OWL Ontology Database。在比對方面,必須 確保使用者語意上是否和系統取出資 料後一致,再回傳給使用者。 (3) 使用者查詢:使用者在檢索或搜尋自 己想要的資料,透過使用者界面,並 且在此界面加入 AJAX 技術,使得檢 索上更加快速且方便,並且降低伺服器負擔;另一方面,使用者所送出的 關鍵字透過比對模組去比對,找出最 符合使用者需求之資訊。圖一為系統 架構圖。 圖一 系統架構圖 3.1 資料擷取模組(Information Retrieval Module) 資訊擷取模組主要有三項功能,以下 將分別對這三項功能作詳細說明。 3.1.1 定時擷取(Fixed-Time) 系統將會預設每 30 分鐘(可自行修改 時間間隔)擷取 RSS URL Database 內所有 RSS 資料進行剖析與儲存。此功能主要是 與比對模組和整合模組配合,由於比對或 整 合 可 能 必 須 要 對 Parsed Information Document Storage 內的許多相關文件進行 搜尋與比對,若每次比對或整合必須再一 次到網路上擷取 RSS 文件,其搜尋效率勢 必會大打折扣,因此系統規劃定時擷取功 能,定時至網際網路上擷取並儲存 RSS 文 件。圖二為定時擷取功能資料模型。 圖二 定時擷取功能資料模型 3.1.2 即時擷取(Real-Time) 使用者可透過此功能,檢視 RSS URL Database 內目前所儲存的 RSS 資訊,直接 擷取資訊提供者發佈在網際網路上最新的 那一份 RSS 文件,亦可將此功能視為一個 只可讀取不能訂閱的簡易型 RSS 閱讀器。 圖三為即時擷取功能的資料模型。 圖三 即時擷取功能資料模型 3.1.3 文件剖析(Parse)
主要功能是剖析擷取後的 RSS 文件, 判斷該文件是否需要更新資訊,並依照分 類、日期再進行文件重新命名並存放的動 作,避免文件過於龐大,造成執行效率降 低。 3.2 語意註解與比對模組(Annotation and Matching Module) 此部份又可分為三個部分,以下將分 別對這三項功能作詳細說明。 3.2.1 Annotation Component 註解組件(Annotation Component), 以下我們簡稱為 AC,AC 所負責的工作就 是將資料加入語意和註解,在此分為二個 部份,第一個部份便是人工手動(Manual) 加入註解,將一些基本的資訊或是難以自 動化註解工作,透過人工的方式來完成; 第二個部份則是利用 Ontology 詞彙庫去 產生自動(Automatic)註解,透過一些基本 簡單的詞彙和語意方式去推論產生註解, 如:新聞中有“王建民”的名字,王建民便 是投手中的一個實例,在推論時,便會依 照投手類別應有的屬性進行可能的推論, 來產生更多的註解。圖四為棒球之本體論 描述。 圖四 棒球之本體論描述 人工所加入註解或是自動註解所以產 生 的 資 料 送 到 AC , 以 建 立 一 份 文 件 (Annotation Text 、 RDF or OWL 、 XML 、HTML..),之後轉至 Parser Module 去進行剖析的工作。 3.2.2 Matching Component 比對組件(Matching Component),以下 我們簡稱為 MC,為了提高使用者搜尋的 準確性,此部分主要是協調使用者和系統 之間的工作,首先,必須先進行剖析使用 者查詢所下關鍵字之含意,以提高資料搜 尋之準確性,我們在此採用詞性剖析的方 法來瞭解使用者可能包含的語意,其剖析 的過程中,若所下關鍵字只是一般字詞(如: 王建民),則只需要將此字詞相關資料取出 即可,但關鍵字如果是為句子,則便視為 自然語言剖析,必須清楚句子中的每個詞 性,所以在判斷詞性上,我們採用中央研 究院詞庫小組所研發的一套系統:“CKIP 中文斷詞系統[ 2]”來為我們進行剖析,如 “2007 年王建民的勝投數?”,透過中文斷 詞後如下:“2007年(Nd) 王建民(Nb) 的(DE) 勝投(Na) 數(Neu) 【註 1】”, 我們先在此句中找出重要的名詞,原因為 名詞比其他詞性含有更多的語意[13],進 行剖析,其中取出較固定的名詞:“2007 年”、“王建民”和“勝投”,並將此關鍵字丟 至 Parsers Component ,Parsers Component 從 Ontology Tree 中發現,“王建民”是投手 類別中的實例,“勝投”便是投手類別中的 屬性,“2007 年”亦是屬性之一,便從 Tree 中取出與之相關的資料回傳至 MC,MC 在收到資料後,必須和使用者所下查詢關 鍵字進行比對查證,看是否取出資料有錯 誤或偏差,在合理範圍內之下,MC 再回 傳相關資料給使用者。
註 1:Nd:時間詞 Nb:專有名詞 DE:的, 之, 得, 地 Na:普通名詞 Neu:數詞定詞 3.2.3 Parsers Component 剖析組件(Parsers Component),以下我 們簡稱為 PC,此模組所負責的工作也分為 二個部份: 第一個部份是剖析 AC 所送來的文 件,剖析文件格式且判斷是否正確,並依 檔 案 類 型 存 入 至 OWL Ontology Database。 另一個部份則是負責等待 MC 所需 的資料,MC 會根據使用者關鍵字中,透 過 Ontology Tree 判 斷 , 最 後 從 OWL Ontology Database 中取出資料,最後回送 至 MC 進行比對的工作。 3.3 資 訊 查 詢 模 組 (Information Query Module) 在此模組中,使用者介面透過 AJAX 技術降低使用者等待時間,並且在搜尋上 採用如 Google Suggest 上的技術,利用下 拉式清單回傳可能性的結果數,當關鍵字 有改變,將會不斷的搜尋和回傳,讓使用 者在搜尋所需的資料更加容易。在檢索方 面,除了一般最基礎的基本檢索之外,還 有進階搜尋、歷史事件關聯檢索和自然語 言檢索。 3.3.1 基本和進階搜尋 使用者依關鍵字或字串去進行資料搜 尋,找出使用者所需的資料;進階查詢則 可選擇年月份、資料型態、類別…等等去 進行查詢。 3.3.2 歷史事件關聯檢索 在網際網路盛行之下,新聞每日發行 的數量數以千計,以致於使用者在檢索新 聞時,當看到新聞中的一些專有名詞 (如 人名、地名、新名詞、未知詞…等)或某單 一事件(如 911 事件)時,這些訊息對使用 者來說可能不易去瞭解,若想進一步深入 瞭解,往往需要花一段時間去做資訊搜尋 和蒐集,除此之外,使用者若想持續追蹤 這些訊息,亦需要再花費相當多的時間去 搜尋資訊,因此,本論文發展了一個模組 來解決諸如此類的問題,我們且稱它為 “ 新 聞 事 件 關 聯 與 追 蹤 " (News Event Relation and Tracker; NERT ),此模組主要 負責鎖定某一事情、人物、地名進行相關 資料搜尋和持續追蹤,分析新聞事件所要 表達的語意,並且過濾掉不需要及重複的 資訊;在完成每一個新聞事件之後,再將 這些新聞事件彼此互相關聯,讓整個模組 更加完整,使用者檢索更為方便;此模組 所提出的方法和詳細內容我們將在第四章 加以說明。 3.3.3 自然語言檢索 在一般最常見的查詢便是關鍵字查詢, 但是要選定一個良好且適合的關鍵字就並 非這麼容易,許多人容易選了不適當的關 鍵字,往往使得搜尋結果不是那麼理想, 並且浪費了相當多的時間,因此,自然語 言的檢索便是在搜尋領域的目標之一,為 了 達 到 這 個 目 標 , 我 們 在 此 建 立 出 Ontology ,希望系統在搜尋上能夠提升其 準確性,並且採用 CKIP 中文斷詞系統, 判斷出每個字的詞性和意義,以利於進行 搜尋和推論。 在推論上,我們必須建立一些規則, 並且依照這些規則來建立 Ontology Tree, 並將資料區分成每個不一樣的類別,如 “大象"是一個動物的類別,就不會出現
在植物的類別上,又如“蘋果"是一種水 果,但也有“蘋果電腦",容易在搜尋上 搞混,若在此我們先建立起類別之後,當 我們要找尋“蘋果電腦"的時候,就不易 找到其他不相關的資訊;在類別建立上, 必須建立起“同義"、“互斥"之類需注 意的規則,如“本季"、“當季"、“第 四季"…等等它們是否同義,以避免搜尋 上的誤差。
四、系統實作與 NERT 模組說明
本研究使用語意網中本體論的概念, 建立領域本體論描述知識;我們使用 OWL 為網頁資源之描述語言,並且使用 Protég-é[12]來建構 Web Ontology 之工具,而在 於使用者查詢界面使用 PHP 和 Ajax 技術 作為網頁開發工具。 4.1 資訊擷取模組 由於本系統是以 RSS 文件為資訊來 源,因此如何從網路上擷取 RSS 文件並加 以分類處理,便成了本系統實作時的首要 工作。倘若文件內容過大或是文件數量過 多,系統又需歷經開檔、讀檔與關檔的過 程,則其執行效率勢必會大打折扣,所以, 在此除了保留 RSS 文件原本格式與資訊 之外,還另存了一份資訊到資料庫之中, 以便使用者比對或整合時使用。圖五為擷 取模組之實作界面。 圖五.擷取程式執行畫面 4.2 新聞事件關聯與追蹤 新聞每日發行的數量數以千計,想要 找出某一主題的新聞,往往重複性太高或 準確性太低;並且,在檢索新聞有時看到 專有名詞或未知詞,欲想知道其意義,通 常相當費時費力,所以我們提出了一個方 法 : NERT (News Event Relation and Tracker;新聞事件關聯與追蹤),使用者在 檢索新聞事件時,更增加其“便利性”。 我 們 主 要 的 做 法 是 : 透 過 本 體 論 (Ontology)和建立註解(Annotation)去過濾 其新聞,以達到較高的準確性去建立新聞 事件關聯。 NERT 蒐集的事件主要可分為三類: 人物、事物、地方;再依照這些蒐集的類 型來完成單一新聞事件。圖六為人物新聞 事件範本。 圖六 人物新聞事件範本 在上圖中,A 區為使用者或管理者建 立樣板時,自行輸入的基本資料,好方便 讓自己掌握此新聞事件的基本訊息,而 B 區圖片的方面,系統會自動發送“事件名 稱"去 Google 或 Yahoo 搜尋圖片,搜尋之後會列出相關圖片直接讓使用者點選, 使用者依喜好程度去選擇圖片;C 區新聞 的部份則是利用 RSS 搜集回來,經過系統 之權重分析取出一個代表性新聞,每一則 新聞都可以經過鏈結到網頁看全文。 而主要單一新聞事件又分成二大部份 來進行產生:(1)熱門新聞事件、(2)客製化 新聞新事件。 (1) 熱門新聞事件: 由系統模組自動去記錄點閱率夠高的 新聞,進而去過濾其新聞內文,看是否達 到可以產生“新聞事件"的條件,若條件 達成,則從語意庫取出相關資料來完成此 事件。圖七為熱門事件流程圖。 圖七 熱門事件流程圖 (2) 客製化新聞事件: 客製化新聞事件和熱門新聞事件最大 的不同是由使用者自行產生範本,使用者 透過模組精靈引導輸入一些重要資訊,來 產生新聞事件;在使用者建立好樣板之後, 會先存入資料庫,並且送出一份訂閱資訊 到 NERT 模組,系統會自動搜尋出相關新 聞資訊,再經由演算法編譯整理成新聞事 件,最後回傳給使用者。圖八為客製化新 聞事件流程圖。 圖八 客製化新聞事件流程圖 NERT 模組說明: 在數量相當多的新聞中,要找出與使 用者所需的資訊,其方法大致可分為二 類: (1) 使用專業領域知識(Domain Knowledge) 去分析文章中的人、事、時、地、物等 要素。 (2) 以統計分析(Statistical Analysis)方法直 接從原文判斷語句的重要性。 本 論 文 以 資 訊 擷 取 技 術 (Information Retrieval)為基礎,導入語意網路(Semantic Web)的概念,以找出符合我們所需的文章
段落。 圖九為 NERT 模組流程圖。 圖九 NERT 模組流程圖 NERT 模組流程說明: 系統在抓取資料來完成新聞事件,必 須先有個依據做為擷取資料的標準,而這 個依據便是我們 NERT 中的樣板,所以我 們首先便是建立樣板: (1) 建立樣板:由使用者或管理者建立樣板, 使得資料蒐集之後,可以依照個人需求 來呈現使用者介面,其樣本的組合包含: 關鍵字、排版樣式、權重、基本資料。 A 關鍵字:依每一個事件所專注的重 點,建立出關鍵字,如以“棒球" 為例,所建立的樣本可能就會以 “ 勝 投 " 、 “ 三 振 " 、 “ 全 疊 打"…等等來建立其關鍵字,這些 字眼對於“棒球新聞事件"來說, 就顯的格外重要。 B 排版樣式:在新聞事件搜尋完成之 後,可依每位使用者的喜好程度進 行排版。 C 權重:管理者和使用者建立樣板時, 需建立一些重要的關鍵字,並且設 定權重,表示此關鍵字在此新聞事 件中的重要程度,讓系統有個基準 去抓取所需的資料。 D 基本資料:建立新聞事件時,輸入 的一些基本資料,如事件發起人、 成立時間、活動主題…等等。 (2) 新聞內文剖析: 當決定一個新聞事件主題之後,系統 會自動找出相關新聞,進而取出所建立樣 板(Template)進行比對。在比對時,在同一 日期的文章優先進行分析,並且以四個階 段去處理新聞文章:取出樣本關鍵字與權 重、初步篩選、進階篩選、匯總。 在這四個階段中,我們以“王建民 新聞事件"來進行說明: A 取出樣本關鍵字與權重: .王建民 50% .大聯盟 25% .勝 投 15% .洋 基 10% B 初步篩選: (A) 找出所有與關鍵字相關新聞, 再以同一日期去進行處理。 (B) 計算權重值,並取出權重值 高的二十筆資料。此目的為了篩 選出文章中與使用者關鍵字相關 性較高的資料,公式如下: BNW = ∑ a w 其中: BNW : 基本新聞權重值 a: 關鍵字有無出現,有出現則 為 1,反之則 0 w:個別關鍵字的權重值 n:全部關鍵字個數 例子說明:
圖十 王建民新聞 如圖十,4 個關鍵字皆有出現,故式 子如下: BNW = ∑ a w BNW = (1*0.5) + (1*0.25) + (1*0.15) + (1*0.1) BNW = 1 C 進階篩選 (A) 進而再計算權重值最高的新 聞,代表資訊量最豐富。 (B) ANW = T * ∑ tf w + (1-T) * ∑ f w 其中: ANW : 進階新聞權重值 T:標題權重值 tf:標題中的關鍵字出現次數 f:內文中的關鍵字出現次數 例子說明: T 代表標題的權重值,如果 使用者認為標題的重要性大於內 文,其將可把值設為高一點,我 們在此假設 T 為 60%。 其式子我們可發現分為二個部分, 標題和內文,故我們先看標題的 部份,如上圖十,標題關鍵字只 有出現王建民和勝投各一次,故 tf1=1,tf3=1,所以: T * ∑ tf w =0.6 * (0.5+0.15) = 0.39。 而內文部份,王建民和洋基各出 現二次,而勝投和大聯盟也各出 現出一次,故 f1、f4 皆為 2,f2、 f3 為 1,所以: (1-T) * ∑ f w 為 40% * {(0.5*2)+(0.1*2)+(0.25*1)+(0.15* 1) =1.6 ; 故 ANW 為 1.99(0.39+1.6)。 D.匯總:將權重值最高之新聞加入 新聞事件中。 (3) 是否達到新聞事件: 在剖析內文之後,將會找出一篇新 聞是比較有代表性的,其必須再審核是 否達到新聞事件的標準,如果符合標準, 我們則建立新聞事件,反之則存入候選 新聞事件,我們從二個部份進行檢查: A.必要關鍵字:在關鍵字中,可依 管理者或使用者去設定必要條件關鍵 字,如以上例:我們設定王建民為必 要條件;則若搜集而已來的新聞皆沒 有王建民等關鍵字,則不加入新聞事 件。 B.數量:可設定最低數量,如全數 搜集而來的新聞數量不到一定程度, 則不加入新聞事件。其意義為可能其 重要性不夠高。 (4) 存入資料庫與回送給使用者 完成新聞事件後,我們則必須將結
果先存入資料庫中,並且將結果發送給 使用者;若是為候選事件,則一樣存入 資料庫,但不發送給使用者,其目的在 於後續若有相關文章可以使候選事件 達到標準,即可轉換為新聞事件。
五、結論
在資訊量如此豐富的時代,能夠準確 找到所需求的資訊顯得格外重要,因此, 本研究使用語意網中本體論的概念,建立 領域本體論描述知識,以提高系統對於資 料的可讀性,來增加資訊的準確性;除此 之外,為了增加使用者的便利性,本研究 亦提出了新聞事件追蹤與關聯模組,希望 使用者更能夠降低搜尋資料的時間就能擁 有豐富且完整的資訊,同時利用 AJAX 降 低使用者等待時間和伺服器的負擔,希望 提供一個高效能、效率的一個資訊平台。參考文獻
[1] 陳志達、蔡利國,“以 RSS 為基礎之異 質資料源中介系統”, TANET 2007, 南台科技大學,2007 年 9 月。 [2] 馬偉雲、謝佑明、楊昌樺、陳克健, ” 中文語料庫構建及管理系統設計”,中 央 研 究 院 資 訊 科 學 研 究 學 , http://ckipsvr.iis.sinica.edu.tw/。 [3] 劉艾華、余建昇,“以功能性語意註記 協助網際網路搜尋之研究”, 淡江大 學資訊管理系碩士論文,淡江大學, 2006 年 6 月。[4] A.Kalyanpur, J.Hendler, B.Parsia, and
J.Golbeck, “SMORE - Semantic Markup,Ontology,and RDF Editor”, University of Maryland, College Park A. V. Williams Building, 2005.
[5] A.Ankolekar, M.krotzsch, Thanh Tran,
Denny Vrandecic, “The Two Cultures – Mashing up Web 2.0 and the Semantic Web”, ACM, May 2007.
[6] B.Medjahed, A.Bouguettaya, Ahmed K.
Elmagarmid, ”Composing Web services on the Semantic Web”, The VLDB Journal, pp.333-351, 2003.
[7] D.Jiang, C.Chi, L.Liu,”An RDF-Based
Annotation Framework for Providing Web Resources Integrity”, IEEE, 2006.
[8] D.Quan, David R. Karger, ” David R.
Karger”ACM,17-22,May.
[9] F.Xie, H.Gong, D.Deng, S.Wang,
George T. Wang, J.Hu, P.C-Y Sheu, ” INTEGRATING SEMANTIC WEB SERVICESFOR DECLARATIVE ACCESSES IN NATURAL LANGUAGE”, IEEE, 2006.
[10] Haihin Wang, Yan-Qing Zhang,
Rajshekhar Sunderraman, “Soft Semantic Web Services Agent”, IEEE 2004.
[11] L.Ding, T.Finin, A.Joshi, R.Pan, R.Scott Cost, Y.Peng, P.Reddivari, V.Doshi, J. Sachs, “Swoogle : A Search and Metadata Engine for the Semantic Web”,CIKM’04,November 8-13,2004.
[12] Protégé, http://protege.stanford.edu/
[13] R.Angheluta, R.De Busser, M.F.Moens,
“The Use of Topic Segmentation for Automatic Summarization”, ACL-2002.
[14] Resource Description Framework(RDF),
W3C, http://www.w3.org/RDF/
[15] R.Guha, R.McCool, E.Miller,
“Semantic Serch “, ACM,May 2003.
[16] Rui G. Pereira,Mario M. Freire, “SWedt:
A Semantic Web Editor Integrating Ontologies and Semantic Annotations with Resource Description Framework”, IEEE, 2006
[17] Semantic Web, W3C,
http://www.w3.org/2001/sw/
[18] The DARPA Agent Markup Language
Homepage, http://www.daml.org/
[19] Web Ontology Language(OWL), W3C,