1.1 研究背景
由 於 科 技 的 日 新 月 異 以 及 日 趨 成 熟的 技 術 , 加 速 了 網 際 網 路
(Internet)的普及,使得全球資訊網(World Wide Web)已經成為 現今人類生活上最受歡迎的傳播媒體之一。隨著網際網路技術的發 展,網路上的資訊也以驚人的速度成長。
以 WWW 為例,網頁的資料更新、改版是常發生的事件,因此網站的 維護及重整就變成一項相當重要的課題。在網頁上更改資料是一件相 當累人的事情,但若是能把資料跟樣式切開,這樣資料維護人員就只 要處理資料的更新,而美工人員就單純的改變網頁的樣式,這種方式 也成為了現今網站的一種潮流,再搭配著排版的功能就可以要產生出 一個網頁。如何保存網頁的樣式跟資料,進而利用這些樣式跟資料來 重建出網頁,並讓再生的流程簡單、自動化就是本篇論文的目標。
圖 1-1: XML-based 多媒體文件之擷取與呈現
為了整合各個應用領域的多樣化的網路電子文件,在擴展性、網路 傳輸、資訊交換、及資料整合管理等各方面都具有優越特性之 XML (eXtensible Markup Language) 乃應運而生。
本論文之主題為研究 XML 文件的“資料擷取"(extraction) 和
系統。我們的研究發現,XML 文件的“資料擷取"和“呈現"二個功 能在概念上是兩個相反方向的操作。圖 1-1 顯示網頁擷取和網頁呈現 之概念圖。
假設有一個 e-learning 系統,擷取多份多媒體文件並整合成 XML-based 教材知識庫,這些教材資訊再轉換成各種形式呈現於學習 選所需欄位,系統會產生 BODE Script (用來紀錄 extraction rule),之後遇到類似結構之網頁,只要套用 BODE Script 即可自 動擷取,新版 BODE 系統更具有隨網頁變化而自動修正擷取程序之 功能。
z 呈現(Presentation)
XSLT 是 專 為 XML 資 料 轉 換 以 及 呈 現 所 設 計 之 語 言 , XSLT processor 讀入 XML 文件檔和 XSLT 檔,就可以產生目的文件,例 如,在 e-learning 教材撥放系統中,XML 格式之教材內容透過 XSLT 轉換機制轉成 HTML,搭配 Flash、JavaScript 等多媒體網頁技術,
學生可以透過瀏覽器觀看互動式的教學內容。
擷 取 程 序 已 有 一 些 視 覺 化 工 具 可 以 達 成 , 例 如 BODE 系 統 (Browser-Oriented Data Extraction System)[6][10],它結合 GUI (Graphic User Interface) 的圖形介面應用程式,以 BODE 查詢語言 為基礎,使用者透過圖形介面之操作,系統自動建構出相對應的 BODE 查詢語法架構,利用所產生的 BODE Script,使用者能自動化的萃取 出網站上的資訊,並將資料存成 XML 格式,做更進一步的資訊處理與 整理。
樣式就是網頁的呈現方式,大部分的 HTML 標籤都是用來做樣式 的呈現,搭配 XSLT 我們可以將 XML 資料轉化成我們想要的 HTML 網頁 樣式。但 XSLT 不易撰寫,且較少有 GUI 介面的工具來開發 XSLT。
本論文將研發自動化的 XSLT 產生工具,來達到自動化網站再生 的目地。本論文的主要概念是以 BODE 系統為工具,先進行資料擷取,
藉由紀錄資料擷取的程序,該工具會學習原始網頁檔案與目的資料檔 案之間的映對關係,進而計算出 XSLT。
雙向 XML 轉換元件具有以下優點
z 基於現有擷取工具來發展呈現工具,縮短開發時程。
z 以輸出樣式之畫面作為 XSLT 產生之依據,而非由 XSLT 程式產生 輸出樣式,符合人類習性。
z 擷取與呈現程序對照進行,增加正確性。
1.3 論文架構
在第二章我們介紹 XPath、BODE,以及 XSLT 等相關背景;第三章 則介紹主要演算法;第四章將著重在系統之開發與實作細節;第五章 是整篇論文之總結,以及未來之擴充性探討。