5.1 結論
本論文研究 XML 文件的資料擷取和資料呈現二個功能,並建立自 動化的資料擷取與呈現系統。在資料擷取方面,本論文利用視覺化工 具 BODE 系統來達成,而在資料呈現方面則以 XSLT 來達到相關功能。
開發 XSLT 是一項與輸出端有高度關聯性的程序,需要美工設計 人員與程式設計師緊密的互動,因此撰寫 XSLT 是耗費時間的一項工 作,而本論文的目的是研究 XSLT 的自動生成。本論文的主要概念是以 BODE 系統為工具,先製作一個 sample 網頁並對其進行資料擷取,藉 由紀錄資料擷取的 BODE Script,我們的工具將會學習來源文件 (也 就是 sample 文件 S) 與目的文件 (也就是 XML 資料庫文件) 之間的映 對關係,進而計算出 XSLT,達到自動化網頁再生的目的。
計算 XSLT 的做法主要是使用 regeneration tree,它基本上是 sample 文件 S ,再加上一些屬性來描述文件 S 如何擴展成結果網頁。
Regeneration tree 是由 BODE Script 與 sample 文件 S 兩者計算而得。
本論文設計並實作可以將 regeneration tree 生成 XSLT 的演算法。
5.2 未來工作
本篇論文所提出之演算法所研究之主題有許多相關的研究課 題,我們在這裡提出以下可以擴充的課題:
z 第一點,由於 XSLT 語法是描述 Style Sheet 的語法,而非一般 程式語言,因此在功能方面有許多限制,本演算法可以考慮除 了 XSLT 以外,再加上其他程式語法,使自動化再生更具效率。
z 第二點,我們的演算法所產生的 XSLT 文件
XS
是直接讀取 XML 資料庫文件來輸出網頁。我們建議在XS
與 XML 資料庫文件之間 加入 ViewLet 模組,這個 ViewLet 的功能是讀取 XML 文件的資 料,並處理關聯 (Relation) 或是資料排序過濾等,ViewLet也可以讀取 XML 格式以外的資料檔案,例如關聯式資料庫、格 式化文字檔、半結構化電子文件等,如此能使大幅擴充本演算 法所能處理的文件的範圍,如圖 5-1。
z 最後,本論文所提出的演算法所處理的來源文件與目的文件分 別是 HTML 與 XML,這部份可以擴充為兩者皆為 XML L 文件,使 其更具一般性。
Sample web page
BODE Extraction System
XML Extracted data BODE-Script
XSLT Generator
XSLT
XSLT Processor
Result Document ViewLet
XMLView
圖 5-1: 加入 ViewLet 的網頁再生流程圖
參考資料
[1] http://www.w3c.org.
[2] HTML-Kit. http://www.chami.com/html-kit/.
[3] TIDY. http://www.w3.org/People/Raggett/tidy/.
[4] Xml spy, 2001. http://www.xmlspy.com.
[5] http://tw.yahoo.com.
[6] I-Chen Wu, Jui-Yuan Su, Loon-Been Chen, W. C. Chien, and C. T. Lee,
“DESDL: A Data Extraction Service Description Language”, In the
Proceedings of the International Computer Symposium, NDHU, Hua-lien, Taiwan, December 2002.
[7] “Performance Specification MIL-PRF-87269A Data Base, Revisable- Interactive Electronic Technical Manuals, for the support of ”, Tri-Service Working Group for Interactive Electronic Technical Manuals, October 1995.
[8] James E. Giles III (1994), “Interactive Electronic Technical Manuals (IETMs), Part 2,”CALS/Enterprise Integration Journal, Fall 1994, p72.
[9] “Military Specification MIL-M-87268 Manuals, Interactive Electronic Technical: General Content, Style, Format, and User-Interaction Requirements, ”Tri-Service Working Group for Interactive Electronic Technical Manuals, November 1992。
[10] I-Chen Wu, Jui-Yuan Su, and Loon-Been Chen, “Browser-Oriented Data Extraction”, in 2004 International Computer Symposium (ICS2004), Taipei, December 2004.
[11] E. Pietriga and J.-Y. Vion-Dury, “VXT: Visual XML Transformer”. IEEE Symposium on Visual/Multimedia Approaches to Programming and Software Engineering (Human Centric Computing Languages and Environments), September 2001.
[12] Benoît Marchal, “How an XSLT processor works”, in IBM developerWorks XML zone, March 2004.
[13] Eric Jorgensen and Joseph Fuller (1994), “Interactive Electronic Technical Manuals (IETMs), Part 1”, CALS/Enterprise Integration Journal, Summer 1994, p68
[14] I-Chen Wu, Jui-Yuan Su, and Loon-Been Chen, “A Web Data Extraction Description Language and Its Implementation”, The 29th Annual
International Computer Software and Application Conference (COMPSAC 2005), Edinburgh, Scotland, July 2005.
[15] Zhenjiang Hu, Shin-Cheng Mu, Masato Takeichi, “A programmable editor for developing structured documents based on bidirectional transformations”.
In Partial Evaluation and Semantics-Based Program Manipulation, pp.
178-189. August 2004.
[16] Michael B. Greenwald, Jonathan T. Moore, Benjamin C. Pierc, and Alan Schmitt. “A language for bi-directional tree transformations”. Technical Report Technical Report MS-CIS-03-08, Department of Computer and Information Science University of Pennsylvania, August 2003.
[17] W3C Consortium. “Extensible Markup Language (XML) 1.0 (Second Edition)”, W3C Recommendation, October 2000.
http://www.w3c.org/TR/2000/REC-xml-20001006.
[18] W3C Consortium. “Hyper Text Markup Language”, January 1998.
http://www.w3c.org/Markup.
[19] W3C Consortium, “HTML 4.01 Specification” W3C Recommendation, December 1999. http://www.w3c.org/TR/html4.
[20] W3C Consortium. “XML Path Language (XPath) 1.0”, W3C Recommendation, November 1999. http://www.w3c.org/TR/xpath.
[21] W3C Consortium. “XML Path Language (XPath) 2.0”, W3C Working Draft, April 2005. http://www.w3c.org/TR/xpath20.
[22] W3C Consortium. “XSL Transformations (XSLT) 1.0”, W3C Recommendation, November 1999. http://www.w3c.org/TR/xslt.
[23] W3C Consortium. “XSL Transformations (XSLT) 2.0”, W3C Working Draft, April 2005. http://www.w3c.org/TR/xslt20.
[24] P. Merrick and C. Allen, “Web Interface Definition Language (WIDL)”,
http://www.w3c.org/TR/NOTE-widl-970922, September 1997.
[25] Mark G. Wales, “WIDL: Interface Definition for the Web”, IEEE Internet Computing, Vol. 3, No. 1, pp. 55-59, January 1999.