一、雛形系統環境

資料發掘相關選擇

概念樹選擇

屬性抽象化進行發掘建立重整/ 發掘表格

意義性判斷

結果呈現

相關可以接觸資源之選擇

選擇是否加入外界資料身分輸入、

驗證與授權範圍之決定

肆、系統雛形實作

根據前述架構，本研究假設存在兩家相同產業³（如英語教學補習）的機構，

一家為使用簡單型企業內網路架構的小型本土業者，另一家則為使用複雜型的企業內網路架構的大型國際連鎖業者，

分別建立其模擬的企業內網路環境與其對應之Layer 2 Meta Data 資源資料庫，

然後建立雛形系統﹙Prototype﹚，以驗證本研究之可行性。

本雛形系統所使用的軟體發展環境較為複雜，主要分為三個部份：（1）企業內網路環境︰以 Windows98 平台搭載簡易的 Winproxy 防火牆軟體在單機上進行企業內網路環境的模擬；（2）企業全

3 為求簡化，本雛形並未假設文件之應用擴充領域項目。

球資訊網伺服器：包括微軟的 IIS （Internet Information Server）、ASP（Active Server Page）以及嵌入的 Java Applet 元件；（3）

資料庫伺服器：主要為 Microsoft 公司的 SQL Server。而在 IIS 與 SQL Server 之間以 ODBC（Open DataBase Connection）相連，

JAVA Applet 則藉由 JAVA 所提供的 RMI

（Remote Method Invocation）機制，透過自行撰寫的 RMI-JDBC 伺服器以 JDBC-ODBC 橋接器與 JDBC 和 SQL Server 相連。如圖 14 所示。

ODBC

SQL Server

JESS &Other Applet

JDBC IIS 3.0

ASP

JDBC-ODBC Bridge

RMI Server

圖 14 系統軟體環境架構圖

如以使用者的角度來觀察，在本雛形中，使用者界面係以 ASP 程式語言，於 IE 瀏覽器中建立視窗的圖形化界面，供使用者點選並輸入需求，提供使用者方便的界面操作，將結果以規則及表格的方式呈現給使用者。

在改寫規則部份，本研究利用國外發展已有一定時日的 JESS （ Java Expert System Shell），加強其與全球資訊網資料庫方面的連結，以獨立的 Java Applet 嵌入 ASP 中，並在 SQL Server 中建立知識庫處理，

以進行對於所有改寫規則的處理。所有改寫規則均使用 CLIPS 語言，以「條件」與「對

應行動」方式呈現，存在於 SQL Server 資料庫表格中，可由有權管理者以一般資料庫存取方式加以修改。

二、雛形系統相關資料庫結構

本雛形的資料庫群可以區分為四個部份，如圖 15 中之 1、2、3、4 塊。目前實作了簡單型與複雜型的集權式分工兩者的資料發掘。由於複雜型的資料來源種類很多、

又有地區性、部門觀點差異，故其相關的資料庫群之第二、三、四部分均有多組資料的現象。

企業網路資料來源表

◎用改寫規則改寫查詢條件

◎用QBE方式選擇發掘目標META DATA項目

◎用QBE方式設定目標META DATA項目屬性

◎把QBE條件中的變數用屬性取代或地區的授權。同樣的，對Meta Data資料來源組之ID編碼也採質數。模組二讓使用者對於所選取之Meta Data組內所有表格的屬

性，用QBE（Query By Example）的方式設定篩選條件。但因未實作專有名詞辭典，所

步」、「下一步」的方式，使用者可以從同一棵概念樹相同概念層次的不同屬性值的選擇中，得到同一概念層次的多個規則，而不必像Han之演算法，即使是同概念層次的相關規則發掘，每一次資料發掘都必需重頭從起始表格開始作起。

四、雛形展示

為了展示雛形中的一些機制，我們假設前述大型國際連鎖業機構欲從本研究所建立之虛擬企業內網路空間資料中找出「存在於企業內網路中某一特別範圍 URL 位址為 10.10.0.0～10.10.255.255（URL 位址為 10.10.xxx.xxx），包含來自企業內網路網站上的網頁文件與透過閘道器轉來的其他文件等。針對不同的創造軟體、表現在創造日期與檔案尺寸上的概念特性為何？」；另一方面，也想了解「符合同樣條件的創造軟體間在概念上如何區分？如果引用企業內不同觀點的概念樹將會得到哪些不同的知識？」。以下即為此模組之展示。

我們並假設 Meta Data 文件開發工具表中，所用之 Software 由於不同部門的觀點差異，有兩棵概念樹。一棵 Tree_C5_1 是一般使用部門的觀點，對他們而言，文件的製作軟體第一層可能分為 Office（一般辦公室使用）、Internet（網路使用）、DTP（桌上排版）三者，如圖 17。另一棵 Tree_C5_2 是文件開發部門的觀點，對他們而言，文件的製作軟體第一層可能分為 Content_Creator （以撰寫內容為目的）、

Layout_Creator（以排版為目的），如圖 18。

使用者先登錄使用者 ID 與密碼，並且由系統確認使用者的身份與相關授權（包括工作相關部門、工作相關層級，及其所屬地區），以及決定其可使用的資源後，即可由其在圖 19（為第二模組之一畫面）選擇資料發掘的原始資料對象。根據使用者選擇資料發掘的目標資料，系統配對輔助資料發掘之規則知識庫與概念樹群，如果有一個以上，則由使用者進行選擇。在本範例中，假設我們複選 Material_C1（企業內網路網站上的網頁文件）與 Material_C2（透過閘道器轉來的其他文件），對於適用於此一組合資料發掘的概念樹，由於此處只能單選不能複選，所以假設我們先選擇第一組 Tree_C5_1 ，而企業規則知識庫選 Knowledge_C5。

使用者再在圖 20（也是第二模組畫面之一），使用者用QBE方式選擇發掘目標 Meta Data項目，並可對所選擇的Meta Data 的表格相關屬性進行更進一步的設定。在本例中，我們選取Meta Data中開發工具之軟體屬性、日期之創造日期與日期格式屬性，

以及檔案類型之尺寸屬性，並設定基本資料表中之URL。此後，系統將進入第三模組。

系統先根據使用者在第二模組所選定之企業規則知識庫（Knowledge_C5），將前面第二模組所有輸入的篩選條件改寫成Clips的語句，運用一般常識型的改寫規則、一般網際網路的改寫規則、以及應用領域的改寫規則的知識庫對其進行改寫規則的處理，處理

完的Clips語句，再改寫回原有的篩選條件示。簡略來說，此特性規則是指「在 10.10.0.0

～ 10.10.10.255.255 的子網路中， 60% 用 Office 軟體創造的文件都是很久以前創造的，尺寸都較大。」

若我們再進入模組二功能一中，同樣複選 Material_C1 與 Material_C2，但這次概念樹，我們選擇 Tree_C5_2（如圖 18），進行資料發掘。得到之特性規則簡略來說，將會是「在 10.10.0.0～10.10.10.255.255 的子

網路中，50%用 Content_Creator 軟體創造的文件都是很久以前創造的，尺寸都是中等概念樹有二，Tree_C3、 Tree_C5 分別適用於台灣與香港。對於台灣地區分公司的人來說，台灣語（Taiwanese）是一種官方語言

（Official Language），而英語（English）是

9 後者即是Han的多重概念樹的涵義。

一種外語（Foreign Language）。但對於香港地區分公司的人來說，英語則是一種官方語言，而台灣語是一種外語。

在使用者 Eric 登入後，經由系統模組一功能二檢核出此使用者擁有台灣與香港兩個地區的身分授權。在進入模組二功能一中，先選擇 Material_C3（台灣企業網路網站上的網頁文件），對於適用於此一組合資料發掘的概念樹，只有 Tree_C3，開始進行資料發掘。經由 QBE 界面進行相關的選取與設定、若其設定抽象化屬性值個數上限為 3 、選擇特性規則、目標屬性選擇 Language 、目標屬性值選擇 Foreign_Language。可以得到之特性規則，

簡略來說，是指「在台灣分公司中大部份外語的文件的都是很久以前創造的，尺寸都是中等的。」

若我們再進入模組二功能一中，選擇 Material_C4（香港企業網路網站上的網頁文件），對於適用於此一組合資料發掘的概念樹，只有 Tree_C4，開始進行資料發掘。

並對系統作與上述類似的選擇，可以得到之特性規則，簡略來說，將是指「在香港分公司中一半以上外語的文件都是很久以前創造的，尺寸都是小的」。可見即使不同資料來源內含相同的資料，但因一些因地制宜的概念並不一致，會發掘與解讀出不同的規則。

圖 17 Software 概念樹 Tree_C5_1

圖 18 Software 另一概念樹 Tree_C5_2

圖 19 雛形中第二模組之一畫面（可選目標資料來源與輔助知識）

圖 20 雛形中第二模組之一畫面（可設定 QBE 之條件）

圖 21 雛形中第三模組之一畫面（列出三部分之 SQL）

圖 22 雛形中第四模組之一畫面（列出發掘結果）

在文檔中簡單與複雜型企業內網路下資料發掘的架構 (頁 27-36)

一、雛形系統環境

肆、系統雛形實作

一、雛形系統環境

四、 雛形展示

四、雛形展示