資料發掘相關選擇
概念樹選擇
屬性抽象化 進行發掘 建立 重整/ 發掘表格
C
意義性判斷
結果呈現
D
相關可以接觸資 源之選擇
選擇是否加入 外界資料 身分輸入、
驗證與授權範圍 之決定
A
肆、系統雛形實作
一、雛形系統環境
根據前述架構,本研究假設存在兩 家相同產業3(如英語教學補習)的機構,
一家為使用簡單型企業內網路架構的小 型本土業者,另一家則為使用複雜型的 企業內網路架構的大型國際連鎖業者,
分別建立其模擬的企業內網路環境與其 對應之Layer 2 Meta Data 資源資料庫,
然後建立雛形系統﹙Prototype﹚,以驗證 本研究之可行性。
本雛形系統所使用的軟體發展環境 較為複雜,主要分為三個部份:(1)企 業內網路環境︰以 Windows98 平台搭載 簡易的 Winproxy 防火牆軟體在單機上進 行企業內網路環境的模擬;(2)企業全
3 為求簡化,本雛形並未假設文件之應用 擴充領域項目。
球資訊網伺服器:包括微軟的 IIS (Internet Information Server)、ASP(Active Server Page)以及嵌入的 Java Applet 元件;(3)
資料庫伺服器:主要為 Microsoft 公司的 SQL Server。而在 IIS 與 SQL Server 之間以 ODBC(Open DataBase Connection)相連,
JAVA Applet 則藉由 JAVA 所提供的 RMI
(Remote Method Invocation)機制,透過自 行 撰 寫 的 RMI-JDBC 伺 服 器 以 JDBC-ODBC 橋接器與 JDBC 和 SQL Server 相連。如圖 14 所示。
ODBC
SQL Server
JESS &Other Applet
JDBC IIS 3.0
ASP
JDBC-ODBC Bridge
RMI Server
圖 14 系統軟體環境架構圖
如以使用者的角度來觀察,在本雛形 中,使用者界面係以 ASP 程式語言,於 IE 瀏覽器中建立視窗的圖形化界面,供使用者 點選並輸入需求,提供使用者方便的界面操 作,將結果以規則及表格的方式呈現給使用 者。
在改寫規則部份,本研究利用國外發 展 已 有 一 定 時 日 的 JESS ( Java Expert System Shell),加強其與全球資訊網資料庫 方面的連結,以獨立的 Java Applet 嵌入 ASP 中,並在 SQL Server 中建立知識庫處理,
以進行對於所有改寫規則的處理。所有改寫 規則均使用 CLIPS 語言,以「條件」與「對
應行動」方式呈現,存在於 SQL Server 資 料庫表格中,可由有權管理者以一般資料庫 存取方式加以修改。
二、雛形系統相關資料庫結構
本雛形的資料庫群可以區分為四個部 份,如圖 15 中之 1、2、3、4 塊。目前實作 了簡單型與複雜型的集權式分工兩者的資 料發掘。由於複雜型的資料來源種類很多、
又有地區性、部門觀點差異,故其相關的資 料庫群之第二、三、四部分均有多組資料的 現象。
企業網路資料來源表
◎用改寫規則改寫查詢條件
◎用QBE方式選擇發掘目標META DATA項目
◎用QBE方式設定目標META DATA項目屬性
◎把QBE條件中的變數用屬性取代 或地區的授權。同樣的,對Meta Data資料來 源組之ID編碼也採質數。模組二讓使用者對 於所選取之Meta Data組內所有表格的屬
性,用QBE(Query By Example)的方式設 定篩選條件。但因未實作專有名詞辭典,所
步」、「下一步」的方式,使用者可以從同一 棵概念樹相同概念層次的不同屬性值的選 擇中,得到同一概念層次的多個規則,而不 必像Han之演算法,即使是同概念層次的相 關規則發掘,每一次資料發掘都必需重頭從 起始表格開始作起。
四、 雛形展示
為了展示雛形中的一些機制,我們假 設前述大型國際連鎖業機構欲從本研究所 建立之虛擬企業內網路空間資料中找出「存 在於企業內網路中某一特別範圍 URL 位址 為 10.10.0.0~10.10.255.255(URL 位址為 10.10.xxx.xxx),包含來自企業內網路網站 上的網頁文件與透過閘道器轉來的其他文 件等。針對不同的創造軟體、表現在創造日 期與檔案尺寸上的概念特性為何?」;另一 方面,也想了解「符合同樣條件的創造軟體 間在概念上如何區分?如果引用企業內不 同觀點的概念樹將會得到哪些不同的 知 識?」。以下即為此模組之展示。
我們並假設 Meta Data 文件開發工具 表中,所用之 Software 由於不同部門的觀 點差異,有兩棵概念樹。一棵 Tree_C5_1 是一般使用部門的觀點,對他們而言,文件 的製作軟體第一層可能分為 Office(一般辦 公室使用)、Internet(網路使用)、DTP(桌 上排版)三者,如圖 17。另一棵 Tree_C5_2 是文件開發部門的觀點,對他們而言,文件 的 製 作 軟 體 第 一 層 可 能 分 為 Content_Creator ( 以 撰 寫 內 容 為 目 的 )、
Layout_Creator(以排版為目的),如圖 18。
使用者先登錄使用者 ID 與密碼,並且 由系統確認使用者的身份與相關授權(包括 工作相關部門、工作相關層級,及其所屬地 區),以及決定其可使用的資源後,即可由 其在圖 19(為第二模組之一畫面)選擇資 料發掘的原始資料對象。根據使用者選擇資 料發掘的目標資料,系統配對輔助資料發掘 之規則知識庫與概念樹群,如果有一個以 上,則由使用者進行選擇。在本範例中,假 設我們複選 Material_C1(企業內網路網站 上的網頁文件)與 Material_C2(透過閘道 器轉來的其他文件),對於適用於此一組合 資料發掘的概念樹,由於此處只能單選不能 複 選 , 所 以 假 設 我 們 先 選 擇 第 一 組 Tree_C5_1 , 而 企 業 規 則 知 識 庫 選 Knowledge_C5。
使用者再在圖 20(也是第二模組畫面 之一),使用者用QBE方式選擇發掘目標 Meta Data項目,並可對所選擇的Meta Data 的表格相關屬性進行更進一步的設定。在本 例中,我們選取Meta Data中開發工具之軟 體屬性、日期之創造日期與日期格式屬性,
以及檔案類型之尺寸屬性,並設定基本資料 表中之URL。此後,系統將進入第三模組。
系統先根據使用者在第二模組所選定之企 業規則知識庫(Knowledge_C5),將前面第 二模組所有輸入的篩選條件改寫成Clips的 語句,運用一般常識型的改寫規則、一般網 際網路的改寫規則、以及應用領域的改寫規 則的知識庫對其進行改寫規則的處理,處理
完的Clips語句,再改寫回原有的篩選條件 示。簡略來說,此特性規則是指「在 10.10.0.0
~ 10.10.10.255.255 的 子 網 路 中 , 60% 用 Office 軟體創造的文件都是很久以前創造 的,尺寸都較大。」
若我們再進入模組二功能一中,同樣 複選 Material_C1 與 Material_C2,但這次概 念樹,我們選擇 Tree_C5_2(如圖 18),進 行資料發掘。得到之特性規則簡略來說,將 會是「在 10.10.0.0~10.10.10.255.255 的子
網路中,50%用 Content_Creator 軟體創造的 文件都是很久以前創造的,尺寸都是中等 概念樹有二,Tree_C3、 Tree_C5 分別適用 於台灣與香港。對於台灣地區分公司的人來 說,台灣語(Taiwanese)是一種官方語言
(Official Language),而英語(English)是
9 後者即是Han的多重概念樹的涵義。
一種外語(Foreign Language)。但對於香港 地區分公司的人來說,英語則是一種官方語 言,而台灣語是一種外語。
在使用者 Eric 登入後,經由系統模組 一功能二檢核出此使用者擁有台灣與香港 兩個地區的身分授權。在進入模組二功能一 中,先選擇 Material_C3(台灣企業網路網 站上的網頁文件),對於適用於此一組合資 料發掘的概念樹,只有 Tree_C3,開始進行 資料發掘。經由 QBE 界面進行相關的選取 與設定、若其設定抽象化屬性值個數上限為 3 、 選 擇 特 性 規 則 、 目 標 屬 性 選 擇 Language 、 目 標 屬 性 值 選 擇 Foreign_Language。可以得到之特性規則,
簡略來說,是指「在台灣分公司中大部份外 語的文件的都是很久以前創造的,尺寸都是 中等的。」
若我們再進入模組二功能一中,選擇 Material_C4(香港企業網路網站上的網頁 文件),對於適用於此一組合資料發掘的概 念樹,只有 Tree_C4,開始進行資料發掘。
並對系統作與上述類似的選擇,可以得到之 特性規則,簡略來說,將是指「在香港分公 司中一半以上外語的文件都是很久以前創 造的,尺寸都是小的」。可見即使不同資料 來源內含相同的資料,但因一些因地制宜的 概念並不一致,會發掘與解讀出不同的規 則。
圖 17 Software 概念樹 Tree_C5_1
圖 18 Software 另一概念樹 Tree_C5_2
圖 19 雛形中第二模組之一畫面(可選目標資料來源與輔助知識)
圖 20 雛形中第二模組之一畫面(可設定 QBE 之條件)
圖 21 雛形中第三模組之一畫面(列出三部分之 SQL)
圖 22 雛形中第四模組之一畫面(列出發掘結果)