• 沒有找到結果。

一個具可適性之Web 資料倉儲系統之研發與實作(3/3)

N/A
N/A
Protected

Academic year: 2021

Share "一個具可適性之Web 資料倉儲系統之研發與實作(3/3)"

Copied!
10
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

一個具可適性之 Web 資料倉儲系統之研發與實作(3/3)

計畫類別: 個別型計畫 計畫編號: NSC92-2213-E-002-001- 執行期間: 92 年 08 月 01 日至 93 年 07 月 31 日 執行單位: 國立臺灣大學電機工程學系暨研究所 計畫主持人: 陳銘憲 報告類型: 完整報告 處理方式: 本計畫可公開查詢

中 華 民 國 93 年 12 月 13 日

(2)

行政院國家科學委員會專題研究計畫成果報告

一個具可適性之 Web 資料倉儲系統之研發與實作(3/3) Design and Implementation of an Adaptive Web Warehousing System

計畫編號:NSC-92-2213-E-002-001- 執行期限:92 年 8 月 1 日至 93 年 7 月 31 日 主持人:陳銘憲教授 臺灣大學電機工程學系暨研究所 一、中文摘要 在網際網路成為新一代媒體的今日, 如何從龐大且雜亂無章的瀏覽記錄挖掘出 有價值的使用者行為,便成為所有網路服 務者亟需面對的課題。本研究之主要目的 為建置 Web 環境應用所需的資料倉儲,包 含資料轉換程序與資料倉儲系統架設,最 後整合資訊勘測的諸項技術,包括相關 性、分類與瀏覽路徑等,以尋求隱含於大 量使用者資訊中的行為模式,此勘測結果 可提供使用者個人化的資訊服務,亦可回 授至本倉儲系統以動態的調校資料儲存結 構,維持系統最佳化,此一具可適性之特 點將特別適用於目前線上的 Web 環境。具 體而言,整合以上各項技術成為一適合 Web 的應用環境且具線上分析勘測功能之 資料倉儲系統是本計畫的首要目標,因 此,我們針對資料倉儲系統之需求而研發 資料擷取、儲存與勘測機制及其系統架構。 關鍵詞:網際網路,線上分析處理,資料 倉儲,資訊勘測,可適性 英文摘要

As Internet technologies develop rapidly these years, more and more people are attracted by various web applications. How to collect and save the user data efficiently and to find the valuable knowledge from the huge data have become important topics. In this project, the high-efficiency data

collection mechanism and corresponding data processing steps for web environments are first being developed. Second, the OLAP techniques are utilized to build a well-found Web warehousing system. Additionally, data mining capabilities, i.e., association, classification and traversal pattern, are devised to explore the user behaviors hidden in large amount of user data. The mining results offer personal services for Web users, and can be feedback for our system to trigger the dynamic adjustment of storage architectures for optimizing the system. This adaptive characteristic is most suitable for online Web systems. In concrete, integrating the technologies mentioned above to build an adaptive web warehousing system with the OLAM functionality is our objective of this project.

Keywords: Internet, OLAP, Data Warehousing, Data Mining

一、前言 近年來,隨著網際網路的蓬勃發展, 越來越多的人們接觸並使用網際網路上的 各式應用服務,而目前 Web 所提供的平台 由於操作容易且普遍具有圖形介面,因此 最為人們廣泛使用,像是電子商務、遠距 教學、遠距醫療、數位圖書館/博物館等各 式各樣的應用便在 Web 環境中應運而生,

(3)

在絕大多數的應用中,均有一個重要的共 通點,也就是對於資料的儲存及處理相當 的重視,除了妥善的規劃安排伺服器端欲 提供給使用者的資料外,相對的使用者也 會在瀏覽網站時留下許許多多的資訊,針 對這些急速增加的使用者資訊,如何整理 及有效的儲存已經成為不可忽視的問題, 而如何在這些使用者資訊中尋求出更有價 值資訊的方法,提供給網站的系統管理員 或是公司以更深入的瞭解使用者行為是更 具重要性的一項課題。 二、研究目的 針對在 Web 環境中的種種應用所蒐集 得到的使用者資料,包括使用者提供的個 人基本資料或是瀏覽網頁的過程記錄等, 這些資料會快速的累積,因此必須透過有 效率的方式來儲存更進而處理,這即為資 料倉儲(Data Warehousing)的範疇,在經過 整理建構成為資料立方體(data cube)後,便 可 利 用 線 上 分 析 處 理 (OLAP , On-Line Analytical Processing)的功能來提供系統管 理者對於其使用者的行為有整體性的瞭 解,一些統計數據更可簡易便利的查詢得 到。 更進一步的若要將這些使用者資料轉 化成更具價值的知識,便必須利用資訊勘 測的技術,因此本計畫的主題即是針對在 Web 環境中的應用所蒐集產生的資料,整 合線上分析處理與資訊勘測的技術以進行 分析,最後得到隱含在這龐大資料中的寶 貴知識。 具體而言,本研究計畫符合了現今資 料庫產業發展的一個重要方向 – 建立決 策支援系統(Decision Support System),而 資料倉儲與線上分析處理是決策支援系統 的主要部份;決策支援系統不但是目前主 要的資料庫發展者的開發重點,同時也已 出現了許多的商業產品與服務。然而,支 援決策系統對於資料庫的需求,與傳統的 線上交易資料庫有著極大的差異。對於此 資料庫技術的發展,本研究計畫將著重於 資料倉儲與線上分析處理技術的研究,以 解決新的需求;而另一著重點在於適用於 Web 應用的資訊勘測技術的整合,我們將 研究一系列資訊勘測方法﹐在不侵犯客戶 隱私及能提高服務品質之前提下,我們計 畫要勘測的資訊包括:(1) Association (關 連性),即使用者在 Web 環境中瀏覽/交易 行 為 間 之 關 連 性 、 (2) Classification ( 分 類),即針對使用者的行為模式予以分類、 (3) Traversal Patterns (瀏覽路徑),即使用者 在 Web 環境中之瀏覽網頁路徑習慣。這些 資訊之勘測將有助於系統資源的規畫與提 供更多的加值性服務。 綜上所述,本研究計畫的目的在於將 資料倉儲中線上分析處理的技術與資訊勘 測 加 以 整 合 , 成 為 一 個 線 上 分 析 勘 測 (OLAM,On-Line Analytical Mining)的系 統,此線上分析勘測系統其實就是結合資 料倉儲中線上分析處理的技術與資訊勘測 的技術,把原始資料(raw data)利用線上分 析處理後進而作為資訊勘測的資料來源, 並發展線上分析勘測系統使得勘測的過程 更具互動性且能讓使用者的主觀判斷更能 融入其中,以精準地找出符合使用者需求 的知識。 近年來,由於網際網路的快速成長, 讓各式各樣的應用服務在其上興起,包括 有電子商務、遠距教學、遠距醫療、數位 圖書館等。資料倉儲與線上分析處理技術 可以有效的統整上述應用服務的使用者資 訊,而資訊勘測系統可針對上述應用服務 的使用者進行行為模式的分析以提供使用 者個人化的資訊服務;結合了線上分析處 理與資訊勘測的技術更可以使得這些資料

(4)

可以結構化的儲存、呈現並轉化為寶貴的 知識。針對 Web 的應用環境,我們期望此 一研發建構一個整合性的線上分析勘測系 統之研究成果期可為國家實驗網路提供同 時深具前瞻技術與實用價值之助益。 三、文獻探討 本計畫所應用之多維度資料立方體技 術,其理論基礎、建置技術、與相關之效 能增進演算法,在許多文獻中被提出與討 論。在 [13] 當中,作者提出了多維度資 料立方體之理論基礎與運作方式。在其後 的研究中 [10],延伸先前結果發展出在相 關的實體化技術與索引選擇的技術,使多 維度資料立方體的運作效率更為精進。另 在 [7] 的研究中,亦發展出更高效率的的 多維度資料處理技術。 而在線上分析處理與資料倉儲部份, 亦 有 許 多 相 關 的 研 究 與 應 用 發 展 。 在 [8][17]的研究中,資料倉儲的查詢及維護 成本的最佳化問題得到了初步的解決。而 在管理方面,資料倉儲運作參數設定的問 題,在 [24] 的研究中提出了一個啟發式 的演算法以獲得較好的運作效率。而在討 論 OLAP 技術於資料倉儲中之應用研究 時,如何選擇影響具系統運作效能之虛擬 檢視表以進行實體化為多維度資料立方體 之 檢 視 表 選 擇 問 題 ( problems of view selection),在一系列的研究中[5] [9] [18] [23] [25] 中進行了廣泛及深入地探討。 在另一方面,本計畫相關之資訊勘測 的 技 術 , 如 關 連 性 規 則 探 勘 演 算 法 (Association Rules Mining)在 [1] 及 [2] 的研究中首先提出,並在接下來數年間針 對各式不同的應用環境與效能增進技術的 研究上,有十分徹底及豐富的研究成果。 而其衍生之分析 Web 環境中瀏覽網頁路徑 習慣之瀏覽路徑探勘(Traversal Patterns)在 [6] 的研究中,提出了具體而完整的解決 方法。 基於以上文獻所提供之理論基礎與研 究成果,本計畫結合多維度資料立方體、 資料倉儲管理及資訊勘測等資訊技術,進 行整合性的研究,以建立線上分析勘測系 統。 四、研究方法 本研究計畫發展整合資料倉儲及資訊 勘測等相關關鍵技術,並針對 Web 環境的 應用服務建立線上分析勘測系統。對此目 標,我們首先建立 Web 環境資料搜集的機 制,以進行使用者行為分析。其後研究重 點著重於研發線上分析處理的技術以有效 的將所搜集的資料予以結構化,並研發相 關資訊勘測技術用以尋求使用者在 Web 的 應用環境之行為模式。最後藉由整合前三 項之成果,建立一整合性的 Web 資料倉儲 及勘測系統。 首先,建立有效且正確的使用者資訊 搜集機制是主要重點,預期可能遭遇的困 難在於現有之 HTTP 協定下, Web 伺服器 上所搜集到的存取記錄(access log)大多不 能有效的界定單一使用者之存取行為;為 摒除代理快取伺服器(proxy server)所提供 之快取服務照成使用者的存取記錄皆只記 錄相對應的代理快取伺此資訊短缺問題, 我們藉由先前研究所實作出 APCS (Access Pattern Collection Server)的技術[14],在不 侵犯使用者個人隱私及能提高服務品質之 前提下,進行有效且正確地使用者端資料 搜集任務;亦即在首部份的研究方法為利 用 瀏覽器的 cookie 機制或代理人(agent) 技術來延伸與加強 APCS 原本的架構與功 能,以針對不同的 Web 應用服務,建立相 關且完整的 Web 環境資料搜集機制。 在使用者行為分析的研究中,我們藉

(5)

由 Association (關連性)以分析使用者在 Web 環境中瀏覽/交易行為間之關連性,並 使用 Classification (分類)技術對使用者的 行為模式予以分類。最後應用 Traversal Patterns (瀏覽路徑)之資料技術,探勘使用 者在 Web 環境中之瀏覽網頁路徑習慣。此 研究成果將有助於系統資源的規畫與提供 更多的加值性服務。 在計畫的核心部份,研發線上分析處 理與資訊勘測的技術是主要重點。藉由線 上分析處理是此軟體技術,可快速地透徹 資料內容所代表的資訊,並且可以選擇各 種不同的觀點(view)來解釋原始的交易資 料。有別於傳統的資料庫系統對於線上交 易 處 理 (OLTP , On-Line Transaction Processing)的處理能力,支援決策系統需 有更進一步的資訊系技術。因此我們研究 線上分析處理相關技術以處理(1)具歷史 性的資料並預估未來的趨勢、(2)合併許多 不同異質的資料來源,包括不同的資料格 式、資料品質、(3)相關的資料組織技術、 存取方法及資料呈現技術。 對於上述增進線上分析複雜的查詢及 資料呈現能力,本計畫以多維度資料立方 體來建立並實作此線上分析處理模型;舉 例建立一個銷售量的資料倉儲會包含了以 下維度:時間、銷售地區、業務員及產品 等以解釋一筆交易資料的內容,通常這些 維 度 內 會 包 含 層 級 從 屬 關 係 (concept hierarchy),例如時間維度會包含了年、季、 月、日,地區維度會包含了縣、市、區, 以多維度資料立方體處理線上分析查詢的 好處在於其內容已包含了所有的維度構成 的資料空間內所有的值,及對各維度的整 合(aggregation)運算結果,系統運作上,我 們指定了各資料維度的值(value of each dimension),就可以準確地查詢出該筆交易 內容,且可以對於任一或多個維度進行整 合性的查詢,也可進行跨層級的交叉查詢。 對於線上分析處理的技術,本計畫研 究以下三種架構:(1)關聯性線上分析處理 (ROLAP,Relational OLAP)、(2)多維度線 上分析 處理(MOLAP ,Multi-Dimensional OLAP) 、 (3) 整 合 型 線 上 分 析 處 理 (HOLAP,Hybrid OLAP);ROLAP 的查詢 是即時產生,可查詢到最詳細的資料層 級,但每次分析查詢都直接存取資料庫, 因此效率較低;而 MOLAP 是將預先計算 好的多維度資料立方體以可快速查詢的特 殊資料結構直接儲存於資料庫,每次就直 接對此資料結構進行查詢,因此查詢效率 高,但是可查詢的項目是固定的且佔有相 當的空間,較不具即時性。而 HOLAP 綜 合兩者的特性,將資料層級較高以 MOLAP 的方式便利較大規模的查詢,而對於細部 查詢則採用 ROLAP 的方式來即時對資料 庫進行查詢。針對不同 Web 應用服務的特 性,本計畫研究不同的線上分析處理模 型,以應用於即時性的需求及不同使用者 人數環境等。線上處理分析的系統架構及 多維度線上分析處理的系統架構所圖一及 圖二所示。 交易處理系統 資料呈現 OLAP介面 整合性 資料 基礎資料 資料倉儲系統 (RDBMS) 關聯性OLAP Engine 資料庫連接 應用程式 交易處理系統 資料呈現 OLAP介面 整合性 資料 基礎資料 整合性 資料 基礎資料 資料倉儲系統 (RDBMS) 關聯性OLAP Engine 資料庫連接 應用程式 圖一 關聯性線上分析處理的系統架構 交易處理系統 整合性 資料 基礎資料 資料庫連接 應用程式 資料呈現 多維度資料立方體 OLAP介面 交易處理系統 整合性 資料 基礎資料 整合性 資料 基礎資料 資料庫連接 應用程式 資料呈現 多維度資料立方體 OLAP介面 圖二 多維度線上分析處理的系統架構

(6)

在資訊勘測的技術與 Web 資料蒐集機 制與線上分析處理技術整合方面,計畫以 資料倉儲中所建立的資料立方體為基準, 在其上進行各種資訊勘測;並將線上分析 勘測的過程分為六個步驟: (1) 整合(APCS)模組與資料倉儲系統,達 成資料搜集與資料載入資料倉儲自 動化。 (2) 建 立 索 引 / 虛 擬 化 資 料 表 具 體 化 機 置。 (3) 建 立 與 應 用 目 標 相 符 的 資 料 立 方 體,且所有勘測過程中會用到的維度 均會包含於此資料立體塊內,並連結 資料倉儲系統與線上分析處理模組。 (4) 建立完善的線上分析處理的前端使 用者介面,提供完整的資料立方體操 作功能與資訊勘測功能。 (5) 進行全系統測試;將資訊勘測結果與 OLAP 模組及 APCS 模組的資料進行 驗證、比對,以測試線上分析勘測系 統的完整性。 (6) 系統最佳化;由線上分析處理前端的 查詢與資訊勘測結果,對於系統操作 參數進行調整,包括資料倉儲的索引 /虛擬資料表進行具體化的調整、對於 MOLAP 與 ROLAP 的資料層級調 整,及對於資訊勘測演算法的相關參 數進行調整,並傳回相關模組進行修 正,以達到最佳的分析效率。可使線 上分析勘測系統真正成為「可適性」 的系統。 藉由本研究計畫的執行,我們研發上 述之相關關鍵技術,針對 Web 環境的應用 服務建立線上分析勘測系統。 五、結果與討論 本計畫依工作重點及執行時間分為以 下三個階段 (1) 建立在 Web 伺服器上搜集使用者資 訊的機制與規劃適用於 Web 環境之 資訊勘測技術 (2) 建置 Web 環境應用所需的資料倉儲 (3) 整合完整的 Web 資料倉儲系統及系 統最佳化 在第一階段計畫中,我們已研發了能 整理且有效儲存這些資料的機制,並從這 些使用者資訊中尋求出更有價值的知識, 以提供給網站的系統管理者參考,以更深 入的瞭解使用者行為。相對於傳統媒體, 而網際網路卻可在某種程度上識別使用 者。若網站實施會員制,更可在使用者登 入時,即時認證個人身份。這個差異使得 網站服務提供者可針對「網頁存取記錄」, 應用新一代的資料儲存技術—資料倉儲 (Data Warehousing)與資料分析技術—資訊 勘測(Data Mining),將存取記錄從資料轉 化成可精確瞭解使用者行為的寶貴知識。 針對在 Web 環境中的種種應用所搜集得到 的使用者資料,透過有效率的方式來儲存 更進而處理。在經過整理建構成為資料立 方體後,再利用線上分析處理的功能來提 供系統管理者對於其使用者的行為有整體 性的瞭解,一些統計數據更可簡易便利的 查詢得到。更進一步的若要將這些使用者 資料轉化成更具價值的知識,便必須利用 資訊勘測的技術,因此本計畫的主題即是 針對在 Web 環境中的應用,研發有效率的 資 料 搜 集 機 制 , 配 合 資 料 清 理 (data cleaning)、資料轉換(data transformation)與 資料整合(data integration)等技巧來建構一 Web 資料倉儲,進而整合線上分析處理與 資訊勘測的技術以進行分析,最後得到隱 含在這龐大資料中的寶貴知識。 在第二階段研究成果中,以延續第一 階段的研究成果與建置資 Web 資料倉儲為 主。首先的研究成果為設計 Web 資料倉儲

(7)

的實體資料架構。此部份之設計包括 (1)單一使用者基本資料,內容為彙整所 有使用者的個人資料、聯絡資料、接 觸記錄等資料,建立單一使用者的基 本資料。此部分為整體資料倉儲的核 心。 (2)彙整後瀏覽記錄(Aggregated Browsing Log):根據不同時間區間有不同的記 錄項目與彙整方法,產生不同時間的 瀏覽資料倉儲。越近期的瀏覽行為, 所記錄的資料也越詳細。本階段研究 此一倉儲之區間間隔為一個月、三個 月、六個月。 (3) 網 頁 所 屬 組 群 資 料 (Clusters of pages):將網頁之關係以樹狀描述並 歸類,以進行分析瀏覽行為。本網頁 會根據目前最近點選次數自動決定 其分類樹狀深度,最近越少點選者其 分類越粗略。 (4) 系 統 管 理 資 料 庫 (Administrative databases):包含前端資訊擷取/處理/ 轉換模組所使用之規則資料表(rules tables)與其他系統維護及管理所需之 資料庫。 本階段研究設計的 Web 資料倉儲實體 架構如圖三所示: Administrative Databases Administrative Databases

Single User View

Single User View

Aggregated Browsing Logs Aggregated Browsing Logs Recent 1 Month Recent 3 Months Recent 6 Months Page Clusters Page Clusters C1 (P11,P12,P13..) C2 (P21,P22,P23..) C2 (P31,P32,P33..) Page Clusters Page Clusters C1 (P11,P12,P13..) C2 (P21,P22,P23..) C2 (P31,P32,P33..) Rules for Parsers Results of Mining Maintenance Plans Architecture of The Adaptive Web Warehouse

Transformation Rules 圖三、Web 資料倉儲實體架構 除 Web 資料倉儲的實體資料架構設計 外,第二階段研究成果亦包含 Web 記錄檔 與資料倉儲資料處理程序之設計。設計的 Web 資料倉儲處理程序如圖四所示: Web Warehouse Web Warehouse Information Parsers Information Parsers Web Logs Web Logs Logs for HTML pages Logs for XML documents Web Logs Web Logs Logs for HTML pages Logs for XML documents Parser for information in Related files Parser for information in XML Parser for DB logs Information DB Dynamic Pages Data Transformation Data Loading Related DBs Data Cleansing 圖四、Web 資料倉儲處理程序 Web 資料將處理程序主要分為以下項 目: (1)資料來源: Web 資料倉儲的資料來源主要可分 為兩部分,分別為網站所擷取之使用者 瀏覽記錄(file access log)與相關網頁向 資料庫進行查詢(Query)之記錄。為使資 料倉儲系統可適用於各類型網站,系統 需具備轉換此形態記錄成為索取資訊記 錄(requested information log)之功能。亦 即使用者之瀏覽記錄必須加工處理,使 之成為結構性資料(structured data),才可 瞭解標籤中資料的意義並存入資料倉 儲。 (2)資料意義展現與資料萃取: 此部份程序包含資訊剖析及資訊樹 狀描述模組。此部份研究根據不同的原 始資料型態,如非結構化的 HTML 頁面 與半結構化的 XML 文件,設計對應的 資訊剖析模組。並將剖析後的資訊瀏覽 記錄,描述成樹狀關係,再利用相關描 述技術如 Root Labeled Tree(RLB)描述 來源資訊。

(3)資料處理:

此部份包含資料萃取、轉換及載入 模組。各模組根據所需選取所需之資料

(8)

來源,並建立規則資料庫,記載所有來 源資料所承載的資訊,與對應的目的地 表格欄位之關係。為節省儲存空間與增 進日後查詢效率,名稱相關資訊皆以對 應表(Mapping Tables)進行編碼轉換後進 行儲存。最後資料載入程序可將 Web 瀏 覽 資 訊 轉 入 結 構 化 的 關 連 式 資 料 庫 (RDBMS)中。透過前述之各程序,瀏 覽行為所對應之相關資訊,可存入相關 之瀏覽記錄資料表與單一使用者資料 庫。各頁面相關之資訊樹狀描述及統計 資料,也一併進行載入與更新。 而前述各模組可透過資料庫系統軟體 包 裝 成 單 一 程 序 組 (Transformation Packages),並與資料庫管理系統之管理與 排程功能整合,以達成資料倉儲之定期載 入、轉換與更新之自動化。 在第三階段的計畫中,工作重點為研 發適用於 web 的資訊勘測技術、建置線上 分析處理系統與系統整合。基於先前所研 發之線上分析處理系統技術,整合相關資 料庫及處理程序,並提供使用者各種不同 的觀點(view)來解釋原始的交易資料,以達 成快速地透徹資料內容所代表資訊之目 的。最後整合完整的 Web 資料倉儲系統並 測試調整以確保系統之最佳化。此階段之 研究成果主要分為以下幾部份: (1) 建立分析模型 建 立 以 整 合 型 線 上 分 析 處 理 (HOLAP)為技術背景的分析模型,規畫 在前端線上分析處理系統中合適的資料 維度、維度間的層級從屬關係、充足的 度量維度(measure dimension)。並討論在 HOLAP 的環境下,MOLAP 與 ROLAP 間轉換的時間及機制。 (2) 建立整合型線上分析處理系統 以現有 RDBMS,設計相關資料查 詢與維護指令(DML & DDL),並透過與 前端線上分析處理之軟體整合,建立 Web 應用分析的多維度資料立方體。並 開發加強型查詢與資料整合指令,整合 為整合型線上分析處理系統。 (3) 改進前端線上分析處理的互動式使 用者介面 透過介面設計與執行批次檔撰寫, 改進線上分析處理軟體之介面功能,協 助使用者進行線上分析處理的基本操 作,包括 pivot、roll-up、drill-down、 slice-and-dice 等。讓使用者有最大的操 作自由度,並能保持分析查詢的彈性。 (4) 完成資料勘測技術與線上分析處理 整合 藉由前階段所開發之資料轉換模 組,轉換 Web 資料倉儲存之各項資訊, 提供資料勘測技術完整且資料品質高之 分析資料源,充份地利用資料倉儲及線 上分析處理對於將原始資料同質化及結 構化後的優勢,進行使用者瀏覽行為勘 測,並再回饋至資料轉換與載入模組, 儲存於倉儲系統供後續分析使用。 (5) 資料驗證與系統維護 分段進行資料倉儲架構修正及勘測 結果驗證。並藉由所建立系統維護機 制,持續進行資料搜集、資訊整合、與 資訊勘測三部份工作,調整各資料處理 模組與分析模組,定期進行系統效能調 整。。 此階段針對資料倉儲、線上分析處理 及資訊勘測三項技術進行系統整合之研 究,建立包括線上分析處理技術融入資訊 勘測程序、線上分析處理之資料立方體與 資料倉儲系統整合、資料倉儲系統提供具 良好品質之資料源供資訊與分析結果回存 資料倉儲等程序,讓各系統模組間資訊可 有效率地傳輸、運用。且最後建立之系統 維護機制可持續進行資料搜集、資訊整合

(9)

與資訊勘測三部份工作,確保系統維持良 好之運作效率。 參與本計畫的研究人員透過這個計畫 各階段之研究,學習 Web 環境中的的資料 倉儲建構技術,設計具理論基礎及考量實 際運作需要之系統架構與分析模組,充份 應用所學相關資料技術於實用。並透過系 統建置過程,增加開發系統軟體的系統分 析、系統開發、測試驗證等實務經驗。由 研究發展中所得到的經驗和成果可以提供 線上資料分析儲存的相關資訊系統參考使 用。本計畫對於如何整合應用新一代的資 料儲存技術—資料倉儲與資料分析技術— 資訊勘測,將存取記錄從資料轉化成可精 確瞭解使用者行為的寶貴知識,可提供實 務經驗供相關資訊系統參考使用。我們可 以預期 Web 資料倉儲系統之重要性必將與 日俱增,而藉由本計畫之研究成果,期可 為國家實驗網路提供同時深具前瞻技術與 實用價值之助益。 六、參考文獻

[1] R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules in Large Databases”, Proceedings of

1994 International Conference on Very Large Data Bases, September 1994,

Pages 478 – 499

[2] R. Agrawal, T. Imielinski and A. Swami, “Mining Association Rules between Sets of Items in Large Databases”,

Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, 1993, Pages 207 –

216

[3] J. Chang and S. Lee. Query reformulation using materialized views in data warehouse environment. In Proc.

Of the Int’l Workshop on Data Warehousing and OLAP, pages 54—59,

1998.

[4] S. Chaudhuri and U. Dayal, “An Overview of Data Warehousing and OLAP Technology”, SIGMOD Record

26(1): 65-74, 1997

[5] S. Chaudhuri, R. Krishnamurthy, S. Potamianos, and K. Shim. Optimizing queries with materialized views. In Proc.

Of Int. Conference On Data Engineering,

1995.

[6] M.-S. Chen, J.-S. Park and P. S. Yu, ``Efficient Data Mining for Path Traversal Patterns,'' IEEE Trans. on

Knowledge and Data Engineering, Vol.

10, No. 2, pp. 209-221, Arpil 1998

[7] H. Gupta. Selection of views to materialize in a data warehouse. In ICDT, pages 98—112, 1997.

[8] H. Gupta and I. S. Mumick. Selection of views to materialize under a maintenance cost constraint. Lecture Notes in

Computer Science, 1540:453—470,

1999.

[9] A. Gupta, V. Harinarayan, and D. Quass. Aggregate-query processing in data warehousing environments. In The VLDB

Journal, pages 358—369, 1995.

[10] H. Gupta, V. Harinarayan, A. Rajaraman, and J. D.Ullman. Index selection for OLAP. In Proceedings of

ICDE, pages,208—219, 1997.

[11] J. Han, S. Chee, and Y. J. (Chiang) Tam, “Issues for On-Line Analytical Mining of Data Warehouses”, Proceedings of the

1998 SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery(DMKD'98), June 1998, Pages

2:1 - 2:5

[12] J. Han, J. Pei, and Y. Yin. Mining Frequent Patterns without Candidate Generation. Proceedings of the 2000

ACM-SIGMOD International Conference on Management of Data, May 2000.

[13] V. Harinarayan, A. Rajaraman, J. D. Ullman, “Implementing Data Cubes Efficiently”, Proceedings of the 1996

SIGMOD Conference, 1996

[14] M. Kamber, J. Han, and Y. J. (Chiang) Tam, “Metarule-Guided Mining of Multi-Dimensional Association Rules Using Data Cubes”, Proceedings of the

3rd International Conference on Knowledge Discovery and Data Mining(KDD'97), August 1997, Pages

207 – 210

[15] H.-Y. Kao, S.-H. Lin, J.-M. Ho and M.-S. Chen, ``Mining Web Information

(10)

Structures and Contents based on Entropy Analysis,'' accepted by IEEE

Trans. on Knowledge and Data Engineering, 2003.

[16] H.-Y. Kao, J.-M. Ho, and M.-S. Chen, ``Information Clustering on DOM with Multi-Granularity Centroid Converging for Web Information Hierarchy Mining,''

Proc. of the IEEE 2003 Intern'l Conf. on Web Intelligence (WI-2003), October 13-17, 2003.

[17] W. J. Labio, D. Quass, and B. Adelberg. Physical database design for data warehouses. In Proceedings of the

International Conference of Data Engineering, pages 277—288, 1997.

[18] A. Y. Levy, A. O. Mendelzon, Y. Sagiv, and D. Srivastava. Answering queries using views. In Proceedings of the 14th

ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database

Systems, pages 95—104, San Jose,

Calif.,1995.

[19] C.-C. Lin and M.-S. Chen, ``VIPAS: Virtual Link Powered Authority Search in the Web,'' Proc. of the 29th Intern'l

Conf. on Very Large Data Bases (VLDB-2003), September 9-12, 2003.

[20] C.-H. Lee, C.-R. Lin and M.-S. Chen, “On Mining General Temporal Association Rules in a Publication Database,” Proceedings of the First

IEEE International Conference on Data Mining (ICDM-01), November 29 -

December 2, 2001.

[21] C.-R. Lin and M.-S. Chen, “A Robust and Efficient Clustering Algorithm based on Cohesion Self-Merging,” Proceedings

of the 8th ACM SIGKDD International Conf. on Knowledge Discovery and Data Mining (KDD-2002), July 23-26, 2002.

[22] C.-R. Lin, C.-H. Lee, M.-S. Chen and P. S. Yu, “Distributed Data Mining in a Chain Store Database of Short Transactions,” Proceedings of the 8th

ACM SIGKDD International Conf. on Knowledge Discovery and Data Mining

(KDD-2002), July 23-26, 2002.

[23] H. Mistry, P. Roy, S. Sudarshan, and K. Ramamritham. Materialized view selection and maintenance using multi-query optimization. In Proceedings

of SIGMOD Intl. Conf. On Management

of Data, 2001.

[24] D. Theodoratos and T. K. Sellis. Data warehouse configuration. In The VLDB

Journal, pages 126—135, 1997.

[25] J. Yang, K. Karlapalem, and Q. Li. Algorithms for materialized view design in data warehousing environment. In The

參考文獻

相關文件

利用 Microsoft Access 資料庫管理軟體,在 PC Windows 作業系統環境 下,將給與的紙本或電子檔(如 excel

下列哪一種記憶體屬於非揮發性記憶體, 不會因電源關閉而使其中的資料消 失, 但是可以透過電壓的方式重複抹除資料, 可用於基本輸入/ 輸出系統 (Basic Input / Output System,BIOS)

五、依據保有資料之重要性,評估有備份必要時,予以備

sort 函式可將一組資料排序成遞增 (ascending order) 或 遞減順序 (descending order)。. 如果這組資料是一個行或列向量,整組資料會進行排序。

利用 Microsoft Access 資料庫管理軟體,在 PC Windows 作業系 統環境下,將給與的紙本或電子檔(如 excel

 點擊按鈕「Rollover」,工作表便會剪下紅色線以下的資料並複 製至綠色線以下的儲存格。

 試著將投影片第 12 頁的範例加上 critical section ,解決 race

利用 BeautifulSoup 將網頁資料以 html.parser 儲存 (