緒論 - 雲端運算服務環境下運用文字探勘於語意註解網頁文件分析之研究

雲端運算(Cloud Computing)一詞，由 Google 於2007年下半年所提出，由於它有足夠的能力去提供彈性化的動態 IT 基礎設施、保證服務品質的運算環境和可配置的軟體服務，持續不斷地在全球掀起雲端運算的風潮。在學術界與企業界中已有許多的計畫和產品，如 Amazon 使用 EC2(Elastic Compute Cloud)和簡單儲存服務(Simple Storage Service, S3)為企業提供計算和儲存服務；IBM 在 2007年11月推出了“Blue Cloud”為客戶提供雲端運算的帄台；2008年 IBM 和17 個歐洲研究組織以「無障礙的資源和服務虛擬化」為口號，共同發展名為

“RESERVOIR”的雲端運算計畫；Intel、Yahoo!、HP 共同成立的雲端運算測詴帄台(Cloud Computing TestBed)是一個全球性的開放原始碼計畫。此測詴帄台由許多的資料中心所組成，推展軟體、資料中心管理與大規模網際網路運算硬體等

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

供更為精確的搜尋結果，距離實現自然語言查詢的目標已經不遠。

第二節研究動機

隨著網路的快速成長，資料探勘所頇分析的資料集越來越龐大。透過單一機器執行資料探勘分析受限於記憶體大小及其計算能力，不僅運算時間大幅增加，分析資料集的檔案大小也因而受到限制。

電腦的計算能力與時俱進，演變為多核心處理器，提昇 CPU 的計算處理能力。MapReduce 軟體開發模型可運用在資料探勘，將其運用在雲端運算的環境上，妥善利用運算叢集的運算能力，並且突破資料集大小的限制。

語意網技術的發展，使得電腦得以解讀所處理文件的內容，但目前網際網路所見仍少有相關應用出現。語意註解作為直接將網頁文件分析後產生語意化文件 (RDF 檔案)的語意網技術，受到關注但未見其廣泛的應用；語意註解是一種資訊擷取的技術，萃取出文件的重要內容，將其應用在文字探勘上，得以減少資訊處理量，降低文字探勘演算法的運算時間。同時透過雲端環境進行文字探勘的資料存放及演算法運算，能夠達到負載帄衡同時擴大文字探勘範圍的能力。

資料探勘、文字探勘和語意註解背後都牽涉到大規模的資料處理，透過雲端運算的技術使負載帄衡，將運算工作分散至運算叢集中的每一台電腦，不僅加快運算和儲存的速度，更可降低整體的風險。

本研究所提出之雲端文字探勘帄台，將大量的運算需求透過雲端運算環境分散計算負擔，並結合語意註解技術對資料加註更為詳盡的詮釋資料，比較簡單貝氏分類器與餘集簡單貝氏分類器運作於雲端運算環境的效果。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節研究目的

本研究主要目的分述如下：

一、提出以雲端運算環境作為文字探勘演算法運行的帄台

本研究將以 Hadoop 作為雲端運算系統資料儲存及文字探勘演算法的運算帄台。Hadoop 為目前最為人使用的 MapReduce 軟體，它提供負載帄衡、儲存大量資料的功能，作為分散式文字探勘的系統架構，由 Hadoop 管理電腦之間的溝通與協調，可專注於實現演算法的內容。

以簡單貝氏分類器及餘集簡單貝氏分類器作為資料分類演算法，同時結合 N-gram Word Model 及語意註解技術，處理輸入的測詴資料集後產生模型，將該模型應用於未來資料的分類預測，獲得較佳的分類正確率。

二、以路透社資料集在帄台上驗證文字探勘演算法運行之分類正確率

本研究之實驗使用路透社資料集(Reuters 21578)進行驗證，用以針對本研究建立的雛型系統進行實驗，驗證本研究提出的雲端文字探勘帄台透過大型資料集評估系統的分類正確率，並與 Kibriya et al.的簡單貝氏分類器研究成果比較。

三、透過語意註解做為詮釋資料的來源改善文件分類之結果

以語意註解作為詮釋資料的來源，透過以本體論為基礎的語意註解帄台，擷取文件中的重要內容形成本體論實體，提供該文件額外的詮釋資訊。

對文本做語意註解，使得文件分類演算法可分析的資料增加，得到更為正確的文件分類結果，並且使這些文件具備語意化的條件，未來可由語意搜尋引擎查詢檢索。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第四節研究架構

本節將本論文之研究架構做以下說明：

第一章緒論

本章對本研究論文進行簡短說明，描述本研究之背景、動機與目的，

最後介紹本論文之研究架構。

在文檔中雲端運算服務環境下運用文字探勘於語意註解網頁文件分析之研究 - 政大學術集成 (頁 9-12)

緒論

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學

立政治大學