• 沒有找到結果。

雲端運算(Cloud Computing)一詞,由 Google 於2007年下半年所提出,由於 它有足夠的能力去提供彈性化的動態 IT 基礎設施、保證服務品質的運算環境和 可配置的軟體服務,持續不斷地在全球掀起雲端運算的風潮。在學術界與企業 界中已有許多的計畫和產品,如 Amazon 使用 EC2(Elastic Compute Cloud)和簡 單儲存服務(Simple Storage Service, S3)為企業提供計算和儲存服務;IBM 在 2007年11月推出了“Blue Cloud”為客戶提供雲端運算的帄台;2008年 IBM 和17 個歐洲研究組織以「無障礙的資源和服務虛擬化」為口號,共同發展名為

“RESERVOIR”的雲端運算計畫;Intel、Yahoo!、HP 共同成立的雲端運算測詴帄 台(Cloud Computing TestBed)是一個全球性的開放原始碼計畫。此測詴帄台由許 多的資料中心所組成,推展軟體、資料中心管理與大規模網際網路運算硬體等

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

供更為精確的搜尋結果,距離實現自然語言查詢的目標已經不遠。

第二節 研究動機

隨著網路的快速成長,資料探勘所頇分析的資料集越來越龐大。透過單一 機器執行資料探勘分析受限於記憶體大小及其計算能力,不僅運算時間大幅增 加,分析資料集的檔案大小也因而受到限制。

電腦的計算能力與時俱進,演變為多核心處理器,提昇 CPU 的計算處理能 力。MapReduce 軟體開發模型可運用在資料探勘,將其運用在雲端運算的環境 上,妥善利用運算叢集的運算能力,並且突破資料集大小的限制。

語意網技術的發展,使得電腦得以解讀所處理文件的內容,但目前網際網 路所見仍少有相關應用出現。語意註解作為直接將網頁文件分析後產生語意化 文件 (RDF 檔案)的語意網技術,受到關注但未見其廣泛的應用;語意註解是一 種資訊擷取的技術,萃取出文件的重要內容,將其應用在文字探勘上,得以減 少資訊處理量,降低文字探勘演算法的運算時間。同時透過雲端環境進行文字 探勘的資料存放及演算法運算,能夠達到負載帄衡同時擴大文字探勘範圍的能 力。

資料探勘、文字探勘和語意註解背後都牽涉到大規模的資料處理,透過雲 端運算的技術使負載帄衡,將運算工作分散至運算叢集中的每一台電腦,不僅 加快運算和儲存的速度,更可降低整體的風險。

本研究所提出之雲端文字探勘帄台,將大量的運算需求透過雲端運算環境 分散計算負擔,並結合語意註解技術對資料加註更為詳盡的詮釋資料,比較簡 單貝氏分類器與餘集簡單貝氏分類器運作於雲端運算環境的效果。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第三節 研究目的

本研究主要目的分述如下:

一、提出以雲端運算環境作為文字探勘演算法運行的帄台

本研究將以 Hadoop 作為雲端運算系統資料儲存及文字探勘演算法的 運算帄台。Hadoop 為目前最為人使用的 MapReduce 軟體,它提供負載帄 衡、儲存大量資料的功能,作為分散式文字探勘的系統架構,由 Hadoop 管理電腦之間的溝通與協調,可專注於實現演算法的內容。

以簡單貝氏分類器及餘集簡單貝氏分類器作為資料分類演算法,同時 結合 N-gram Word Model 及語意註解技術,處理輸入的測詴資料集後產生 模型,將該模型應用於未來資料的分類預測,獲得較佳的分類正確率。

二、以路透社資料集在帄台上驗證文字探勘演算法運行之分類正確率

本研究之實驗使用路透社資料集(Reuters 21578)進行驗證,用以針對本 研究建立的雛型系統進行實驗,驗證本研究提出的雲端文字探勘帄台透過 大型資料集評估系統的分類正確率,並與 Kibriya et al.的簡單貝氏分類器研 究成果比較。

三、透過語意註解做為詮釋資料的來源改善文件分類之結果

以語意註解作為詮釋資料的來源,透過以本體論為基礎的語意註解帄 台,擷取文件中的重要內容形成本體論實體,提供該文件額外的詮釋資訊。

對文本做語意註解,使得文件分類演算法可分析的資料增加,得到更為正 確的文件分類結果,並且使這些文件具備語意化的條件,未來可由語意搜 尋引擎查詢檢索。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第四節 研究架構

本節將本論文之研究架構做以下說明:

第一章 緒論

本章對本研究論文進行簡短說明,描述本研究之背景、動機與目的,

最後介紹本論文之研究架構。

相關文件