• 沒有找到結果。

建構資料庫(Apache wiki,2012),如 Facebook、Adobe、Trend Micro、Twitter 等 知名公司皆採用 Hbase 以達到彈性、高速讀取寫入、隨機從硬碟讀取資料以及低 Oriented Mapping(ORM)機制。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

文獻探討 第二章

本章節首先就目前最廣為人知的雲端運算、雲端運算分散式架構 Hadoop、分 散式儲存及 Map/Reduce 作概念性介紹。再細說本研究使用、運行於 Hadoop 上方 的欄導向資料庫 HBase,包含其 Table 儲存格式、應用及其限制。

第一節 雲端運算

雲端運算為近年來學術界及業界相當重視的議題,市場甚至預期在未來五至 十年內會有許多新的應用跟技術改變人們使用資訊科技的方式。雲端運算自分散 式平行運算與網格運算發展出來,專注於大量資料的密集處理,需要充足的運算 資源,並將複雜的運算與儲存工作分散到網路雲端並隱藏起來。維基百科表示,

雲端運算是一種基於網際網路的運算方式,透過這種方式,共享的軟硬體資源和 信息可以按需求提供給運算機和其他設備。而雲端運算應提供基於虛擬化技術的 服務,使使用者能快速部署資源,並按需求及其資源使用量付費。除此之外,雲 端運算使用戶可方便地通過網際網路獲取海量信息處理之服務,並降低用戶對於 IT 專業知識的依賴(Wikipedia,2012)。

圖 3. NIST 美國國家標準局對雲端運算的定義

根據 National Institute of Standards and Technology (NIST)定義,雲端運算為使

(Deployment Models)與三種服務模式(Service Model)。

五項基本特徵分別為:

1. On-demand self-service:使用者可依自己的需求直接於網路上取得所需之 雲端服務,如網路硬碟或虛擬伺服器等服務,而不需經過人工作業的方 式。

2. Broad network access:使用者可以使用電腦、手機或是更小的部件,以標 準的溝通機制透過網路取得服務。

3. Resource Pooling:多人共享資源,如頻寬、儲存空間、運算資源以及記 憶體。

4. Rapid elasticity:使用者能夠彈性且快速地重新佈署他們所需的服務。

5. Measured Service:服務是能夠被監控與測量其狀態的。

四種佈署模型分別為:

1. Private Cloud:意指企業自行建置雲端運算平台,其建置成本較為昂貴,

但因為企業擁有伺服器控管的權限,所以在安全性及隱私權上的防護較 佳。大型企業通常會建置企業本身的私有雲。

2. Public Cloud:意指建置於遠方租賃的伺服器或是虛擬服務平台,甚至是 服務本身,使企業不用做資源或是伺服器的控管,並且可以彈性的調整 租用量。但因為企業所有的資訊應用資料皆放置於遠端的公有雲上,因 此在安全性與隱私權的威脅相對而言較高。

3. Community Cloud:意指多個組織間互相友善,合作建置共有的社群雲,

使得組織間可以共享其他組織所釋出的資源以及分攤雲端的維護費用。

4. Hybrid Cloud:將以上三種雲混和即為混和雲,是較為複雜的結構,會出 現這種現象通常為私有雲加公有雲。因為某些大型企業會有極大的資源 處理需求,然私有雲的建置費用極其昂貴,因此會動態調用遠方的服務 幫助其運算。

而三種服務模式則分別為:

1. Infrastructure as a service, IaaS:提供運算、儲存以及網路等基礎設備的服 務,以提供內外部使用者存取之用。為了幫助內外部使用者存取使用,IaaS 通常透過虛擬化技術(Virtualization)來完成伺服器整合的基本作業。目前 市面上的 IaaS 以 Amazon EC2(Amazon Elastic Cloud 2), Google Compute Engine 以及 IBM Smart Cloud 最廣為人知。

2. Platform as a Service, PaaS:服務提供商提供運算平台給外部開發人員或 使用者,並提供整合的 API 及相關管理套件方便開發人員構建、開發以 及佈署其系統,但平台管理成本相對昂貴。目前最有名的為 Google 所推 出的 Google App Engine(GAE), Windows 推出的 Azure 以及 Amazon 的 S3。

3. Software as a Service, SaaS:用戶向服務提供商租用雲端應用服務,使用 者透過多種溝通協定對其所租用的軟體進行操作或取得運算結果。所有

第一章中提到,由 Google 所提出的 Google File System(GFS)分散式檔案系統,

對於分散式計算非常重要;因為當資料被放置在不同的機器上時,需要檔案系統 來做適當的管理以及備份。

Google 於 2003 年所提出的 GFS 是一種相當容易擴大檔案系統容量的架構 (Ghemawat, Gobioff et al. 2003),主要應用在大規模、分散式以及需要對大量資料 進行運算的應用。GFS 的運行並不需要企業等級的高階伺服器,它的特點在於能 夠運行在一般使用者的 Personal Computer(PC)上,雖然一般 PC 在損壞率上較伺服 器來得差,但 GFS 提供了相當完整的容錯備援機制,使得即使在較差的環境下依

相關文件