• 沒有找到結果。

行政院國家科學委員會專題研究計畫 成果報告

N/A
N/A
Protected

Academic year: 2022

Share "行政院國家科學委員會專題研究計畫 成果報告"

Copied!
94
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

應用於格網與可擴充平行系統之通訊最佳化, 廣播與品質 服務排程技術之研究(第 3 年)

研究成果報告(完整版)

計 畫 類 別 : 個別型

計 畫 編 號 : NSC 97-2221-E-216-011-MY3

執 行 期 間 : 99 年 08 月 01 日至 100 年 07 月 31 日 執 行 單 位 : 中華大學資訊工程學系

計 畫 主 持 人 : 許慶賢

計畫參與人員: 碩士班研究生-兼任助理人員:張弘裕 碩士班研究生-兼任助理人員:蔡宗輝 碩士班研究生-兼任助理人員:朱元佑

處 理 方 式 : 本計畫涉及專利或其他智慧財產權,2 年後可公開查詢

中 華 民 國 100 年 10 月 29 日

(2)

行政院國家科學委員會補助專題研究計畫 █ 成 果 報 告

□期中進度報告

※※※※※※※※※※※※※※※※※※※※※※※※※※

※ 應用於格網與可擴充平行系統之通訊最佳化 ※

※ 廣播與品質服務排程技術之研究(3/3) ※

※※※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別:  個別型計畫 □整合型計畫 計畫編號: NSC 97-2221-E-216-011-MY3

執行期間: 99 年 08 月 01 日至 100 年 07 月 31 日 執行單位: 中華大學資訊工程學系

計畫主持人: 許慶賢 中華大學資訊工程學系教授 共同主持人:

計畫參與人員: 陳世璋、陳泰龍 (中華大學工程科學研究所博士生) 徐一中、陳柏宇、張弘裕、蔡宗輝、朱元佑

(中華大學資訊工程學系研究生)

處理方式:除產學合作研究計畫、提升產業技術及人才培育研究計畫、列 管計畫及下列情形者外,得立即公開查詢

□涉及專利或其他智慧財產權,□一年  二年後可公開查詢

(3)

行政院國家科學委員會補助專題研究計畫 █ 成 果 報 告

□期中進度報告

應用於格網與可擴充平行系統之通訊最佳化廣播與品質服務排程技 術之研究(3/3)

計畫類別:  個別型計畫 □整合型計畫 計畫編號: NSC 97-2221-E-216-011-MY3

執行期間: 99 年 08 月 01 日至 100 年 07 月 31 日

計畫主持人: 許慶賢 中華大學資訊工程學系教授 共同主持人:

計畫參與人員: 陳世璋、陳泰龍 (中華大學工程科學研究所博士生) 徐一中、陳柏宇、張弘裕、蔡宗輝、朱元佑

(中華大學資訊工程學系研究生)

成果報告類型(依經費核定清單規定繳交):□精簡報告  完整報告

本成果報告包括以下應繳交之附件:

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

 出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式:除產學合作研究計畫、提升產業技術及人才培育研究計畫、列 管計畫及下列情形者外,得立即公開查詢

□涉及專利或其他智慧財產權,□一年  二年後可公開查詢

執行單位: 中華大學資訊工程學系

中 華 民 國 100 年 10 月 28 日

(4)

目錄

中文摘要... 2

一、緣由與目的...3

二、研究方法與成果...4

三、結果與討論...15

五、計畫成果自評...18

六、參考文獻...18

出席國際學術會議心得報告 (MTPP 2010)...22

出席國際學術會議心得報告 (CSE 2009)...33

出席國際學術會議心得報告 (InforScale 2009)...48

出席國際學術會議心得報告 (ChinaGrid 2008)...78

(5)

行政院國家科學委員會專題研究計畫成果報告

應用於格網與可擴充平行系統之通訊最佳化廣播與品 質服務排程技術之研究

計畫編號:NSC 97-2221-E-216-011-MY3 執行期限:99 年 8 月 1 日至 100 年 7 月 31 日 主持人:許慶賢 中華大學資訊工程學系教授

計畫參與人員: 陳世璋、陳泰龍 (中華大學工程科學研究所博士生) 徐一中、陳柏宇、張弘裕、蔡宗輝、朱元佑

(中華大學資訊工程學系研究生)

一、中文摘要

本計劃是有關應用在格網環境中可擴充平行系統的通訊、廣播與品質服務 排程技術之最佳化。本計畫預計執行期限為三年,第一年,我們開發適用於相 同叢集網格架構的特殊型通訊局部化資料分割技術以及邏輯處理器與資料之間 對應的技術。並且提出適用於不同叢集網格架構的通用型通訊局部化資料分割 技術。利用 Hungarian method 根據已建立的動態評估外部通訊效能的模式在不 同數量的處理器組合下,找出最好的資料分割方式。第二年,在廣播演算法的 設計中,我們分為以圖為基礎與樹狀結構為基礎的演算法,在樹為基礎的演算 法當中,我們規劃運用不同的演算法來改良,為了避免圖形中產生迴圈造成重 複資料的傳遞,我們設計一個預先排程系統來解決。在高品質服務工作排程系 統下,基於傳統的 Min-Min 品質需求排程的基礎,我們提出有效的重新排程演 算法來改善減少工作時間或減少資源的使用量,為資源最佳化重新排程。第三 年,結合服務計算的概念,我們提出以品質服務為基礎的資源與工作排程技術,

包括資源成本(Economic Guided)與時間成本(Performance Guided)最佳化的技術。

基於傳統的 Min-Min、Max-Min 排程,我們也提出二階段、或多階段的重新排程 方法,藉以改善資源的使用效率以及滿足使用者的不同需求。結合格網經濟模 型,這一個部份的研發成果,也導入實際的格網系統進行實驗與部屬。本計畫 預計完成的研究項目,皆已經實作出來,並在相關期刊與研討會發表。

關鍵詞:格網計算、可擴充平行系統、服務式計算、可擴充計算、通訊最佳化、廣播 演算法、P2P 技術、品質服務排程、異質性計算

(6)

二、緣由與目的

可擴充系統(Scalable System)、如多叢集系統、格網系統,已成為新的發展趨勢與廣 泛被接受的計算平台。其中格網系統(Grid system)主要是整合了不同區域和系統的運算 資源,建立一個虛擬並且擁有高度擴充性的資訊系統,用來服務各種不同層面的應用,

包括科學運算、個人服務、社區或企業解決方案等。叢集式格網系統(Cluster grid)就是 計算格網 (Computing grid system)的一個典型的例子。

如同分散式記憶體環境,在格網系統上執行應用程式,某些計算節點可能會因應 程式的需要,透過網路傳送資料給其他的電腦節點。因此,在格網系統下要有效率的 執行一個應用程式,資料的佈署位置往往是降低通訊成本最主要的關鍵。包括靜態資 料儲存的位置、與程式執行期間的動態資料配置。這兩者這都是影響程式效能主要的 關鍵。過去,有許多研究致力於平行系統的通訊最佳化技術。然而,由於格網系統的 網路是動態的、平台是異質的、拓樸是多變的;加上應用領域的不同,過去的研究成 果並無法直接套用在這樣的計算架構上。也因此,有越來越多的研究探討在這種可擴 充式計算(Scalable Computing) 架構下的通訊與排程技術。

有效的廣播排程,可以避免通訊競爭的產生,並且在最短排程步驟內完成外部的 訊息傳遞。有別於傳統的排程策略,我們建立多個適應於不同網路拓樸的生成樹,可 以依據資訊的來源,選擇最適合的生成樹執行廣播排程。除此之外,亦根據網路中工 作站的效能,再將所建構出來的排程做最佳化的調整。為了評估所提出來的排程技術 效能,我們實作了演算法與其他廣播演算法,做效能上的比較。實驗結果顯示,在不 同的網路架構之下,表現出相當不錯的效果,在高度異質性的網路環境,可以有更明 顯的改善。

網格計算闡述一個簡單的概念,使用網格計算能夠整合伺服器、存儲系統以及網 路,使之成為一個很大的高性能服務系統。其專門針對複雜科學計算的計算模式,這 種計算模式是利用網際網路把分散在不同地理位置的電腦組織成一個虛擬的超級計算 機。每個叢集都是分散在異質性的網路上,隨著網格計算的發展,在處理資料的分配 上必須有更快且有效的方法讓平行應用程式可獲取更高的執行效率。

(7)

了無法滿足有特殊需求的工作內容,其整體系統效能也會因此大打折扣。有鑑於此,

因 應 新 世 代 的 服 務 式 計 算 (Service Computing) 與 服 務 導 向 架 構 (Service Oriented Architecture),在計算格網系統上的工作排程技術,勢必需要加入可以滿足這樣目標的 技術,這也是目前及待解決與改良的問題。因為這些研究的方向使得格網的高效能運 算技術有更多的發展空間與更多的研究方向。

如同前面所提到的,雖然有許多過去的研究都在探討這些問題,但是我們所要解 決與提出的是,適應於動態格網架構,並且以服務導向架構(SOA)為基礎,提出滿足使 用者服務品質(QoS)的解決方案。

鑒於可擴充計算(Scalable Computing)已經成為新的計算模式。不論是多叢集系統,

格網系統,異質性網路系統,網路通訊則是這些系統共同倚賴的基本要素。因此,在 可擴充式計算系統,降低網路通訊成本往往是許多研究的第一考量。從演算法的角度 來說,最基本且重要的通訊機制就是訊息的廣播;而從資源管理與服務導向計算的角 度而言,有效運用系統資源與工作排程的相關技術,最受到重視。因應新世代的服務 式計算(Service Computing)與服務導向架構(Service Oriented Architecture),在 本計畫中,我們將研發多個應用於格網與可擴充平行系統之通訊最佳化、廣播與以品 質服務為基礎的資源與工作排程技術。本計畫有三個主要的研究課題:一、發展適應 於多叢集系統下之通訊最佳化技術;利用多叢集系統下之處理器重新排序技術改善排 程工作的結果,此項成果可以直接應用在異質性格網系統。二、發展應用於異質性網 路的訊息廣播技術;根據不同的網路拓樸,採用適當的排程策略,並且開發最佳化的 評估模組,以實際的 work-load 分析效能。三、發產以品質服務為基礎的資源與工作 排程技術,結合格網經濟模型,將研發成果導入實際的格網系統。

三、研究方法與成果

在發展應用於格網與可擴充平行系統之通訊最佳化、廣播與品質服務排程技術之 研究,我們的工作主要包含以下研究課題:

a. 多叢集系統通訊最佳化與動態資料配置 b. 最佳化叢集式格網拓墣研究

c. 適應於動態異質網路之訊息廣播技術

(8)

d. 以品質服務為基礎的資源與工作排程 e. 整合格網經濟模型與網頁服務

3.1 多叢集系統通訊最佳化與動態資料配置

此項研究的主要目的是,為了減少資料透過網路在不同叢集系統之間傳輸,提高 資料的局部性,使資料傳輸儘可能發生在同網域的部分,以降低網路的通訊成本。如 圖一,來源端(Source)與目的端(Target)代表三個電腦叢集系統,每個叢集都有三個節點 進行科學運算,為了減少通訊成本,降低傳輸資料透過網際網路的量,他們重新排序 了節點的邏輯序號。原本要跨叢集的通訊變成不需要跨越叢集,通訊仍在本地端進行。

當然,我們必須處理更一般化的例子,因為叢集系統往往是大小不一。對此,我們可 以分成兩種情況討論。一種是對於特殊叢集格網拓墣,利用數學公式找出最佳化的資 料切割;另一種則是針對一般型的格網拓墣,提出節點取代(Node Replacement)的策略。

圖一 通訊局部化示意圖

另外,異質性格網系統不同的地方是每個電腦叢集可能擁有不同的計算節點,包 含計算能力與頻寬限制。對新的計算環境,我們需要重新開發一套資料傳輸模組,針 對異質性環境,包含不同大小的資料量和不同頻寬的流量限制,提供異質電腦叢集之 間的通訊成本對照表,異質性網路頻寬其示意圖如圖二。

此外,我們亦提出在異質性多叢集網路下的兩種資料配置的方法用於執行平行應 用程式時的資料分配。我們提出這兩個有效的資料分配方法應用在當執行平行應用程 式時能夠讓資料局部化可以減少 cluster 的通訊成本。基於通訊成本的考量下,利用簡 單的邏輯對應技術,使得在格網環境下所執行的平行應用程式獲得有效率的執行來提

(9)

圖二 多叢集之異質性網路頻寬

(a)

(b)

圖三 (a) 不同叢集格網傳輸成本數值 (b) 傳輸成本最佳化數值

我們所提出的資料分配技術,目的是為了降低通訊的成本並加速平行程式在處理 資料時所花費的時間,這個理論是運用在不同通訊成本所組成的環境上。由於我們的 理論分析與程式模擬在不同通訊成本下所執行的結果都比原先未經過處理器重排的配 置方法明顯有顯著的改善,並且優於在未考慮通訊成本情況下的配置方法。顯示這兩

(10)

種資料配置方式是可達到降低通訊成本的目的以及增進平行程式執行的效率。圖四顯 示出不同叢集格網拓墣之通訊成本比較。

圖四 不同叢集格網拓墣之通訊成本比較

3.2 異質網路訊息廣播技術

根據前一部分在通訊最佳化的研究成果,我們進一步發展一般化的通訊最佳化技術,

應用在異質性網路的訊息廣播技術。根據一般常用的多埠(Switch-Based)通訊模式,我們 提出適應於樹狀結構或一般網路架構下的訊息廣播技術。在格網系統中,節點之間的 通訊藉由異質的網路頻寬來廣播與傳送,我們利用以樹狀圖形為基礎的網路架構,設 計一個廣播機制,使邏輯節點透過最佳的廣播技術,將資料分佈在適當的電腦,並且 使得所需廣播的資訊只經過最少的路徑、避免訊息在網路中造成迴圈、以及橋接器產 生訊息轉送過程的衝突。

由於等待廣播的資料是存放在網路節點上,當使用者執行資訊廣播的期間,其餘 網路節點必須按照廣播起始節點順序來讀取。在這種情形之下,廣播排程有規律性的 週期分配,網路上廣播排程的運算負荷將會減少許多。為了減少這種龐大廣播運算成 本,有幾個重要的課題是我們需要考慮的:

1. 挑選適當的演算法減少廣播路徑選擇的時間 2. 減少網路頻寬的佔用

3. 降低網路通訊的成本

我們利用更簡單的廣播排程演算法,設計出更有效率的廣播路徑選擇,除了同樣

(11)

於訊息廣播上較為複雜的排程模式,此架構主要由 Switch、Workstation、Bidirectional Link 組成。分為以下三種情形:

一、 所有的傳送端與接收端皆連接於同一個橋接器(Switch),如圖五(a)

二、 所有的傳送端連接於相同的橋接器,但是接收端連接相對於傳送端在不

同的橋接器上,如圖五(b)

三、 每個傳送端與相對應的接收端接連接於不同的橋接器上,如圖五(c)

對於資訊廣播的排程系統下,在程式執行的各個階段中,所有節點皆同時可廣播 與接收訊息。這種方法有時候會產生訊息碰撞所耗費的時間。

圖五 異質性網路工作站(HNOW)架構傳送端與接收端相關位置

針對 HNOW 的網路架構下,我們開發新的方法 Location Aware Broadcast Scheme (LABS),提昇網路通訊時的頻頻壅塞問題與降低檔案廣播至錯誤路徑的機率。針對不 同的網路結構,我們考量節點數量 s,限制樹狀結構的寬度與高度,避免訊息廣播時的 廣播風爆與衝撞問題的產生,在各個節點建立不同的廣播路徑樹狀結構 Location Oriented Spanning Tree (LST),與其它相關方法比較其執行上的效能,並且執行效能的評 估與測試,利用不同的工具偵測網路當時的效能,再根據所測得的數據給予各個網域 不同的權重值,決定工作與資料廣播的方式。對於分散式訊息廣播的技術,整合出一 套完整的資料配置技術。

(12)

HNOW (Translation) LST SCT

(Optimization)

Not adjust the postorder list from LST

Adjust the postorder list from LST To construct LST for the

switch connecting to the source workstation

To construct SCT according to the postorder list which is

obtained from LST.

A Switch-Based HNOW

圖六 LABS 演算法流程示意圖

對於所設計的 LABS 排程演算法,利用處理器與訊息傳送、接收的關係,可以容易 的找出通訊時最少步驟。演算法主要由圖形中的最 Binomial-Like Tree 所組成(如圖七):

主要將訊息依照節點前後順序排好,在傳送訊息的部分,是依據 Binomial-Like Tree 排 好的節點順序,將訊息一個一個傳送。

我們所設計的演算法將對於訊息廣播排程的缺點與網路頻寬的浪費加以節省,原則 是處理器和訊息的關係依照不會衝突的原則來建樹設計演算法,主要步驟依據網路節 點的子樹大小與運算權重的大小排序,接著將其訊息順序由來源端送到目的端網路節 點。我們也由數據證明所設計的 LABS 演算法之效能比其他方法有更短的網路延遲時 間。

Root switch

- 2

- 1

- 3

0

- 2

……

- 3

0

,

, , ,

,

…… …… ……

( )

- 1

……

……

,

log

2

s

log

2

s

log

2

s

log

2

s

log

2

s   log

2

s

log

2

s   log

2

s

A B C L

(13)

圖八為資料量訊息較小(2048 flits)時所產生的數據。圖九為資料量訊息較大(10240 flits) 時所產生的數據比較。由數據可以得知在不同的網路速度下(2~8 Speed Types),

LABS 都比相關的其他方法有更少的網路訊息傳送延遲,提升網路使用效率。

0 2000 4000 6000 8000 10000 12000

16 32 64 128 256

Average Latency sec)

Number of workstations

2 speed types (LABS) 2 speed types (TWO-VBBS) 4 speed types (LABS) 4 speed types (TWO-VBBS) 6 speed types (LABS) 6 speed types (TWO-VBBS) 8 speed types (LABS) 8 speed types (TWO-VBBS)

圖八 HNOW 網路資料傳送數據比較(2048 flits)

0 6000 12000 18000 24000 30000 36000 42000 48000

16 32 64 128 256

Average Latency sec)

Number of workstations

2 speed types (LABS) 2 speed types (TWO-VBBS) 4 speed types (LABS) 4 speed types (TWO-VBBS) 6 speed types (LABS) 6 speed types (TWO-VBBS) 8 speed types (LABS) 8 speed types (TWO-VBBS)

圖九 HNOW 網路資料傳送數據比較(10240 flits) 3.3 以品質服務為基礎的資源與工作排程

傳統的 Greedy、Min-min、Max-min、STA、STP、MTP 工作排程演算法,無法套用 在服務導向架構(Service Oriented Architecture)的系統中。我們開發以品質服務為基礎之時 間成本最佳化排程技術(Makespan Optimization Rescheduling)與品質服務為基礎之資源成 本最佳化排程技術(Resource Optimization Rescheduling)。

實施的方法上,我們首先發展兩種基本類策略,一是工作時間最佳化重新排程(MOR)

(14)

之測試,主要是利用將負載較重的節點上之工作移到其他閒置節點來降低工作時間二 是資源最佳化重新排程(ROR)測試,應用組合型程式分析,針對資料的部分,我們主要 設計將具有最小工作數量的節點上的工作,移動到其他雖然正在工作中、但尚有閒置 空間的處理器上,用以減少處理器資源的使用量,進而空出節點來提供其他運算工作 的提前執行。

MOR 演算法,我們主要區分為兩個部份:一、資料分配相依於 QoS 標準配置技術;

二、依照比例將負載較重的運算節點的資料移至負載較輕的節點。

針對第一部份,我們將 QoS 為導向的演算法所計算出最佳的排程,再根據 QoS 所 產生出來的資料與處理器對應架構,在第二部份可以有效率將先前的資料配置計算出 負載較重的處理器,將較小的工作移動至負載較輕的節點進行運算,其優點除了能減 少資料重複傳輸的時間之外,進而能降低整體系統程式執行時間。

表一為 MOR 演算法之模擬效能對照表,分別比較了 Min-Min、QoS Guided Min-Min、

MOR 與 Improved Ratio (MOR 比 QoS Guided Min-Min)。

表一 MOR 演算法之效能比較表

(a) (NR=50, QR=30%, QT=20%, HT=1, HQ=1)

Task Number (NT) 200 300 400 500 600

Min-Min 978.2 1299.7 1631.8 1954.6 2287.8

QoS Guided Min-Min 694.6 917.8 1119.4 1359.9 1560.1

MOR 597.3 815.5 1017.7 1254.8 1458.3

Improved Ratio 14.01% 11.15% 9.08% 7.73% 6.53%

(b) (NT=500, QR=30%, QT=20%, HT=1, HQ=1)

Resource Number (NR) 50 70 90 110 130

Min-Min 1931.5 1432.2 1102.1 985.3 874.2

QoS Guided Min-Min 1355.7 938.6 724.4 590.6 508.7

MOR 1252.6 840.8 633.7 506.2 429.4

Improved Ratio 7.60% 10.42% 12.52% 14.30% 15.58%

(c) (NT=300, NR=50, QT=20%, HT=1, HQ=1)

QR% 15% 30% 45% 60% 75%

(15)

(d) (NT=300, NR=50, QR=40%, HT=1, HQ=1)

QT% 15% 30% 45% 60% 75%

Min-Min 879.9 1380.2 1801.8 2217.0 2610.1 QoS Guided Min-Min 558.4 915.9 1245.2 1580.3 1900.6

MOR 474.2 817.1 1145.1 1478.5 1800.1

Improved Ratio 15.07% 10.79% 8.04% 6.44% 5.29%

(e) (NT=500, NR=50, QR=30%, QT=20%, HQ=1)

HT 1 3 5 7 9

Min-Min 1891.9 1945.1 1944.6 1926.1 1940.1 QoS Guided Min-Min 1356.0 1346.4 1346.4 1354.9 1357.3

MOR 1251.7 1241.4 1244.3 1252.0 1254.2

Improved Ratio 7.69% 7.80% 7.58% 7.59% 7.59%

(f) (NT=500, NR=50, QR=30%, QT=20%, HT=1)

HQ 3 5 7 9 11

Min-Min 1392.4 1553.9 1724.9 1871.7 2037.8 QoS Guided Min-Min 867.5 1007.8 1148.2 1273.2 1423.1

MOR 822.4 936.2 1056.7 1174.3 1316.7

Improved Ratio 5.20% 7.11% 7.97% 7.77% 7.48%

使用 ROR 演算法的條件時必須當某計算節點只分配到微小的工作而整體工作時間 與 MOR 演算法相等時,幫助排程系統快速得到一組重配置的方法,所須使用的運算節 點需搜尋該區域網格環境中所使用到的處理器個數,當所有的處理器分配到該工作執 行後不影響整體工作時間時,即完成所有動作。表二為 ROR 演算法之模擬效能對照表。

表二 ROR 演算法之效能比較表

(a) (NR=100, QR=30%, QT=20%, HT=1, HQ=1)

Task Number (NT) 200 300 400 500 600

QoS Guided Min-Min 100 100 100 100 100

ROR 39.81 44.18 46.97 49.59 51.17

Improved Ratio 60.19% 55.82% 53.03% 50.41% 48.83%

(b) (NT=500, QR=30%, QT=20%, HT=1, HQ=1)

Resource Number (NR) 50 70 90 110 130

QoS Guided Min-Min 50 70 90 110 130

ROR 26.04 35.21 43.65 50.79 58.15

Improved Ratio 47.92% 49.70% 51.50% 53.83% 55.27%

(16)

(c) (NT=500, NR=50, QT=20%, HT=1, HQ=1)

QR% 15% 30% 45% 60% 75%

QoS Guided Min-Min 50 50 50 50 50

ROR 14.61 25.94 35.12 40.18 46.5

Improved Ratio 70.78% 48.12% 29.76% 19.64% 7.00%

(d) (NT=500, NR=100, QR=40%, HT=1, HQ=1)

QT% 15% 30% 45% 60% 75%

QOS Guided Min-Min 100 100 100 100 100

ROR 57.74 52.9 48.54 44.71 41.49

Improved Ratio 42.26% 47.10% 51.46% 55.29% 58.51%

(e) (NT=500, NR=100, QR=30%, QT=20%, HQ=1)

HT 1 3 5 7 9

QOS Guided Min-Min 100 100 100 100 100

ROR 47.86 47.51 47.62 47.61 47.28

Improved Ratio 52.14% 52.49% 52.38% 52.39% 52.72%

(f) (NT=500, NR=100, QR=30%, QT=20%, HT=1)

HQ 3 5 7 9 11

QOS Guided Min-Min 100 100 100 100 100

ROR 54.61 52.01 50.64 48.18 46.53

Improved Ratio 45.39% 47.99% 49.36% 51.82% 53.47%

以品質服務(QOS)為導向的工作排程演算法以下面的為主:

for all tasks ti in meta-task Mv (in an arbitrary order) for all hosts m

j

(in a fixed arbitrary order) CTij = etij + dtj

end for end for

do until all tasks with QoS request in Mv are mapped for each task with high QoS in Mv ,

find a host in the QoS qualified host set that obtains the earliest completion time end for

find the task tk with the minimum earliest completion time

assign task tk to the host ml that gives it the earliest completion time

delete task tk from Mv

(17)

find the earliest completion time and the corresponding host end for

find the task tk with the minimum earliest completion time

assign task tk to the host ml that gives it the earliest completion time delete task tk from Mv

update dtl

update CTil for all i end do

其中, CT : Completion time … …….(系統完成時間) dt : delay time ………..(網路延遲時間) et : execute time ………...(單一工作執行時間) i : the job ID ……….(單位工作編號) j : the machine ID ……….(處理器編號)

以工作時間最佳化重新排程 Makespan Optimization Rescheduling (MOR)的工作排程演 算法如下:

QOS guided scheduling algorithm …..

for CT

j in all machines

find out the machine with maximum makespan CTmax and set it to be the standard

end for

do until no job can be rescheduled

for job i in the found machine with CT

max for all machine j

according to the job‟s QOS demand, find the adaptive machine j

if the execute time of job i in machine j + the CT

j

< makespan

rescheduling the job i to machine j

update the CTj and CTmax

exit for

end if

next for

if the job i can be reschedule

find out the new machine with maximum CTmax

exit for

end if next for end do

以運算節點資源最佳化重新排程的 Rseource Optimization Rescheduling (ROR)的工作排 程演算法如下:

QOS guided scheduling algorithm …..

for m in all machines

find out the machine m with minimum count of jobs

end for

(18)

do until no job can be rescheduled

for job i in the found machine with minimum count of jobs

for all machine j

according to the job‟s QOS demand, find the adaptive machine j

if the execute time of job i in machine j + the CT

j

<= makespan CT

max

rescheduling the job i to machine j update the CTj

update the count of jobs in machine m and machine j exit for

end if

next for next for

end do

四、結論與討論

整合格網系統下的訊息廣播演算法與品質服務工作排程技術,我們開發以網頁 為基礎的工作排程選擇器。使用者可以依據個別需要選擇排程系統以及分配的狀 態,設定不同廣播區域的範圍,進而傳送資料至可以提供運算的節點,讓程式在格 網下執行更具彈性。整個計畫的最終目的在於,整合叢集式格網系統的通訊最佳化 技術、資訊廣播系統、與品質服務工作排程系統,設計易於操作的使用者介面,並 結合格網經濟模型的機制,導入實際的格網系統。

此外在校園學術網路上,我們進行系統平台的大量部署,利用校園內的分散硬 碟空間,成功建置大型的資料格網系統。另外,我們進行資料領域特定語言的設計 與各種平台函式庫開發,並且在學術網路上進行建置與部署並且測試其效能。我們 也與其他學校進行緊密的整合,並進行許多細節的修正。另外,建構以服務為導向 的格網經濟模型,應用於各種 Web 服務,進而滿足不同使用者的需求。格網經濟模 型研究的重點在於同時考量供給者的維運成本與滿足消費者的不同需求(QoS),發展 一套未來可以導入企業網路的格網經濟架構。

我們改良格網系統資料處理模型,發展能夠大量處理資料的應用程式介面,利 用資料格網的管理分析工具,瞭解資料的分佈及網路,運算資源的狀態,整理出資

(19)

數量,檔案數量成長時,也有容錯的特性。本計畫預計完成的研究項目,皆已經實 作出來,並在相關期刊與研討會發表。

本子計畫所開發的資源與工作排程系統,相較於現有的系統,採用以服務導向 架構為基礎的概念,具有設計上的彈性、與系統的輕量化,可以滿足不同使用者的 需求(Quality of Service)、以及高執行效率的特性。此架構具創新性;開發的元件都 符合可擴充式計算(Scalable Computing)的架構,加上 Grid 技術日漸成熟,未來將我 們所開發的技術與系統與既有的格網平台結合,亦是相當可行的作法。

在軟體開發上,我們使用軟體工程較新的敏捷(Agile)開發模式,並與開放原始 碼社群整合。未來可以提供使用者一個安全、便利的格網平台,提供管理者一個集 中式的管理介面,與提供開發者一個具高度擴充性及相容性的系統架構,使得未來 管理的人力及時間成本大幅降低。從格網系統管理的角度來看,這也是本計劃的另 一個創新與貢獻。

因應未來以服務為導向的資訊服務,我們結合格網經濟模型與 QoS 最佳化計算 於 Web 服務中,讓格網系統有更實際的應用價值;在未來格網系統的普及與推廣工 作上,也有很大的幫助。

服務計算結合 Grid 的研究還在起步階段。未來,我們將把研究重點放這一個部 份,預期對格網技術會有重要的影響。下表整理出本計劃主要的貢獻。

過去技術 完成計畫後狀況

技術面  通訊最佳化的研究集

中在平行與分散式記 憶體系統。

 訊息廣播技術、資源 與工作排程技術,未 考 量 格 網 動 態 的 特 性,經濟模型、服務 與品質導向機制。

 針對叢集式格網的動態特性,所提出來 的解決方案更符合未來可擴充式計算 的 系 統 (Scalable Computing System) 架 構。可以容易導入不同的可擴充式系 統。

 考 量 以 服 務 導 向架構與格網經濟模 型,提出滿足使用者需求、與系統最佳 化的資源與工作排程策略。就核心技術 何言,此架構具創新性與可性的。由於 Grid 中介軟體技術日趨成熟,未來整合 這些核心技術在既有的格網系統是指 日可待的。

使用面  只 有 從 事 高 性 能 計 算、或相關應用領域 的科學家會考慮使用 格網系統。

 讓格網系統平民化,滿足不同的使用者 的使用情境。

 一般使用者 (未接觸過格網的使用者) - 能 夠 直 接 進 入 我 們 所 設 計 好 的 Portal,快速取得需要的服務。

(20)

系統面  以往採用網路式的關 連式資料庫來建立索 引或是儲存中介資料 的資料格網。

 改善舊有設計,而更符合格網概念要求

 採用了非網路式的資料庫,所有的節點 都能夠快速地建立索引並且搜尋自己 所負責的中介資料,而將通訊及快取的 工作交給 XML 及 HTTP 來承擔。

下面我們歸納本計畫主要的成果:

 完成同質性多叢集系統架構通訊最佳化

 完成異質性多叢集系統架構通訊最佳化

 完成叢集式格網拓墣最佳化

 完成靜態格網拓墣資料佈署

 完成動態格網拓墣資料佈署

 完成多種樹狀架構廣播技術研究

 完成通用型廣播演算法研究

 完成訊息轉送表設計

 完成以品質服務為基礎之資源成本最佳化排程技術

 完成以品質服務為基礎之時間成本最佳化排程技術

 完成二階段重排(re-scheduling)技術

 完成與格網經濟模型系統整合與使用者介面

 發表 4 篇 SCI 國際期刊

 Ching-Hsien Hsu and Shih-Chang Chen, “Efficient Selection Strategies towards Processor Reordering Techniques for Improving Data Locality in Heterogeneous Clusters”, Accepted for publication, The Journal of Supercomputing (SCI, EI, IF=0.615), 2010.

 Ching-Hsien Hsu and Tai-Lung Chen, “Performance and Economization Oriented Scheduling Techniques for Managing Applications with QoS Demands in Grids”, Accepted, International Journal of Ad-Hoc and Ubiquitous Computing(IJAHUC), Vol.

5, No. 4, pp. 219-226, 2010. (SCIE, EI) (IF=0.66)

 Ching-Hsien Hsu, Laurence T. Yang, Frode Eika Sandnes and Zhen Liu, “Toward Merging Ubiquitous and Grid Services”, Journal of Internet Technologies (JIT), Vol.

11, Issue 1, pp. 1-2, January 2010. (SCIE, EI)

 Ching-Hsien Hsu, Chi-Guey Hsu, Shih-Chang Chen and Tai-Lung Chen, “Message Transmission Techniques for Low Traffic P2P Services”, International Journal of Communication Systems(IJCS), Vol. 22, No. 9, pp. 1105-1122, September 2009 (DOI: 10.1002/dac.1010) (SCI, EI, IF=0.394)

 發表 6 篇國際研討會論文

(21)

Chia-Wei Chu, Ching-Hsien Hsu, Hsi-Ya Chang, Shuen-Tai Wang and Kuan-Ching Li, "Parallel File Transfer for Grid Economic" Proceedings of the 4th ICST International Conference on Scalable Information Systems (InfoScale 2009), Hong Kong, June, 2009, Lecture Notes of the Institute for Computer Science, Social Informatics and Telecommunications Engineering, (ISBN: 978-3-642-10484-8) Vol. 18, pp. 76-89, (DOI:

10.1007/978-3-642-10485-5_6) (EI)

Yun-Chiu Ching, Ching-Hsien Hsu and Kuan-Ching Li, "On Improving Network Locality in BitTorrent-Like Systems" Proceedings of the 4th ICST International Conference on Scalable Information Systems (InfoScale 2009), Hong Kong, June, 2009, Lecture Notes of the Institute for Computer Science, Social Informatics and Telecommunications Engineering, (ISBN: 978-3-642-10484-8) Vol. 18, pp. 58-75, (DOI:

10.1007/978-3-642-10485-5_5) (EI)

 Ching-Hsien Hsu, Yen-Jun Chen, Kuan-Ching Li, Hsi-Ya Chang and Shuen-Tai Wang, "Power Consumption Optimization of MPI Programs on Multi-Core Clusters"

Proceedings of the 4th ICST International Conference on Scalable Information Systems (InfoScale 2009), Hong Kong, June, 2009, Lecture Notes of the Institute for Computer Science, Social Informatics and Telecommunications Engineering,

(ISBN: 978-3-642-10484-8) Vol. 18, pp. 108-120, (DOI:

10.1007/978-3-642-10485-5_8) (EI)

 Shih-Chang Chen, Ching-Hsien Hsu, Tai-Lung Chen, Kun-Ming Yu, Hsi-Ya Chang and Chih-Hsun Chou, “A Compound Scheduling Strategy for Irregular Array Redistribution in Cluster Based Parallel System,” Proceedings of the 2nd Russia-Taiwan Symposium on Methods and Tools for Parallel Programming (MTPP 2010), LNCS 6083, pp. 68-77, 2010. (EI)

 Ching-Hsien Hsuand Tai-Lung Chen, “Adaptive Scheduling based on Quality of Services in Heterogeneous Environments”, IEEE Proceedings of the 4th International Conference on Multimedia and Ubiquitous Engineering (MUE), Cebu, Philippines, Aug. 2010.

 Ching-Hsien Hsu, Tai-Lung Chen and Kun-Ho Lee, "QoS Based Parallel File Transfer for Grid Economics" IEEE Proceedings of the 2009 International Conference on Multimedia Information Networking and Security (MINES 2009), pp.

653-657, Wuhan, China, November, 2009. (EI)

五、計畫成果自評

本計畫之研究成果達到計畫預期之目標。研究團隊共計發表了四篇國際期刊與 六篇國際研討會論文,其中,[45] Performance and Economization Oriented Scheduling Techniques for Managing Applications with QoS Demands in Grids 是改善 QoS-Guided 的 排程。[46] Scheduling of Job Combination and Dispatching Strategy for Grid and Cloud System 是有關在異質性系統或格網環境下將工作排程最佳化,而[47] QoS Based Parallel File Transfer for Grid Economics 是改善 QoS-Guided 的排程。[48] Message Transmission Techniques for Low Traffic P2P Services 則是訊息傳送最佳化技術研究。

本計畫有目前研究成果,感謝國科會給予機會、也感謝許多合作的學校、教授、

同學協助軟硬體的架設、測試、與協助機器的管理。另外,對於參與研究計畫執行 同學的認真,本人亦表達肯定與感謝。

六、參考文獻

[1] [1] Jesper Andersson, Morgan Ericsson, Welf Löwe, and Wolf Zimmermann, “Lookahead Scheduling for Reconfigurable GRID Systems,” 10th International Europar '04: Parallel Processing, vol. 3149, pp. 263-270, 2004.

[2] [2] Luiz Angelo, Barchet-Steffenel and Grégory Mounié, “Scheduling Heuristics for Efficient Broadcast Operations on Grid Environments,” Proceedings of Parallel and Distributed Processing Symposium, pp. 8, 2006.

[3] [3] Shah Asaduzzaman and Muthucumaru Maheswaran, “Heuristics for Scheduling Virtual Machines for

(22)

Improving QoS in Public Computing Utilities,” 9th International Conference on Computer and Information Technology –ICCIT-2006.

[4] [4] Henri E. Bal, Aske Plaat, Mirjam G. Bakker, Peter Dozy, and Rutger F.H. Hofman, “Optimizing Parallel Applications for Wide-Area Clusters,” Proceedings of the 12th International Parallel Processing Symposium IPPS'98, pp 784-790, 1998.

[5] [5] Mohammad Banikazemi, Vijay Moorthy and Dhabaleswar K. Panda, “Efficient collective communication on heterogeneous networks of workstations,” Proceedings of International Conference on Parallel Processing, pp. 460 - 467 Aug. 1998.

[6] [6] O. Beaumont, A. Legrand, L. Marchal and Y. Robert, ”Complexity results and heuristics for pipelined multicast operations on heterogeneous platforms,” Proceedings of International Conference on ICPP 2004, pp.

267 -274, 2004.

[7] [7] O. Beaumont, A. Legrand and Y. Robert, ”Optimal algorithms for scheduling divisible workloads on heterogeneous systems,” Proceedings of the 12 th IEEE Heterogeneous Computing Workshop, 2003.

[8] [8] O. Beaumont, A. Legrand, L. Marchal and Y. Robert, “Optimizing the Steady-State Throughput of Broadcasts on Heterogeneous Platforms Heterogeneous Platforms,” In Technical Report RR-2003-34LIP, ENS Lyon, France, June 2003.

[9] [9] O. Beaumont, A. Legrand, L. Marchal and Y. Robert, “Pipelining Broadcasts on Heterogeneous Platforms,”IEEE Transactions on Parallel and Distributed Systems, vol. 16, no. 4, pp. 300 – 313, April 2005.

[10] [10] O. Beaumont, L. Marchal and Y. Robert, “Broadcast Trees for Heterogeneous Platforms,” Proceedings of 19th IEEE International Parallel and Distributed Processing Symposium, pp. 80b, 2005.

[11] [11] P. Bhat, C. Raghavendra and V. Prasanna. “Efficient collective communication in distributed heterogeneous systems,” Journal of Parallel and Distributed Computing, pp. 15 – 24, 2003.

[12] [12] M. Faerman, A. Birnbaum, H. Casanova and F. Berman, “Resource Allocation for Steerable Parallel Parameter Searches,” Proceedings of GRID’02, 2002.

[13] [13] A. Faraj, P. Patarasuk and X. Yuan, “Bandwidth Efficient All-to-all Broadcast on Switched Clusters,” The 2005 IEEE Cluster 2005, Sept. 27-30, 2005.

[14] [14] Ligang He, Stephen A. Jarvis, Daniel P. Spooner, Xinuo Chen , Graham R. Nudd, “Hybrid Performance-oriented Scheduling of Moldable Jobs with QoS Demands in Multiclusters and Grids,” Grid and Cooperative Computing (GCC 2004), vol. 3251, pp. 217–224, 2004.

[15] [15] Ching-Hsien Hsu, Guan-Hao Lin, Kuan-Ching Li and Chao-Tung Yang, “Localization Techniques for Cluster-Based Data Grid,” Proceedings of the 6th ICA3PP, Melbourne, Australia, 2005.

[16] [16] Ching-Hsien Hsu, Tzu-Tai Lo and Kun-Ming Yu “Localized Communications of Data Parallel Programs on Multi-cluster Grid Systems,” European Grid Conference, LNCS 3470, pp. 900 – 910, 2005.

[17] [17] Jih-Woei Huang and Chih-Ping Chu, “An Efficient Communication Scheduling Method for the Processor Mapping Technique Applied Data Redistribution,” The Journal of Supercomputing, vol. 37, no. 3, pp. 297-318, 2006.

[18] [18] Jang-uk In, Paul Avery, Richard Cavanaugh, Sanjay Ranka, “Policy Based Scheduling for Simple Quality of Service in Grid Computing,” 18th IEEE International Parallel & Distributed Processing Symposium (IPDPS 2004), pp. 23, 2004.

[19] [19] Florin Isaila and Walter F. Tichy, “Mapping Functions and Data Redistribution for Parallel Files,”

Proceedings of IPDPS 2002 Workshop on Parallel and Distributed Scientific and Engineering Computing with Applications, Fort Lauderdale, April 2002.

[20] [20] Bahman Javadi, J.H. Abawajy and Mohammad K. Akbari “ Performance Analysis of Interconnection Networks for Multi-cluster Systems,” Proceedings of the 6th ICCS, LNCS 3516, pp. 205 – 212, 2005.

[21] [21] Bahman Javadi, Mohammad K. Akbari and Jemal H. Abawajy, “ Performance Analysis of Heterogeneous Multi-Cluster Systems,” Proceedings of ICPP, 2005.

[22] [22] S. Lennart Johnsson and Ching-Tien Ho, “Optimum Broadcasting and Personalized Communication in Hypercubes,” IEEE Trans. Computers,vol. 38, no. 9, pp. 1249-1268, Sep. 1989.

[23] [23] E. T. Kalns and L. M. Ni, “Processor mapping techniques toward efficient data redistribution,” IEEE

(23)

[26] [26] Jens Koonp and Eduard Mehofer, “Distribution assignment placement: Effective optimization of redistribution costs,” IEEE TPDS, vol. 13, no. 6, June 2002.

[27] [27] Chao Lin, “Efficient broadcast in a heterogeneous network of workstations using two sub-networks,”

Proceedings of 7th International Symposium on Parallel Architectures, Algorithms and Networks, pp. 273 - 279, May 2004.

[28] [28] Chao Lin, “Efficient contention-free broadcast in heterogeneous network of workstation with multiple send and receive speeds,” Proceedings Eighth IEEE International Symposium on Computers and Communication, 2003 (ISCC 2003), pp. 1277 – 1284, vol.2, 2003.

[29] [29] Chao Lin, Yu-Chee Tseng and Jang-Ping Sheu, “Efficient Single-node Broadcast in Switched-based Network of Workstations with Network Partitioning,” Proceedings of Tenth International Conference on Computer Communications and Networks, pp. 68-74, 2001.

[30] [30] Jong Sik Lee, “Data Distribution Management Modeling and Implementation on Computational Grid,”

Proceedings of the 4th GCC, Beijing, China, 2005.

[31] [31] Victor E. Mendia and Dilip Sarkar, “Optimal Broadcasting on the Star Graph,” IEEE Trans. Parallel and Distributed Systems, vol. 3, no. 4, pp. 389 - 396, July 1992.

[32] [32] M.A. Moges and T.G. Robertazzi, “Grid scheduling divisible loads from multiple sources via linear programming,” 16th IASTED International Conference on Parallel and Distributed Computing and Systems (PDCS), pp. 423-428, 2004.

[33] [33] J. Moore and M. Quinn, “Generating an Efficient Broadcast Sequence Using Reflected Gray Codes, ”IEEE Trans. Parallel and Distributed Systems, vol. 8, no. 11, pp. 1117-1122, Nov. 1997.

[34] [34] Aske Plaat, Henri E. Bal, and Rutger F.H. Hofman, “Sensitivity of Parallel Applications to Large Differences in Bandwidth and Latency in Two-Layer Interconnects,” Proceedings of the 5th IEEE High Performance Computer Architecture HPCA'99, pp. 244-253, 1999.

[35] [35] Sriram Ramanujam, Mitchell D. Theys, “Adaptive Scheduling based on Quality of Service in Distributed Environments,” International Conference on Parallel and Distributed Processing Techniques and Applications (PDPTA), pp. 671-677, 2005.

[36] [36] Adele A. Rescigno, “Optimal Polling in Communication Networks,” IEEE Trans. on Parallel and Distributed System, vol. 8, no. 5, pp. 449 - 461 May 1997.

[37] [37] Gerald Sabin, Rajkumar Kettimuthu, Arun Rajan and P Sadayappan, “Scheduling of Parallel Jobs in a Heterogeneous Multi-Site Environment,” in the Proc. of the 9th International Workshop on Job Scheduling Strategies for Parallel Processing, Lecture Notes In Computer Science; Vol. 2862, pp. 87-104 , June 2003.

[38] [38] Fernando G. Tinetti and Andrés Barbieri, “An Efficient Implementation for Broadcasting Data in Parallel Applications over Ethernet Clusters,” Proceeding of 17th International Conference on Advanced Information Networking and Applications, pp. 593 - 596 March 2003.

[39] [39] Fernando G. Tinetti and E. Luque, “Efficient Broadcasts and Simple Algorithms for Parallel Linear Algebra Computing in Clusters,” International Proceeding of Parallel and Distributed Processing Symposium, pp. 8, 2003.

[40] [40] Weizhe Zhang, Hongli Zhang, Hui He, Mingzeng Hu, “Multisite Task Scheduling on Distributed Computing Grid,” Lecture Notes in Computer Science, vol. 3033, pp. 57–64, 2004.

[41] [41] Ching-Hsien Hsu, Bing-Ru Tsai, Tai-Lung Chen and Shih-Chang Chen, “Scheduling for Atomic Broadcast Operation in Heterogeneous Networks with One Port Model,” Accepted, The Journal of Supercomputing (SCI, EI), Kluwer Academic Publisher, 2009.

[42] [42] Ching-Hsien Hsu, Tai-Lung Chen and Jong-Hyuk Park, “On improving resource utilization and system throughput of master slave jobs scheduling in heterogeneous systems,” Journal of Supercomputing, Springer, Vol. 45, No. 1, pp. 129-150, July 2008. (SCI, EI).

[43] [43] Ching-Hsien Hsu and Yung-Chneg Chang, “Job Rescheduling Techniques for Optimizing Resource Utilization and Makespan in Grid”, Proceedings of the 5th Workshop on Grid Technology and Applications (WoGTA’08), Dec. 2008.

[44] [44] Ching-Hsien Hsu, Justin Zhan, Wai-Chi Fang and Jianhua Ma, “Towards Improving QoS-Guided Scheduling in Grids,” IEEE Proceedings of the third ChinaGrid Annual Conference (ChinaGrid 2008), Dunhunag, Gansu, China.

[45] [45] Ching-Hsien Hsu and Tai-Lung Chen, “Performance and Economization Oriented Scheduling Techniques for Managing Applications with QoS Demands in Grids”, International Journal of Ad-Hoc and Ubiquitous Computing, Vol. 5, No. 4, pp. 219-226, 2010.

[46] [46] Tai-Lung Chen, Ching-Hsien Hsu and Shih-Chang Chen, “Scheduling of Job Combination and

(24)

Dispatching Strategy for Grid and Cloud System,” Proceedings on the 5rd International Conference on Grid and Pervasive Computing (GPC’10), LNCS 6104, pp. 612-621, May 2010.

[47] [47] Ching-Hsien Hsu, Tai-Lung Chen and Kun-Ho Lee, "QoS Based Parallel File Transfer for Grid Economics"

Proceedings of the 2009 International Conference on Multimedia Information Networking and Security (MINES’09), pp. 653-657, November 2009.

[48] [48] Ching-Hsien Hsu, Chi-Guey Hsu, Shih-Chang Chen and Tai-Lung Chen, “Message Transmission Techniques for Low Traffic P2P Services”, International Journal of Communication Systems, Vol. 22, No. 9, pp.

1105-1122, September 2009.

(25)

出席國際學術會議心得報告

計 畫 名 稱 應用 P2P 與 Web 技術發展以 SOA 為基礎的格網中介軟體與經濟模型

計 畫 編 號 NSC 97-2628-E-216-006-MY3

報 告 人 姓 名 許慶賢

服 務 機 構

及 職 稱

中華大學資訊工程學系教授

會 議 名 稱 The 2nd Russia-Taiwan Symposium on Methods and Tools of Parallel Programming Multicomputers (MTPP 2010)

會 議 / 訪 問 時 間地點 海參威, 俄羅斯 / 2010.05.16-19

發 表 論 文 題 目 A Compound Scheduling Strategy for Irregular Array Redistribution in Cluster Based Parallel System

參加會議經過

會議時間 行程敘述

2010/05/16 (上午)

10:00 會場報到

11:00 參訪研究中心 (半日) (下午)

6:00 committee meeting (晚上)

7:00 參加歡迎茶會 2010/05/17 (上午)

9:00 開幕致詞

9:10 聽取 Parallel Algorithm 相關論文發表 11:00 聽取 Models and Tools 相關論文發表

(下午)

2:00 聽取 Parallel Programming 相關論文發表

(26)

2010/05/18 (上午)

9:00 發表論文

11:00 聽取 System Algorithm 相關論文發表

(下午)

2:00 聽取 Numerical simulation 相關論文發表 4:00 參訪 Far East National University (晚上)

7:00 參加晚宴 2010/05/19 (上午)

9:00 聽取 Simulation 相關論文發表

MTPP-10 是台俄雙邊在平行計算研究領域主要的研討會。這一次參與 MTPP-10 ,本人 擔任會議議程主席,除了發表相關研究成果以外,也在會場與多位國外教授交換研究心得,

並且討論未來可能的合作。

這一次參與 MTPP-10 除了發表我們最新的研究成果以外,也在會場中,向多位國內外 學者解釋我們的研究內容,彼此交換研究心得。除了讓別的團隊知道我們的研究方向與成 果,藉此,我們也學習他人的研究經驗。經過兩次的雙邊研討會交流,雙方已經找到共同研 究的題目,兩邊的團隊也將於今年(2010 年)8 月開始撰寫研究計畫書,進行更密切的合作。

這一次在 Vladivostok, Russia 所舉行的國際學術研討會議議程共計四天。開幕當天 由俄羅斯方面的 General Co-Chair,RSA 的 Victor E. Malyshkin 教授,與敝人分別致詞 歡迎大家參加這次的第二屆 MTPP 2010 國際研討會。接著全程參與整個會議的流程,也聽 取不同論文發表,休息時間與俄羅斯的學者教授交換意見和資訊。本人發表的論文在會議第 三天的議程九點三十分發表(A Compound Scheduling Strategy for Irregular Array Redistribution in Cluster Based Parallel System )。 本人主 要聽取 Parallel and Distributed 、Grid、Cloud 與 Multicore 相關研究,同時獲悉許多新興起的研究主題,

並了解目前國外學者主要的研究方向。最後一天,我們把握機會與國外的教授認識,希望能 夠讓他們加深對台灣研究的印象。這是一次非常成功的學術研討會。

主辦第一、二屆台俄雙邊學術研討會,感受良多。論文篇數從第一屆的 30 篇到第二屆 的 50 篇,也讓本人感受到這個研討會的進步成長。台方參與的教授學生超過 15 個學研單位,

包括台大、清華、交大、中研院、成大、中山、等等。俄方也有超過 10 個學研單位的參與。

值得一提的是,這一次的論文集我們爭取到 Springer LNCS 的出版,並且在 EI 索引。這一 個研討會與發表的論文,其影響力已達到國際的水準。

(27)
(28)

A Compound Scheduling Strategy for Irregular Array Redistribution in Cluster Based Parallel System

Shih-Chang Chen1, Ching-Hsien Hsu2, Tai-Lung Chen1, Kun-Ming Yu2, Hsi-Ya Chang3 and Chih-Hsun Chou2*

1 College of Engineering

2 Department of Computer Science and Information Engineering Chung Hua University, Hsinchu, Taiwan 300, R.O.C.

3 National Center for High-Performance Computing, Hsinchu 30076, Taiwan

{scc, robert, tai}@grid.chu.edu.tw, yu@chu.edu.tw, jerry@nchc.org.tw, chc@chu.edu.tw

Abstract. With the advancement of network and techniques of clusters, joining clusters to

construct a wide parallel system becomes a trend. Irregular array redistribution employs generalized blocks to help utilize the resource while executing scientific application on such platforms. Research for irregular array redistribution is focused on scheduling heuristics because communication cost could be saved if this operation follows an efficient schedule. In this paper, a two-step communication cost modification (T2CM) and a synchronization delay-aware scheduling heuristic (SDSH) are proposed to normalize the communication cost and reduce transmission delay in algorithm level. The performance evaluations show the contributions of proposed method for irregular array redistribution.

1 Introduction

Scientific application executing on parallel systems with multiple phases requires appropriate data distribution schemes. Each scheme describes the data quantity for every node in each phase. Therefore, performing data redistribution operations among nodes help enhance the data locality.

Generally, data redistribution is classified into regular and irregular redistributions. BLOCK, CYCLIC and BLOCK-CYCLIC(c) are used to specify array decomposition for the former while user-defined function, such as GEN_BLOCK, is used to specify array decomposition for the latter. High Performance Fortran version 2 provides GEN_BLOCK directive to facilitate the data redistribution for user-defined function. To perform array redistribution efficiently, it is important to follow a schedule with low communication cost.

With the advancement of network and the popularizing of cluster computing research in campus, it is a trend to join clusters in different regions to construct a complex parallel system. To performing array redistribution on this platform, new techniques are required instead of existing methods.

Schedules illustrate time steps for data segments (messages) to be transmitted in appropriate time. The cost of schedules given by scheduling heuristics is the summation of cost of every time steps while cost of each time step is dominated by the message with largest cost. A phenomenon is observed that most local transmissions, which are happened in a node, do not dominate the cost of each step although they are in

(29)

The rest of this paper is organized as follows: Section 2 gives a survey of existing works related to array redistribution. Section 3 gives notations, terminology and examples to explain each parts of scheduling heuristics. The proposed techniques are described in section 4. Section 5 presents the results of the comparative evaluation, while section 6 concludes the paper.

2 Related Work

Array redistribution techniques have been developed for regular array redistribution and GEN_BLOCK redistribution in many papers. Both kinds of redistribution issues require at least two sorts of techniques.

One is communication sets identification which decomposes array for nodes; the other one is communication scheduling method which derives schedules to shorten the overall transmission cost for redistributions.

ScaLAPACK [9] was proposed to identify communication sets for regular array redistribution. Guo et al.

[2] proposed a symbolic analysis method to help generate messages for GEN_BLOCK redistribution. Hsu et

al. [3] proposed the Generalized Basic-Cycle Calculation method to shorten the communication for

generalized cases. The research on prototype framework for distributed memory platforms is proposed by Sundarsan et al. [11] who developed a method to distribute multidimensional block-cyclic arrays on processor grids. Karwande et al. [8] presented CC-MPI with the compiled communication technique to optimize collective communication routines. Huang et al. [6] proposed a flexible processor mapping technique to reduce the number of data element exchanging among processors and enhance the data locality.

To reduce indexing cost, a processor replacement scheme was proposed [4]. With local matrix and compressed CRS vectors transposition schemes the communication cost can be reduced significantly.

Combining the advantages of relocation scheduling algorithm and divide-and-conquer scheduling algorithm, Wang et al. [12] proposed a method with two phases for GEN_BLOCK redistribution. The first phase acts like relocation algorithm, but the contentions avoidance mechanism of second phase will not be proceeded immediately while contentions happened. To minimize the total communication time, Cohen et al. [1]

supposed that at most k communication can be performed at the same time and proposed two algorithms with low complexity and fast heuristics. A study [7] focusing on the cases of local redistributions and inter-cluster redistribution was given by Jeannot and Wagner. It compared existing scheduling methods and described the difference among them. Rauber and Runger [10] presented a data-re-distribution library to deal with composed data structures which are distributed to one or more processor groups for executing multiprocessor task on distributed memory machines or cluster platforms. Hsu et al. [5] proposed a two-phase degree-reduction scheduling heuristic to minimize the overall communication cost. The proposed method derives each time step of a complete schedule by performing degree reduction technique while the number of messages of each node representing the degree of each vertex in algorithm level.

3 Preliminary

Following are notations, terminology and examples to explain each parts of scheduling heuristics for GEN_BLOCK redistribution. To improve data locality, multi-phase scientific problems require appropriate data distribution schemes for specific phases. For example, to distribute array for two different phases on six nodes, which are indexed from 0 to 5, two strings, {13, 20, 17, 17, 12, 21} and {16, 18, 13, 16, 29, 8},

(30)

are given, where the array size is 100 units. These two strings provide necessary information for nodes to generate messages to be transmitted among them. Fig. 1 shows these messages marked from m1 to m11 and are with information such as data size, source node and destination node in the relative rows.

Scheduling heuristics are developed for providing solutions of time steps to reduce total communication cost for a GEN_BLOCK redistribution operation. In each step, there are several messages which are suggested to be transmitted in the same time step. To help perform an efficient redistribution, scheduling methods should avoid node contention, synchronization delay and redundant transmission cost. It is also important to follow policies of messages arrangement, i.e. with the same source nodes, messages should not be in the same step; with the same destination nodes, messages should be in different step; a node can only deal with one message while playing whether source node or destination node. These messages that cannot be scheduled together called conflict tuples, for example, a conflict tuple is formed with messages m1 and m2. Note that if a node can only deal with a message while it is a source/destination node, the number of steps for a schedule must be the equal to or more than the number of messages from/to these nodes. In other words, the minimal number of time steps is equal to the maximal number of messages in a conflict tuple, CTmax.

Information of messages No. of

message

Data size

Source node

Destination node

m1 13 0 0

m2 3 1 0

m3 17 1 1

m4 1 2 1

m5 13 2 2

m6 3 2 3

m7 13 3 3

m8 4 3 4

m9 12 4 4

m10 13 5 4

m11 8 5 5

Fig. 1. Information of messages generated from given schemes to be transmitted on six nodes which are indexed from 0 to 5

Fig. 2 gives a schedule with low communication cost and arranges messages in the number of minimal steps.

In this result, there are three time steps with messages sent/received to/from different nodes. The values beside m1~11 are data size, the cost of each step is dominated by the largest one. Thus, m3, m1 and m8 dominate step 1, 2 and 3, and the estimated cost are 17, 13 and 4, respectively. To avoid node contentions, messages m1 and m2 are in separate steps due to destination nodes of both messages are the same. Based on same argument, m2 and m3 are in separate steps due to both messages are members of a conflict tuple. The total cost which represents the performance of a schedule is the summation of all cost of steps. In other

參考文獻

相關文件

Thus, the proposed approach is a feasible and effective method for process parameter optimization in MIMO plastic injection molding and can result in significant quality and

The final results of experiment show that the performance of DBR system declines when labor utilization increases and the CCR-WIP dispatching rule facilitate to

(1995), Land Mosaics: The Ecology of Landscape Ecology and Regions, Cambridge: Cambridge University Press. Weaver.(1979),Territory

二、 本計畫已將部分研究結果整理,發表於國際研討會(Chan, Y.-H., Lin, S.-P., (2010/7), A new model for service improvement design, The 2010 International Conference

This project is the optical electro-mechanic integration design and manufacturing research of high magnifications miniaturized size zoom lens and novel active high accuracy laser

Florida, R.,2002, The Rise of the Creative Class and How It's Transforming Work, Leisure, Community and Everyday Life, Basic Books, New York. (Ed), Toward Scientific

With the advancement in information technology and personal digital mobile device upgrade, RFID technology is also increasingly common use of the situation, but for

This paper formulates the above situation to the Multi-temperature Refrigerated Container Vehicle Routing Problem (MRCVRP), and proposes a two-stage heuristic which consists of