實驗結果

四、效能評估

4.2 實驗結果

圖表中 MACPS 之數線表示只考慮 Next Ready Tasks 與 Data

locality，DL 則表示只考慮 Data locality，只考慮 Next Ready Tasks 排程方法以 NRT 表示，[27]中之 Critical Paths & Resource EST 策略，在圖表中表示為 CP，最後，數線 LA 則表示[29]之 Locality aware task scheduling 策略。利用以上五種排程方法來探討 5 個不同變因與環境之效能，每一個

Execution time (s)

# of tasks

MACPS DL NRT CP LA

圖 23. 跨雲-Task 總數

測量此變因時，環境之預設值為：

VM 個數 10

VM 所需記憶體 2G

Computation Time 30~50 s

Task 所需資源 200~300 MB

頻寬單雲: 10~15 MB 跨雲: 1~4 MB

ReadData/WriteData 200~300 MB

Communication Data 200~500 MB

常態分佈平均值 0.5

Execution time (s)

# of tasks

MACPS DL NRT CP LA

溝通的機率，造成執行時間延長。另外，LA 方法是應用於單機多核心之環境，沒有考慮到跨雲頻寬較低，因此當工作數量逐漸增加，LA 策略之實驗結果與其他方法相較之下，指數成長的幅度較大。在單雲環境上 MACPS 之方法優於 LA 方法，節省約一半的執行時間，相較於 CP 之策略，則是節省了三分之一的執行時間。NRT 方法主要考慮 next ready task，由於在單雲環境下頻寬較高，因此 communication time 所佔的時間比較高，因此在大多情況下 NRT 優於 DL；跨雲環境上 MACPS 相較於 LA 方法與 CP 方

Execution time (s)

Computation time (s)

MACPS DL NRT CP LA

ReadData/WriteData 200~300 MB

Communication Data 200~500 MB

常態分佈平均值 0.5

Execution time (s)

Computation time (s)

MACPS DL NRT CP LA

Execution time (s)

Communication data (MB)

MACPS DL NRT CP LA

Execution time (s)

Communication data (MB)

MACPS DL NRT CP LA

測量此變因時，環境變數之預設值為：

VM 個數 10

Task 個數 10

VM 所需記憶體 2G

Computation time 30~50 s

Task 所需資源 200~300 MB

頻寬單雲: 10~15 MB 跨雲: 1~4 MB

ReadData/WriteData 200~300 MB

常態分佈平均值 0.5

標準差 0.1

圖 26 在單雲環境下，communication 量增加，然而頻寬約 15MB，因此每個區間的每個 task 僅增加 3~4 秒，才會呈現線性成長；圖 27 跨雲之頻寬約 4MB，每個區間的每個 task 約增加 10 秒，由結果圖顯示以指數成長，

換句話說，communication data 的變因與頻寬有非常大的關係。另外，NRT 之方法主要盡量縮短 critical path 之執行時間，當 communication 量增加，

效能會更好，對於跨雲來說，此方法更加顯著。

Execution time (s)

ReadData/WriteDara (MB)

Execuyion time (s)

ReadData/WriteData (MB)

MACPS DL NRT CP LA

測量此變因時，環境變數之預設值為：

VM 個數 10

Task 個數 10

VM 所需記憶體 2G

Computation time 30~50 s

Task 所需資源 200~300 MB

頻寬單雲: 10~15 MB 跨雲: 1~4 MB

Communication Data 200~500 MB

常態分佈平均值 0.5

標準差 0.1

圖 28 由於頻寬高，所以 data 轉換之時間不高，以至於實驗結果呈現線性成長，另外， DL 在 300MB 時超越 NRT ，理由是因為 DL 在 ReadData/WriteData 變因之下有較高效能，此方法之首要目的在改善由 RDD 轉換所造成的執行效能延遲，因此在 RDD 轉換量越高，效能越好，

而跨雲頻寬較低，因此執行時間之延遲會升高，如圖 29。

Execution time (s)

標準差 = 0.1 標準差 = 0.2 標準差 = 0.3

Execution time (s)

標準差 = 0.1 標準差 = 0.2 標準差 = 0.3

測量此變因時，環境變數之預設值為：

VM 個數 10

Task 個數 10

VM 所需記憶體 2G

Computation time 30~50 s

Task 所需資源 200~300 MB

頻寬單雲: 10~15 MB 跨雲: 1~4 MB

ReadData/WriteData 200~300 MB

Communication Data 200~500 MB

常態分佈平均值 0.5 locality 與 Next ready tasks，無論在單雲或跨雲上，效能始終比較好，這是因為 Task 在讀取所需資料時，若是兩者來源為不同記憶體，則會造成傳輸時間的上升，執行時間之延遲等，因此此特性為必須考慮之要點。

45 competition time 與 earliest start time 來決定關鍵路徑，並且考量關鍵路徑上的 task、next ready task 與 data locality 特性，配置優先權較高之 task，解決虛擬節點的資源配置問題並且降低資源競爭與干擾的現象。

為了驗證我們的方法，本研究模擬單雲以及跨雲之環境，採用傅立葉轉換之 DAG 作為 input job 以及三種不同標準差的常態分佈，視為 data locality 產生的機率，探討五種排程方法：(1) 考慮 Next Ready Tasks 與 Data locality，(2) 只考慮 Data locality 特性，(3)

只考慮

Next Ready Tasks，(4) Critical Paths & Resource EST 與(5)Locality aware task scheduling 等分別在五種變因如： Task 個數、 Computation Time 、 Communication data 、 ReadData/WriteData 與常態分佈之標準差之下所表現出的效能影響，實驗結果顯示 Memory Access Critical Path Scheduling 無論在單雲或是跨雲環境之下，效能始終是最好的。

在文檔中聯邦雲中處理資料串流之虛擬叢集系統 (頁 43-53)

四、 效能評估

4.2 實驗結果

只考慮

四、效能評估