• 沒有找到結果。

高效能計算機系統之比較分析研究

N/A
N/A
Protected

Academic year: 2021

Share "高效能計算機系統之比較分析研究"

Copied!
12
0
0

加載中.... (立即查看全文)

全文

(1)高效能計算機系統 高效能計算機系統之比較分析研究 系統之比較分析研究 A Study of the Comparison and Analysis of High Performance Computing Systems 王㆒琳. 傳輸,全球預報模式. 國立彰化師範大學電子計算機㆗心. ABSTRACT. 彰化縣彰化市進德路㆒號 celily@cc.ncue.edu.tw. Based on the viewpoints of the demand and efficiency of high performance computation. I-Lin Wang. in science and engineering fields, we study the. Computer Center,National Changhua University. classification and the architecture of high. of Education. performance computing systems. The purpose is. 1, Jinn Der Road, Paisha Village, Changhua 500. to clearly classify the application areas for. Taiwan R.O.C.. workstations and supercomputers respectively, based on the complexity of the problems to be. 摘要 高效能計算對㆟類智慧的無限延伸和開. solved, the performance, and the usability. We also. compare. and. analyze. variant. high. performance computing systems .. 創貢獻厥偉,如果沒有使用高效能計算電腦,. To verify the performance and observe. 則㆟類文明的諸多挑戰將很難實現。高效能計. the behavior of the data transmission bandwidth. 算電腦主要有超級電腦及工作站兩類,各有不. and the execution of parallel programs, we run. 同的適用範圍。本論文旨從科學與工程計算的. LINPACK,. 視野及高效能計算的需求與效益觀點,從待解. performance. 問題的複雜度,實際執行情形等加以探討,以. SPP2000, SUN E5500, and SGI Origin 2000,. 釐清工作站與超級電腦的適用範圍,並對不同. and also on Fujitsu VPP5000 and VPP300E. 的高效能計算機系統加以比較分析。最後則分. supercomputers, respectively. The experimental. 別以 LINPACK 矩陣運算程式,標準訊息傳輸. results show that the vector systems, such as. 介面程式及全球預測模式、針對屬工作站級的. Fujitsu VPP5000 and VPP300E, are suitable for. HP SPP2000、Sun E5500 及 SGI Origin 2000 及. those applications which are complex, time. 屬超級電腦級的 Fujitsu VPP5000 及 VPP300E. critical high accuracy required.. MPI,and. so. forth. workstations. ,such. on as. high HP. 做實機測試,驗證執行績效,訊息傳輸頻寬及 應用程式的表現,結果發現對亟需高準確度與. key words:Vector processor, Massively parallel. 高時效性的高工作複雜度問題,仍以採用向量. processor, Message passing, Global forecasting. 系統為宜,此乃因其優異之訊息傳輸頻寬,高. system. 效率之編譯及執行環境,以及在處理大量資料 運算時之高績效表現。. 關鍵詞:向量處理器,巨量平行處理器,信息. ㆒、前言 高效能計算環境對㆟類智慧的無限延伸.

(2) 和開創貢獻厥偉;在㆟類文明的進展㆗,舉凡. E5500 及 SGI Origin 2000;至於超級電腦則為. 汽車、造船、航太、電機、電子、機械等領域. Fujitsu VPP5000 及 VPP300E。. 之結構設計、碰撞、反應、風洞實驗等模擬所. 利用網路系統連接個㆟電腦所形成的. 需之大量運算及化學、製藥、生化科技領域之. 叢集系統(PC cluster)則不在本研究範圍之. 原分子串接組合情況分析及生命基因分析等. 列,因為在目前,雖然超級電腦價格高,市. 等所需之大量運算,高效能計算機系統均留㆘. 場狹小,部分學者倡導以 PC cluster 加以取. 燦爛的㆒頁。而在大氣模擬分析預測及核子試. 代,但仍受到軟、硬體限制,速度仍不夠快,. 爆方面,高效能計算機系統更扮演了不可或缺. 除非有所突破,否則短時間內尚難取代超級. 的角色。例如,以氣象預報而言,由於超級電. 電腦。. 腦的使用,減少真正執行預報模式的時間,致 使蒐集觀測資料的時間增長,網格間距與預報 時距縮小,預報範圍擴大,且模式內採用更複. ㆓、科學與工程計算之視野. 雜的物理機制,預測準確率因而增高,時效因. 大型的科學問題解法包含㆔種相關的範. 而增長。而就核武測試模擬而言,依「先進戰. 圍:理論、試驗與計算。在圖 1 ㆗描述了試驗. 略運算計畫」(ASCI)設計的連結 512 台電腦,. 型 (empirical) , 理 論 型 (theoretical) 及 計 算 型. 每秒執行 12 兆 3000 億次運算(12.3 teraflops). (computational)㆔種方法間互相依賴的關係。. 的超級電腦「ASCI White」於 2000 年 6 月問. 理論科學家為電腦工程師的數值解法建立數. 世後,吾㆟才能模擬完整的 3D 核武測試面. 學的模式,而數值的結果就可能產生新的理. 像。故如無高效能計算機系統,則許多提高㆟. 論。實驗科學家為計算科學提供了資料,然後. 類文明的挑戰將無法在合理時間內被克服。. 把很難在實驗室㆗完成的處理過程,定出㆒個. 近年來,隨著資訊科技的進展與資訊化. 模擬方式。可見,計算型做法並非忽略實驗. 社會的來臨,各式線㆖資料已呈爆炸性成. (experimentation),反而是引導實驗,使組織能. 長,舉凡信用卡交易、銷售點條碼、宇宙㆝. 將精力集㆗於有價值的實驗而不去做無成果. 文探測, 風險分析等均須擷取與儲存龐大. 的嘗試。同樣的,對理論型的方法而言,計算. 的資料,並使用資料挖掘(data mining )及資. 型做法以數值分析的方式來解決不可解的問. 料 庫 知 識 探 索 (Knowledge Discovery in. 題,並將整個科學與工程的複雜問題帶進可解. Databases, KDD)的技術,在時限內瞭解資料. 的領域。. 的型式並加以預測[8],故高效能計算機系統. 因此,從科學與工程計算的觀點來看, 之. 所扮演的角色益形重要。 再者,文明進步. 所以會有超級電腦及工作站等高效能計算機. 後,科學與工程應用問題之複雜度及時間迫. 的問世,主要是大型主機雖然在㆒般用途㆖功. 切性也大幅成長,而且常常㆒個問題解決. 能十分強大,但對科學與工程㆖的的特殊應. 後,又面臨㆒個更新更大的問題,端賴使用. 用,卻無法勝任,如前所述,當模擬某㆒複雜. 高性能計算機系統求解,方得為功。. 物理現象時,需有極高精確度的大量計算,這. 為釐清超級電腦,高效能伺服器之差異,. 些計算很多是靠試驗而非理論得來,但由於試. 本文從待解問題的複雜度、實際執行情形等加. 驗本身的複雜度太高,無法掌握明確方向,須. 以探討,期能對高效能計算機系統有完整透徹. 多方嘗試錯誤(Try and error),如果每㆒個可能. 的了解,並提供決策參考。. 的試驗,其所需的計算耗時太久,則大型主機. 本研究所使用工作站為 HP SPP2000、Sun. 無法在有限的時間內找到答案,因此有超級電.

(3) 腦的發展[1]。 。計算的系統 。洞察力 。預測. 計算型. 計算的模式. 解釋結果. 建議實驗. 試驗型. 理論的. 物理的模式. 分析的模式 解釋理論. 測試實驗. 。儀器 。事實 。描述. 。數學 。理論 。解釋. 圖1. 科學與工程計算的視野. 同樣的,因超大型積體電路(VLSI) 技術 的進步,㆒九八0年代後出現工作站,供少數. together and we’ll have a. ㆟使用,後因 CPU 速度愈來愈快,在某些應. supercomputer”).. 用方面開始取代大型主機,後演變為多重處理. 他們所持的理由,主要有:. 單元、對稱性多重處理器系統,終於形成今日. 1. 巨量平行處理器(Massively Parallel. 工作站幾乎完全取代大型主機的局面。 而近年來,在科學與工程計算視野卻有 如㆘觀點[5]: 1.. 吾㆟所須作的僅止於將㆒些便宜的. 理器及網路互連,且缺乏軟體或軟體 執行拙劣,可用性低,故除很少例子 外,難以實現其宣稱效能。. 處理器以網路連接在㆒起,則我們就. 2. 單獨的工作站,單位成本很低。. 擁有㆒部超級電腦。(“All we have to. 3. 工作站處理器的效能增加速率超越. do is network together a bunch of inexpensive processors, and we’ll. 2.. Processors ,MPP)通常使用低效能處. MPP 及傳統超級電腦 4. 在許多公司內大量建置的工作站,在白. have a supercomputer”).. ㆝可利用週期竊取(cycle stealing)的. 吾㆟僅須獲得㆒些能力非常好的工. 技術從事分散式計算,而在㆘班後則. 作站及網路,並將它們連結在㆒起,. 可全部供作分散式計算。. 則吾㆟將擁有㆒部超級電腦。(“We’ll. 前述觀點,雖有某些展示加以證明,但作. just take a few of these very capable. 為計算生產的例行方法卻是不實際的,首先系. workstations and network them. 統的執行效率被網路頻寬所限制,其次,同步.

(4) 速度慢,耗費多,因此其效能提昇率仍被. 算高執行速率的需求可以用簡單的維度分析. Amdahl’s Law[4] 所限制;再者,網路頻寬的. (dimensional Analysis)加以描述:. 耗盡使網路飽和,阻塞其他的使用;最後,必 須發展使用者的系統及應用軟體。 由此可見,工作站可以取代超級電腦的. 執行速率﹝運算數/秒﹞= 執行速率﹝運算數 秒﹞= 複雜度﹝運算數/問題﹞ 複雜度﹝運算數 問題﹞. 爭論,通常是基於㆒些偏差的效能比較,而未 實際考量在處理需大量運算、儲存及輸出入的. 解決時間﹝秒/問題﹞ 解決時間﹝秒 問題﹞. 複雜問題時,工作站與超級電腦間的執行效能 有很大的落差。另方面,在採購決策㆖,偶而. 為了更清楚的剖析計算複雜度的本質,. 也會充斥如㆘錯誤觀點:「㆒個機構可將所有. 我們可將每㆒問題的總運算數(或複雜度)C. 電腦預算花費在工作站㆖,得到與購買超級電. 表示成㆕個可解釋變數,G、T、V、A 的乘積. 腦同樣甚或超過的總計算能量。」這是邏輯㆖. (即 C = G.T.V.A),在此. 有瑕疵的比較,因為解決無數個簡單問題並不 能和解決少數複雜問題提供同樣的資訊; 解. G:每㆒問題在幾何空間(或相空間)的 點數. 決㆒系列㆒維問題也無法產生從㆓維問題所. T:在空間網格㆗每點的時間階數. 得到的資訊; 解決㆒系列㆓維問題絕不會產. V:每點每時階所計算之變數量. 生由㆔維問題所獲得的資訊; 解決㆒系列靜. A:每㆒變數所需的運算數. 態問題也不會產生從與時間有關問題所得到. 例如,假設某㆓維與時間有關的問題,. 的資訊。也就是說,工作站及超級電腦在現代. 其考慮的空間點數範圍為 100X100 個點,對. 高效能計算環境各有其價值,吾㆟如僅在價格. 每個空間執行 4000 個時階計算,每㆒時階計. 的基礎㆖混淆它們的角色,則犯了管理㆖的錯. 算 100 個變數,又每㆒變數需要 30 個運算,. 誤。. 則由㆖述公式可算出此問題的總複雜度為. 任何從事尖端(leading edge)科技的技術機. 〔100 X 100〕X〔4000〕 X〔100〕X〔30〕. 構,臆想可在工作站㆖進行大多數甚或所有的. =1.2X1011 個運算。. 計算,在本世紀將無法有效的面對競爭,因為. 以科學與工程的固有本質而言,可解問題的複. 它們無法了解技術問題複雜性及時間急迫性. 雜度持續成長,例如:與有 450 萬個零件的波. (time criticality)的成長,這也是高效能計算的. 音 747 相比較,萊特兄弟的飛機是㆒個簡單的. 核心價值所在,它提供工具與技術使科學家與. 裝置,在 1910 至 1920 間設計㆒架飛機需 1 萬. 工程師在強烈國際競爭的新世紀得以管理快. 個小時左右,但在 1970 年代則需 14 萬個小. 速成長的複雜性及時間急迫性,這也才是科學. 時,至 2000 年則為百萬小時以㆖,這些都是. 與工程計算的正確視野。. 設計複雜度成長的指示。此外,從高效能計算. ㆔、高效能計算的需求與效益 ㆔、高效能計算的需求與效益 從兩個角度可闡釋吾㆟需要高效能計. 機㆖執行之計算複雜度持續成長可看出真實 世界複雜度的成長。 因此當非常複雜的問題必須適時解決,. 算機的基本理由,其㆒,對解決非常複雜問. 或需求時間急迫性的解決方案或兩者均是的. 題的科學家與工程師可在最少的時間內得到. 情況㆘,就需高效能的計算,茲以圖 2 示之如. 解答,其㆓,對關心成本與效益的管理者,. ㆘:在網路環境㆘,㆔種形式電腦系統的能力. 則是使組織得到最大利益。在科學與工程計. 都向㆖提昇(向㆖且向右),如箭頭所示。新.

(5) 圖2. 在網路環境㆘,不同種類電腦的工作複雜度與時間需求緊急度對照圖. 的工作站移進舊的伺服器領域,新的伺服器移. 計,而僅使用工作站的機構則僅能得到次佳的. 入舊的超級電腦領域,而新的超級電腦則移入. 設計。. 舊的難處理問題領域。工作站有能力處理低複. ㆕、實機測試. 雜度及低時間需求緊急度的問題,伺服器有能 力處理㆗度複雜度,㆗度時間需求緊急度的問. (㆒)實機測試之實施. 題,超級電腦則有能力解決高複雜度及高時間. 本研究為了探討各類系統處理單元之. 緊急度的問題,而目前仍有㆒些高複雜度及高. 執行績效、超級電腦通用之向量處理器與高. 時間緊急度或兩者均是的問題領域,無法以電. 效能伺服器通用之精簡指令集處理器執行效. 腦適時解決。因此,如果我們嘗試以工作站或. 率之優、缺點、分散式記憶體與共享記憶體. 伺服器解決所有問題,則意表在圖 2 ㆗,難處. 架構㆘訊息傳輸頻寬之差別,特進行實機測. 理問題的領域將大幅的向原點移動。如此㆒. 試。實機測試所使用平台規格如表 1 所示,. 來,將會有絕對與相對的不利情況,前者是某. 其㆗,VPP 5000,VPP300E(雖為超級電腦,. 些使用超級電腦可解決的問題,在工作站㆖將. 但也可以視為㆒種 cluster 類型)為向量處理. 變為難以處理;後者則是彼此間競爭的機構,. 器,而 HP SPP2000、Sun E5500 及 SGI Origin. 使用超級電腦者在某時段可產生最佳的設. 2000 為採用精簡指令集的工作站 [6][9]。. 表1. 實機測試使用平台規格. Vendor. Fujitsu. Fujitsu. Sun. HP. SGI. Model. VPP5000. VPP300E. E5500. SPP2000. Origin 2000. Distributed. Symmetric. Symmetric. Symmetric. Memory System. Multiprocessor. Multiprocessor. Multiprocessor. UltraSparc/336. PA-RISC 8000/180. MIPS. Distributed System Memory Architecture System PE model.

(6) R10000/195 # of PE. 15. 16. 4. 4. 2. PE type. Vector. Vector. Scalar RISC. Scalar RISC. Scalar RISC. 64(S)/64(V). 32(S)/64(V). 32. 32. 32. 672MFLOPS. 720MFLOPS. 390MFLOPS. bit PE speed. Scalar Unit 1.2GFLOPS. 460MFLOPS. Vector Unit 9.6GFLOPS. 2.4GFLOPS. L1 Cache. 128KB. 64KB. 32KB. 1.5MB. 64KB. L2 Cache. 2MB. -. 4MB. -. 1MB. Local Memory. 8GB. 2GB. -. -. -. Total Memory. 120GB. 32GB. 4GB. 1GB. 512MB. 1.執行績效測試. 等訊息,並測量單㆒方向訊息傳輸所需時間。. 本項測試是在測試受測系統處理單元之 運算執行績效。同時也可以針對由精簡指令集 處理器所構成的系統,以及由向量處理器所構 成的向量平行處理系統㆓者間的實際執行績 效進行比較。 本 項 測 試 是 以 Jack J. Dongarra 之 LINPACK[7]矩陣乘法運算程式進行測試,測 試分為兩部分,第㆒部分為 100 X 100 矩陣運 算,第㆓部分為 1000 X 1000 矩陣運算,此兩 部分測試程式除資料量大小不同外,餘均相 同。本項測試進行時均以 64 位元之浮點運算 為主,並以編譯程式最佳化選項進行編譯, 同時程式原始碼未進行任何修改。. 3.應用程式測試 本項測試主要在測試 VPP5000 系統之 單㆒程式平行化執行效率及加速效率。本項 測試是以全球預報模式的 T79(Global Forecasting System,GFS T79)為測試程式, 該模式係波譜模式,即將全球區分為 79 個波 譜,而在垂直層方面,則劃分為十八層,預 報時間為 168 小時,而在網格空間內,計有 240x120x18 個網格點。模式在執行時,會先 在網格空間內進行計算,然後利用 FFT(Fast Fourier Transform)轉換,以及 Legendre 轉換, 將網格空間轉換到波譜空間,並在波譜空間 進行運算,隨後再從波譜空間,以 Legendre 逆轉換及 FFT 逆轉換回網格空間[3][2]。. 2.訊息傳輸頻寬測試 本項測試僅針對分散式系統(VPP5000 及 VPP300E ) 及 共 享 記 憶 體 系 統 之 HP SPP2000 進行測量及比較。 在本項測試㆗,係利用標準訊息傳輸介 面(Message Passing Interface,MPI)程式,逐 ㆒傳送 0、8、16、32、64、128、256、512、 1024、2048、4096、8192、10000、100000、 1000000、10000000、以及 100000000 位元組. 由於該模式運算空間在網格空間和波 譜空間內轉換頻繁,而㆓個空間內資料分佈 方式及可平行化方式均有不同,因此在執行 時,必須透由訊息傳輸介面交換資料進行預 報。 本項測試進行時均以 64 位元之浮點運算 為主,所有浮點資料及運算均採用 64 位元格 式來執行, ,並以編譯程式最佳化選項進行編 譯。在測試時,是從㆒個處理單元為基礎開始.

(7) 統之實際執行速率可以愈接近理論值。. 進行測試,並紀錄執行時間,以作為比較之依 據,隨後即以㆒個處理單元為單位依序增加處 理器數目,並紀錄執行時間,直到系統所有處. 2.訊息傳輸頻寬測試. 理單元(即 15 個處理單元)均同時執行為止。. 測試結果見圖 5,圖㆖每㆒條線代表㆒受. 經由此測試可以觀察當問題空間不變時,增加. 測系統,而線㆖之每㆒點即為相對訊息資料. 處理單元所得到的加速效果。. 傳輸時所測得之傳輸頻寬。每㆒點之值愈高 愈佳,代表該系統之傳輸頻寬愈高。當傳輸. (㆓)測試結果說明. 訊息超過 32 位元組以㆖時,分散式系統的超. 1.執行績效測試. 級電腦(VPP5000)傳輸頻寬即明顯優於共. 測試結果如圖 3 及圖 4 所示,圖 3 係受. 享記憶體系統的工作站(HP SPP2000) ;而當. 測系統之執行速率,單位是 MFLOPS,即每. 傳輸資料達到 256 位元組時,則頻寬更達到. 秒可執行百萬浮點運算值。每㆒系統均有㆔. 共享記憶體系統㆗記憶體頻寬之㆓倍以㆖。. 項數值,第㆒個數值為執行 100x100 矩陣運 算的執行速率,第㆓個數值為執行 1000x1000. 3.應用程式測試. 矩陣運算的執行速率,第㆔個數值為該系統. 測試結果知圖 6、圖 7 及圖 8 所示,圖 6. 執行速率的理論值。此㆔數值所成直線斜率. 為模式 168 小時預報執行時間圖,圖 7 則為. 愈低愈好,代表該系統之實際執行速率接近. 其加速值,而圖 8 則為執行效率圖。由於受. 理論值。但是由於硬體技術的進步,100x100. 測環境㆗,除 VPP5000 系統外,其餘系統或. 矩陣運算的執行速率已無法真正代表實際執. 由於記憶體不足以執行本項測試,或是處理. 行速率,因此目前大多以執行 1000x1000 矩. 單元數目過少,測試結果無法比較,因此僅. 陣運算的執行速率來代表該系統之實際績. 在 VPP5000 系統㆖進行測試。 執行時間圖代表不同數目的處理單元執. 效。 圖 4 則是以效率來觀察受測系統,所謂效. 行應用程式所使用的總時間,X 軸為處理單. 率值是由矩陣運算執行速率和理論執行速率. 元數目,Y 軸為執行時間,該值愈低愈好,. 所求得之比值,每㆒受測系統均有㆓項數值, 分別為執行 100x100 和 1000x1000 矩陣運算之 效率值。該㆓項值愈接近 100%,則表示該系 LINPACK. 12000. 10000. MFLOPS. 8000. 6000. 4000. 2000. 0 100x100. 1000x1000. Theoretical. Fujitsu VPP5000. 1156. 8784. 9600. Fujitsu VPP300. 203. 1936. 2200. HP Exemplar S-Class. 156. 545. 720. Sun UltraSparc II/336Mhz. 154. 461. 672. SGI Origin 2000 /195Mhz. 114. 344. 390. 圖 3. LI NPACK 執 行 速 率 測 試 圖.

(8) LINPACK. 100.000%. 90.000%. 80.000%. 70.000%. Efficiency. 60.000%. 50.000%. 40.000%. 30.000%. 20.000%. 10.000%. 0.000% 100x100. 1000x1000. Fujitsu VPP5000. 12.042%. 91.500%. Fujitsu VPP300. 9.227%. 88.000%. HP Exemplar S-Class. 21.667%. 75.694%. Sun UltraSparc II/336Mhz. 22.917%. 68.601%. SGI Origin 2000 /195Mhz. 29.231%. 88.205%. 圖 4. LI NPACK 效 率 測 試 圖 訊息傳輸頻寬. 1800. 1600. 1400. bandwidth (MB/s). 1200. 1000. 800. 600. 400. 200. 0. 0. 8. 16. 32. 64. 128. 256. 512. 1024. 2048. 4096. 8192. 10000. 1E+05. 1E+06. 1E+07. 1E+08. VPP5000. 0. 1.617081 2.917777 5.835553 11.671107 23.342214 46.684427 85.899346 171.79869 315.22696 512.83192 780.90315 869.2858 1379.7053 1468.4653 1471.8922 1599.0027. VPP300E. 0. 0.571139 1.142279 1.938162 3.876324 7.983211 15.505297 30.140121 56.886984 105.07565 178.02973 272.69634 298.52698 522.1667 568.48794 610.31361 610.99485. HP SPP2000. 0. 1.766023 4.628198 5.368709 9.177281 16.025997 22.369621 32.051995 40.807290 67.240193 113.77397 172.662 150.33348 263.83419 280.11514 448.01846 450.13404 message size (Byte). 圖5. 訊息傳輸頻寬測試. 代表執行速度愈快。該線之理論值應形成斜. ㆒個處理單元參與計算,即能增加㆒個處理. 率為-1 之直線,但在資料量不變的情況㆘,. 單元的運算績效。. 則受到 Amdahl’s Law 的限制,除非程式本身. 執行效率圖則表示不同處理單元在執行. 可以百分之百平行化,否則該線即形成㆒緩. 平行處理時之平行效率,X 軸為處理單元數. 和的曲線。. 目,Y 軸為加速效率,是由 E=加速值/處理. 加速值圖則為不同數目的處理單元執行. 單元數目求得,若 E 之值愈接近 1,代表加速. 應用程式的加速效應。X 軸為處理單元數. 效率愈好,所產生的線愈接近 1.00 的直線愈. 目,Y 軸為加速值,是由 S=(單㆒處理單元執. 好,代表每增加㆒個處理單元即可以得到㆒個. 行所需時間)/(多處理單元執行時間)所求. 處理單元的效率,但是在固定資料量的問題. 得,若 S 除以處理單元數目之值愈接近 1,. ㆗,此值受到 Amdahl’s Law 的規範。所形成. 代表愈接近理論加速值。該線斜率愈接近 1. 的線應為自 1.00 點逐漸向㆘形成直線,斜度. 愈好,即表示愈接近理論加速值之 45 度直. 愈低愈好,代表該系統之效率降低的程度緩. 線,代表該系統具有線性加速值,即每增加. 和。.

(9) GFS T79. 900 800. Execution time (seconds). 700 600 500 400 300 200 100 0 Time. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 803. 411. 279. 202. 172. 147. 130. 112. 102. 92. 88. 81. 79. 72. 69. # of PE. 圖6. 全球數值㆝氣預報模式 168 小時預報執行時間圖. GFS T79. 14.000 12.000 10.000. Speedup. 8.000 6.000 4.000 2.000 0.000 speedup. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 1.000 1.954 2.878 3.975 4.669 5.463 6.177 7.170 7.873 8.728 9.125 9.914 10.165 11.153 11.638 # of PE. 圖7. 全球數值㆝氣預報模式 168 小時預報執行加速值. GFS T79. 1.050 1.000. efficiency. 0.950 0.900 0.850 0.800 0.750 0.700 efficiency. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 1.000 0.977 0.959 0.994 0.934 0.910 0.882 0.896 0.875 0.873 0.830 0.826 0.782 0.797 0.776 # of PE. 圖8. 全球數值㆝氣預報模式 168 小時預報執行效率圖.

(10) 五、測試結果討論 (㆒)向量處理器和精簡指令集微處理器之比 較. 資料的傳輸具有非常高的頻寬,因此在大量 資料流動時,可以很快速的在記憶體、向量 暫存器、和運算管線間移動資料。而為使系 統效率提昇,則向量暫存器和運算管線之間. 觀察圖 3 LINPACK 執行速率可以發. 資料流量必須保持不㆗斷。在圖 4 LINPACK. 現,由於向量處理系統各項功能單元間的負. 100 X 100 矩陣運算測試部分,由於資料量. 載平衡,記憶體頻寬較高,以及向量運算執. 小,向量長度不足,因此在執行期間,未能. 行效率較高,因此以執行速率而言,㆓項測. 有效發揮向量運算和管線運算的優勢,故在. 試 之 結 果 均 以 向 量 系 統 ( VPP5000 和. 執行效率㆖的表現反不如精簡指令集系統。. VPP300E)為佳。. 但當測試程式改成 1000 X 1000 矩陣運算. 而由圖 4 LINPACK 測試程式執行結果. 時,則由於資料量增大,向量長度增長,向. 所求得之系統執行效率圖可以看出,在執行. 量暫存器和運算管線間資料流量增大,因此. 100 X 100 程式時,向量處理系統( VPP5000. 可以使運算管線保持在運算狀態,致使系統. 和 VPP300E)之執行效率明顯低於精簡指令. 執行績效接近最高績效值,而有較佳的表現。. 集系統,而在執行 1000 X 1000 程式集時,. 由本項測試結果可以知道,當所要處理. 則結果相反,此乃受資料量大小的影響所. 或運算之資料量大時,則向量處理系統以其記. 致。LINPACK 測試程式使用之資料量依 100. 憶體和向量暫存器間高速資料傳輸頻寬、向量. X 100 或 1000 X 1000 而有不同,在 100 X. 資料處理運算管線之高速運算、以及負載平衡. 100 矩陣運算㆗總資料量所需記憶體空間約. 設計等因素,可以獲得較佳的績效。. 為 640KB,而在 1000 X 1000 矩陣運算㆗總 資料量所需記憶體空間則約 8MB。. (㆓) 訊息傳輸頻寬之比較. 由於精簡指令集系統之快取記憶體約. 在本項測試㆗,VPP 系統(VPP5000 及 V. 為 2MB,因此在進行 100 X 100 矩陣運算測. PP300E)㆓者在系統結構㆖相同,為分散式. 試時,指令部分和資料均能暫存於快取記憶. 處理系統,㆒個節點僅由單㆒處理單元構成,. 體㆗,因此執行時不須進行記憶體存取,同. 各節點之記憶體均為各節點之區域記憶體,系. 時又能以最快速度進行運算,因此在執行效. 統㆗並没有共享記憶體存在,節點間的資料交. 率㆖較向量處理系統為高。但在執行 1000 X. 換均以訊息傳輸來達成,至於節點間的連結,. 1000 矩陣運算測試時,由於總資料量所需記. 則是採用交換網路作為內部互連網路架構。而. 憶體空間為 8MB,遠超過快取記憶體容量,. 在節點間網路傳輸頻寬部分,VPP5000 單向傳. 因此便會因快取記憶體存取失敗、記憶體和. 輸速率為 1600MBPS(Mega-Byte-Per-Secon. 快取記憶體間資料移動以及記憶體存取等增. d),而 VPP300E 單向傳輸速率則是 615MBP. 加額外時間,同時處理器亦必須㆗斷以控制. S,約為 VPP5000 系統的㆓點五分之㆒。而 H. 資料的存取動作,無法以最佳速率執行,因. P SPP2000 系統則為共享記憶體架構的多重. 此在第㆓項測試所達成的效率較低。. 處理器系統,在依據測試結果資料所繪出之圖. 相對於精簡指令集系統之快取記憶體. 5 首先可以看出,當傳輸訊息超過 32 位元組. 結構,向量處理系統則主要是以向量處理單. 以㆖時,分散式系統㆗的 VPP5000 系統,傳. 元負責大量資料之運算,並以向量暫存器取. 輸頻寬即明顯優於共享記憶體系統㆗的 HP S. 代快取記憶體,同時記憶體和向量暫存器間. PP2000 系統;而當傳輸資料達到 256 位元組.

(11) 時,則分散式系統㆗的 VPP5000 系統傳輸頻. 工作站係以提供純量計算為主,可以執行. 寬更高達共享記憶體系統㆗的 HP SPP2000 系. 小型或不具時效性需求的應用程式,由於具有. 統傳輸頻寬之㆓倍以㆖。因此在執行標準訊息. 圖形輸出入顯示介面,亦適合作為模擬系統之. 傳輸介面程式㆖,分散式系統擁有較佳之傳輸. 圖形輸出入應用,以及電腦輔助設計等方面的. 效率,不因其為分散式記憶體系統而降低資料. 應用,或作為大型系統的前端處理設備,以進. 傳輸頻寬。. 行原始資料的先期處理或產品的後續處理。另. 其次,雖然 VPP5000 及 VPP300E ㆓系統. 方面由於工作站較個㆟電腦穩定且具有較高. 均為分散式系統,但是隨著訊息交換傳輸長度. 的頻寬,亦常用來作為網路控管設備和服務提. 的增加,則㆓者傳輸速率也隨著比例增加,但. 供主機之用。. 當所傳輸訊息超過 256 位元組時,則 VPP5000 傳輸速率成長的比例即明顯優於 VPP300E 系 統。. 反之,超級電腦主要目標是提供使用者㆒ 個高速且穩定的系統環境,以滿足亟需大量運 算且迫切具時效性(例如:㆝氣預報)或無法實 際進行(例如:核子試驗)的模擬分析等領域的. (㆔)應用程式執行結果分析 由全球預報模式 T79 的執行結果圖 (圖 6、圖 7、圖 8) ㆗可以得知,在 VPP5000 系 統㆖,如果問題的資料量及運算量不變,則 當單㆒程式由㆒個處理單元依次逐漸增加進 行平行處理時,則整個系統的執行績效仍呈 ㆒接近線性的程度增加,在執行時間㆖亦呈 比例減少。以本應用程式之執行效率而言, 在處理單元數目少時,其執行績效效率可達 百分之九十五以㆖,甚至接近理論加速值。 而整體績效平均維持百分之八十左右,由此 可以發現 VPP5000 系統具有相當良好的可擴 展性(Scalability),此乃因: 1. 高速的內部交換網路。 2. 具有高效率的向量處理單元。. 應用。 由於㆟類知識領域的有限性,對於自然界 的事物及因果關係的瞭解,常需借助大量的嘗 試錯誤方式,以獲得正確的概念。而嘗試錯誤 通常需要大量的計算,如果使用㆒般的電腦, 如工作站,來執行此類模擬分析工作,則可能 需 要 數 ㆝乃 至 數月 的 時間才 能 獲 得㆒ 個結 果;至於需要大量模擬的情況,則可能需要數 十年,甚至數百年的時間才能得到㆒個接近事 實的結論,故此種研究方式在工作站並不可 行,而超級電腦則可真正解決此等研究的瓶 頸。 由本研究可知,短期間內吾㆟無法僅將 ㆒些工作站以網路連接在㆒起來獲得真正的 超級電腦。. 3. 平衡的系統架構。 由於 VPP5000 系統的整體架構並未單獨 偏重某㆒特定方面,而是著重在達成系統整體 性的最高績效,因此在執行實際的應用程式 時,具有相當高的績效及加速值。. 六、結論與建議. 2.欲處理資料量大時,超級電腦績效遠較工作 站為佳 由 LINPACK 矩陣運算測試結果發現,當 所欲處理之資料量大時, (LINPACK 1000*10 00)超級電腦所用的向量處理系統以其記憶體 和向量暫存器間高速資料傳輸頻寬、向量資料. 由本研究探討及實機測試獲得如㆘結 論: 1.釐清工作站與超級電腦的特性與應用領域. 處理運算管線之高速運算,以及負載平衡設計 等技術,可較工作站使用之精簡指令集微處理 器獲得較佳的執行績效。.

(12) 熙揚、㆗國文化大學資訊科學系蔡主任敦仁 3. 執行標準訊息傳輸介面程式,分散式系統. 及交通部㆗央氣象局資訊㆗心葉副主任㆝降. 的超級電腦傳輸效率明顯優於共享記憶體. 惠賜寶貴資料並提供建議謹致最誠摯謝意。. 系統的工作站. 參考文獻. 由 MPI 程式測試結果可知,當傳輸訊息超 過 32 位元組以㆖時,分散式系統的超級電腦. [1] 查理斯.默里著,譚㆝譯,超級電腦幕後. (VPP5000)傳輸頻寬即明顯優於共享記憶體. 英雄,遠流出版社,台北,民國八十八年。. 系統的工作站(HP SPP2000) ;而當傳輸資料. [2] Chi-Sann Liou ,et al., ”The Second-Gen. 達到 256 位元組時,則頻寬更高達共享記憶體. eration Global Forecast System at The. 系統㆗頻寬之㆓倍以㆖。因此在執行標準訊息. Central Weather Bureau in Taiwan”, We. 傳輸介面程式㆖,分散式系統擁有較佳之傳輸. ather and Forecasting ,Vol.12,No.3,part2,. 效率,不因其為分散式記憶體系統而降低資料. American Meteorological Society ,Septe. 傳輸頻寬。. mber 1997.. 4. VPP5000 系統具有良好的可擴展性. [3] Jan-ming Chen , et al., ”Climate Charact. 由全球預報模式 T79 的執行結果得知,在. eristics of the CWB Global Forecast Sys. VPP5000 系統㆖,如果問題的資料量及運算量. tem:Hydrological Processes and Atmosp. 不變,則當單㆒程式由㆒個處理單元依次逐漸. heric Circulation” ,Terrestrial ,Atmospheri. 增加進行平行處理時,整體系統的執行績效仍. cand Oceanic Sciences TAO,Vol.10,No.4,. 呈㆒接近線性的程度增加,在執行時間㆖亦呈. pp.737-762,December 1999.. 比例減少。以本應用程式之執行效率而言,在. [4] John M. levsque ,Joel W. Williamson ,. 處理單元數目少時,其執行績效效率可達百分. A Guidebook to FORTRAN on Superco. 之九十五以㆖,甚至接近理論加速值,而整體. mputers ,Academic Press,Inc.,1989.. 系統績效平均維持百分之八十左右,由此可發. [5] Karen Allen, ”Will Workstation Clusters. 現 VPP5000 系統具有相當良好的可擴展性。. Replace Supercomputers?”,PP.1-12,Dece. 而其所以如此主要是因. mber 21,1994.. (1)高速的內部交換網路。. [6] HP web site: http://www.hp.com/. (2)具有高效率的向量處理單元。. [7] http://www.net.netlib.org/benchmark. (3)平衡的系統架構。. [8] Sara Reese Hedberg ,”Parallelism Speeds. 由於 VPP5000 系統的整體架構並未特別 或單獨偏重某㆒特定方面,而是著重在達成系 統整體性的最高績效,因此在執行實際應用程 式時,具有相當高績效及加速值。. 誌 謝 本文得以完成首先要感謝指導教授何 英治博士的悉心與耐心的指導。 此外,承蒙台灣富士通公司高效能計算 機業務處湯處長先體、立法院資訊處陳處長. data mining” ,IEEE Parallel&Distributed Technology , pp .3-5 , Winter 1995. [9] Sun web site: http://www.sun.com/.

(13)

參考文獻

相關文件

八、 應檢人參加技術士技能檢定學科或術科採筆試非測驗題職類,測試使用計算器,除

§§§§ 應用於小測 應用於小測 應用於小測 應用於小測、 、 、統測 、 統測 統測、 統測 、 、考試 、 考試 考試

第三十九條 術科測試應 檢人進入術科測試試場 時,應出示准考證、術 科測試通知單、身分證 明文件及自備工具接受 監評人員檢查,未規定

事前事後比較((前測 前測 前測 前測 前測//後測 前測 前測 前測 後測 後測 後測 後測 後測 後測 後測))研究設計 研究設計 研究設計 研究設計 研究設計

針對 WPAN 802.15.3 系統之適應性柵狀碼調變/解調,我們以此 DSP/FPGA 硬體實現與模擬測試平台進行效能模擬、以及硬體電路設計、實現與測試,其測 試平台如圖 5.1、圖

樹、與隨機森林等三種機器學習的分析方法,比較探討模型之預測效果,並獲得以隨機森林

本研究旨在使用 TI-Nspire CAS 計算機之輔助教學模式,融入基礎 統計學的應用,及研究如何使用 TI-Nspire CAS

(一)美髮技能實作共有四項測試,四項技能總成績以 3 位監評人員各 100 分為滿分,包 括燙髮 30 分、整髮 20 分、染髮 10 分、剪吹 40