實驗 B - GPU 參數對執行效率的結果與分析 - 實驗與結果分析 - 使用GPU於演化式影像雜訊濾波器設計之平行化計算

實驗與結果分析

5.3 實驗 B - GPU 參數對執行效率的結果與分析

表 _5.1: 實驗 _{B - CGP} 參數表

(a) CGP

共同參數

Parameters Value

Image size 256 × 256

CGP grid size 8 × 4

Level back 2

Number of function 16

Stopping criteria 5000 generations Population size 100

(b)

交配與突變機率

Crossover Mutation

CGP1 40% 40%

CGP2 60% 60%

CPG3 80% 80%

當遮罩大小為_{3 × 3 ,}代表遮罩數量為 (256 − 3 + 1)²共₆₄₅₁₆個。將一個遮罩的過濾交給一個 _thread 計算^,共動用 ₆₄₅₁₆個_thread。

為了提高運算效率^, 以硬體的執行角度分析^,分析過程的數據參考表_5.2 。

1. 一個 _STMP 內的共享記憶體空間為16384 bytes : 影像為 _8-bits 灰階圖^,所需要的共享記憶體空間為 ₃²_{+ 8 × 4}共 _{41 bytes} 。代表一個 _STMP 內可用的 _thread 將被限制最多為399個。

2. 分組: thread需要₆₄₅₁₆個但被限制為最多₃₉₉個^,因此須分組成數個_block 。若以質因數分解, 64516可分解為: 254 、₁₂₇ 、₄、₂ 、_{1 ,}相對應的 _block 數量將為 254、₅₀₈ 、

16129、₃₂₂₅₈、₆₄₅₁₆ 。

3. Warp : STMP 以 _warp 為單位執行^,一個 _warp 由 ₃₂個 _thread 組成。若宣告的數量不足₃₂也會成為一個_{warp ,}代表有數個_thread的浪費。因此₂₅₄、 ₁₂₇、

30、 _{3 1}。

4. Occupancy :為了減少延遲^,需讓 STMP 有足夠的 warp 做文本切換。但有以下考量:

• 一個 STMP 最多只能放入 32個warp :因此能使用的 block 數量為 4、₈、 32、

32、₃₂。

• 一個 _STMP 內共享記憶體空間 :因此能使用的 _block 數量為 ₁、₂、₉₉、 199 、₃₉₉ 。_(*共享記憶體會保留空間放執行的程式碼 ^,因此無法全部使用。 )

• 一個_STMP 最多只能放入₈個 _block。

在上三點的限制下得到的 _block 數量為₁、 ₂、₈、 ₈、₈。

5. 綜合考量:考量_thread因包裝成_warp而造成的浪費與佔有率後^,選擇_thread浪費最少的或者佔有率高的。

實驗結果如圖5.4 ,左邊縱軸為各種thread設定下所花費的時間^, 以長條圖表示 ^,單位為秒。右邊縱軸為各種 thread 設定下的 speedup , speedup 為 _CPU 與 GPU 版本程式的時間比值, CPU 版本程式所花費的時間呈現於圖上方的表格^,以折線圖表示。從_thread 數量來分析^,可以發現在 _thread 數量為 ₂₅₄與 ₁₂₇的運算時間相差不多 ^,但 thread 數量為 ₁₂₇的時間較短^, 表示在相同的占有率下^,浪費的 _thread 越少^,運算效能越好。而在 _thread 數量為 ₄、₂和₁時^, 運算時間也為倍數差。從交配率來分析^,比較交配率 _40%與 _60%的計算時間^, 兩者的時間倍數幾乎為 _1.5倍^,而 _40%與 _80%的計算時間幾乎為 ₂倍^,表示本研究提出的方法很適合平行化計算。

表 _{5.2: GPU} 參數分析 ₍遮罩大小為_{3 × 3)}

表 _{5.3: GPU} 參數分析 ₍遮罩大小為_{5 × 5)}

Thread 數量 ₂₅₂ ₁₈₉ ₁₄₄ ₆₃ ₄₈

換算成 warp 8 6 5 2 2

Thread 浪費的數量 ₄ ₃ _{0 (16)} ₁ _{0 (16)}

換算成 block

STMP 內最多共 ₃₂個_warp ₄ ₅ ₆ ₁₆ ₁₆

受限於共享記憶體的 block 數量 1 1 1 4 5 多核心處理器內的 _warp 數 _{8 × 1} _{6 × 1} _{5 × 1} _{2 × 4} _{2 × 5}

佔有率 _25% 18.75% 15.63% 25% 31.50%

而遮罩大小為 5 × 5時^, 遮罩數量變成 (256 − 5 + 1)²共63504 ,所需要的共享記憶體空間為 5² + 8 × 4共 57 bytes。遮罩數量比 _{3 × 3}少^,但一個 thread 所需的記憶體空間便多了^,因此一個 _STMP 能容納的最大 _thread 將變少為 ₂₈₇個。而 ₆₃₅₀₄可以拆解的質因數共有 ₃₈種^,因此 _thread 有較多的選擇。但許多組合下 _thread 的浪費數量較多^,在運算效能上的表現較差 ^,因此只列出幾組數據討論。分析的方法同上敘述^, 分析結果請參考表_{5.3 ,}實驗結果請參考圖_5.5 。

此實驗結果分為三部分_–warp 、_occupancy 和綜合討論:

• warp :雖然第三組和第五組的 _thread浪費量為_{16 ,}但恰好為 _half-warp 的組合^, 因此此兩組的時間花費較為其他組少。

• occupancy :由於本研究使用的_GPU 卡以 _block 為主要文本切換單位 ^,因此只探討前三組 _block 數量皆為 ₁的情況。但由於第三組的 _thead 浪費量為 _{0 ,}與前兩組有差別^,因此只比較第一和第二組實驗結果。可以發現在相差不多的 _thread 浪

DEF GH

dIdx(144,1)和 BlockIdx(441,100)。

在文檔中使用GPU於演化式影像雜訊濾波器設計之平行化計算 (頁 57-63)