• 沒有找到結果。

由Proto3-ARM9TM 與 HT-ARM9TM 的效能比較(表 2),即使沒有使用 BTC 做動態 分支指令預測,HT-ARM9TM 擁有的多執行緒執行特性,使 MIPS (Million Instructions Per Cycles)從 31.64 增加到 39.12,已能大幅改進執行效率。

未來可改進的方向有改善記憶體的存取介面,使不同執行緒的資料記憶體可同時存 取。增加少量的運算單元,使部分的運算指令也能同步執行。

表2: Proto3-ARM9TM 與 HT-ARM9TM 的效能比較

六、參考資料

1. Steve Furber, ARM system-on-chip architecture, 2nd edition, Addison Wesley, 2000.

2. Andrew N. Sloss, Dominic Symes, and Chris Wright, ARM system developer’s guide:

designing and optimizing system software, Morgan Kaufmann, 2004.

3.

http://www.arm.com/

Proto3-ARM9TM @ ARM mode

Implementation FPGA Freq. Cycles Reduced(%) IPC Perf. ratio(%) MIPS

Without BTC 57.5 1519 0 0.348 100 20.01

With BTC 51.4 1119 26.33 0.437 112.24 22.46

Modified Code 51.4 875 42.39 0.604 155.12 31.04

EXS forwarding 45.2 755 50.29 0.7 158.12 31.64

HT-ARM9TM @ ARM mode

Implementation FPGA Freq. Cycles Reduced(%) IPC Perf. ratio(%) MIPS

Without BTC 45.7 618 59.31 0.856 195.5 39.12

4. ARM, ARM7TDMI Technical Reference Manual, Rev. 4, 2001.

5. ARM, ARM9TDMI Technical Reference Manual, Rev. 3, 2000.

6. ARM, ARM926EJ-S Technical Reference Manual, Rev. 0, 2000.

7. Intel, Intel® 64 and IA-32 Architectures Software Developer’s Manual, Vol. 3A, 2006.

8.

http://www.intel.com/

architecture with high-speed synchronization mechanism,” Proceedings of the Fifth International Conference on Parallel Processing Symposium, Apr. 30--May 2, pp.

336--343, 1991.

12. Yunn-Yen Chen, Jin-Kwon Peir, and Chung-Ta King, “Performance of shared cache on multithreaded architectures,” Proceedings of the Fourth Euromicro Workshop on Parallel and Distributed Processing, Jan. 24--26, pp. 541--548, 1996.

13. T. Matsuzaki, H. Tomiyasu, and M. Amamiya, ”An architecture of on-chip-memory multi-threading processor,” Innovative Architecture for Future Generation High-Performance Processors and Systems, Jan. 18--19, pp. 100--108, 2001.

14. T. Matsuzaki, S. Amamiya, M. Izumi, and M. Amamiya, “A multi-thread processor architecture based on the continuation model,” Innovative Architecture for Future Generation High-Performance Processors and Systems, Jan. 17, pp. 8, 2005.

15. M. Amamiya, H. Tomiyasu, and S. Kusakabe, “Datarol: a parallel machine architecture for fine-grain multithreading,” Proceedings of the Third Working Conference on Massively Parallel Programming Models, Nov. 12--14, pp. 151--162, 1997.

16. Cui Guangzuo, and Li Zhaolin, “MT-ARM: multithreading implementation in ARM7 architecture,” Proceedings of the Fourth International Conference on ASIC, Oct. 23--25, pp. 793--796, 2001.

17. J. Kreuzinger, and T. Ungerer, “Context-switching Techniques for Decoupled Multithreaded Processors,” Proceedings of the 25th Euromicro Conference, Sept. 8--10, vol. 1, pp. 248--251, 1999.

18. H. Kwak, Ben Lee, Ali R. Hurson, Suk-Han Yoon, and Woo-Jong Hahn, “Effects of multithreading on cache performance,” IEEE Transactions on Computers, No. 48, vol. 2, pp. 176--184, Feb. 1999.

19. Kiyofumi Tanaka, “Fast context switching by hierarchical task allocation and reconfigurable cache,” Innovative Architecture for Future Generation High- Performance Processors and Systems, Jul. 17, pp. 20--29, 2003.

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價值(簡 要敘述成果所代表之意義、價值、影響或進一步發展之可能性)、是否適合在學術期刊 發表或申請專利、主要發現或其他有關價值等,作一綜合評估。

1.

請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

□ n達成目標

□ □未達成目標(請說明,以 100 字為限)

□ □實驗失敗

□ □因故實驗中斷

□ □其他原因

說明:

2.

研究成果在學術期刊發表或申請專利等情形:

論文:n已發表 □未發表之文稿 □撰寫中 □無 專利:□已獲得 □申請中 □無

技轉:□已技轉 □洽談中 □無 其他:(以100 字為限)

相關研究論文發表:

已發表之會議論文:

1. Mehrdad Fallahpour, Chang-Hong Lin, Ming-Bo Lin, and Chin-Yu Chang, “Parallel One- and Two-Dimensional FFTs on GPGPUs”, 2012 IEEE International Conference on Anti-Counterfeiting Security and Identification (IEEE ASID2012), Taipei, Aug 24-26, 2012, pp. 316-320.

3.

請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價值(簡 要敘述成果所代表之意義、價值、影響或進一步發展之可能性)(以500 字為限)

本計畫為進一步改進本實驗室多年來持續進行的ARM 相容微處理器架構的研究與 實現,以改良先前完成的Proto3-ARM9TM 處理器的架構,使其支援多執行緒的技術。

本計畫中,採用多執行緒處理的機制,重新設計了Proto3-ARM9TM 處理器的架構。採 用 Intel 處理器的超執行緒機制,使處理器能執行兩個執行緒,並增加對應的暫存器,

以及對等劃分所需的指令記憶體與資料記憶體。切換執行緒的方式以信號要求切換的機 制為基礎,再加上隱含切換的機制以彈性因應不同指令時的切換。本計畫設計的執行緒 管理單元,可以依照切換執行緒的基本機制設定,以及不同情況所送入的訊號做判斷,

選擇最適合執行的指令執行。對於快取記憶體存取失誤所造成的危障,本計畫也做出符 合 HT-ARM9TM 處理器特性的處理方式。本計畫所設計的 HT-ARM9TM 在 Xilinx 的 Virtex5 XC5VLX110-FF676 FPGA 上實現,與先前的 Proto3-ARM9TM 架構比較下,操 作頻率從45.2 MHz 略微提升至 45.7 MHz,相同測試程式下的 IPC 由 0.7 提升至 0.856,

整體效能則增加了23.64%。

目前對於整個計畫的執行任務,已經完整地達成。由於本計畫屬於實務型的研究,

在學術期刊發表論文較不易,然而其成果預計可以完成一篇碩士論文,預計於2012年年 底完成。然而,相關研究則產出三篇論文。另外,對於參預人員而言皆能獲得處理大型 數位系統之實務經驗,這相對於目前大多數以著重於理論學習之學生而言,未嘗不是另 外一種值得珍惜之道,尤其是技職體系學生。對於工業界而言,參預人員均能順利進入 職場,發揮其所學,貢獻於社會。這亦是大學教育之首要目標:培養社會需要的實務人 才。

相關研究論文發表:

投稿中的期刊論文:

1. Mehrdad Fallahpour, Ming-Bo Lin, and Chang-Hong Lin, “Parallel Photon-Mapping Rendering on a Mesh-NoC-Based MPSoC Platform,” submitted to ACM TOG (Sept. 2012) 2. Mehrdad Fallahpour, Ming-Bo Lin, and Chang-Hong Lin, “Parallel Ray Tracing on a Mesh-NoC-Based MPSoC Platform,” submitted to IEEE TPDS (Aug. 2012)

已發表之會議論文:

1. Mehrdad Fallahpour, Chang-Hong Lin, Ming-Bo Lin, and Chin-Yu Chang, “Parallel One- and Two-Dimensional FFTs on GPGPUs”, 2012 IEEE International Conference on Anti-Counterfeiting Security and Identification (IEEE ASID2012), Taipei, Aug 24-26, 2012, pp. 316-320.

國科會補助計畫衍生研發成果推廣資料表

日期:2012/10/30

國科會補助計畫

計畫名稱: 一個32位元多執行緒CPU架構研究與實現 計畫主持人: 林銘波

計畫編號: 100-2221-E-011-062- 學門領域: 計算機結構與計算機系統

無研發成果推廣資料

100 年度專題研究計畫研究成果彙整表

計畫主持人:林銘波 計畫編號:100-2221-E-011-062-

計畫名稱:一個 32 位元多執行緒 CPU 架構研究與實現

其他成果

(

無法以量化表達之成 果如辦理學術活動、獲 得獎項、重要國際合 作、研究成果國際影響 力及其他協助產業技 術發展之具體效益事 項等,請以文字敘述填 列。)

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程/模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動/競賽 0

研討會/工作坊 0

電子報、網站 0

目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

1. Mehrdad Fallahpour, Chang-Hong Lin, Ming-Bo Lin, and Chin-Yu Chang, 'Parallel One- and Two-Dimensional FFTs on GPGPUs', 2012 IEEE International Conference on Anti-Counterfeiting Security and Identification (IEEE ASID2012), Taipei, Aug 24-26, 2012, pp. 316-320.

3. 請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價 值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)(以 500 字為限)

本計畫為進一步改進本實驗室多年來持續進行的 ARM 相容微處理器架構的研究與實現,以 改良先前完成的 Proto3-ARM9TM 處理器的架構,使其支援多執行緒的技術。本計畫中,採 用多執行緒處理的機制,重新設計了 Proto3-ARM9TM 處理器的架構。採用 Intel 處理器的 超執行緒機制,使處理器能執行兩個執行緒,並增加對應的暫存器,以及對等劃分所需的 指令記憶體與資料記憶體。切換執行緒的方式以信號要求切換的機制為基礎,再加上隱含 切換的機制以彈性因應不同指令時的切換。本計畫設計的執行緒管理單元,可以依照切換 執行緒的基本機制設定,以及不同情況所送入的訊號做判斷,選擇最適合執行的指令執 行。對於快取記憶體存取失誤所造成的危障,本計畫也做出符合 HT-ARM9TM 處理器特性的 處理方式。本計畫所設計的 HT-ARM9TM 在 Xilinx 的 Virtex5 XC5VLX110-FF676 FPGA 上實 現,與先前的 Proto3-ARM9TM 架構比較下,操作頻率從 45.2 MHz 略微提升至 45.7 MHz,

期刊發表論文較不易,然而其成果預計可以完成一篇碩士論文,預計於 2012 年年底完成。

然而,相關研究則產出三篇論文。另外,對於參預人員而言皆能獲得處理大型數位系統之 實務經驗,這相對於目前大多數以著重於理論學習之學生而言,未嘗不是另外一種值得珍 惜之道,尤其是技職體系學生。對於工業界而言,參預人員均能順利進入職場,發揮其所 學,貢獻於社會。這亦是大學教育之首要目標:培養社會需要的實務人才。

相關研究論文發表:

投稿中的期刊論文:

1. Mehrdad Fallahpour, Ming-Bo Lin, and Chang-Hong Lin, 'Parallel Photon-Mapping Rendering on a Mesh-NoC-Based MPSoC Platform,' submitted to ACM TOG (Sept. 2012) 2. Mehrdad Fallahpour, Ming-Bo Lin, and Chang-Hong Lin, 'Parallel Ray Tracing on a Mesh-NoC-Based MPSoC Platform,' submitted to IEEE TPDS (Aug. 2012) 已發表之會議論文:

1. Mehrdad Fallahpour, Chang-Hong Lin, Ming-Bo Lin, and Chin-Yu Chang, 'Parallel One- and Two-Dimensional FFTs on GPGPUs', 2012 IEEE International Conference on Anti-Counterfeiting Security and Identification (IEEE ASID2012), Taipei, Aug 24-26, 2012, pp. 316-320.

相關文件