低功率延遲積之全加器設計

全文

(1)國立高雄大學電機工程學系碩士論文. 低功率延遲積之全加器設計 Low Power-Delay-Product Full Adder Design. 研究生：周詠備撰指導教授：陳春僥博士. 中華民國九十八年七月.

(2) 低功率延遲積之全加器設計學生：周詠備. 指導教授：陳春僥博士. 國立高雄大學電機工程學系. 摘要在本論文中，我們使用國家系統晶片中心所提供的 TSMC 0.18-μm 1P6M 混合訊號製程參數作為 HSPICE 模擬的 Library，設計出一個使用三種邏輯元件構成的混合式邏輯全加器電路。本設計不僅將功率延遲乘積這個效能指標列入考量，還使用 MTCMOS 想法去抑制漏電流的產生，使其能有效降低靜態功率消耗。此全加器將 Sum 區塊與 Carry Out 區塊獨立設計，且加入了時脈去控制開關全加器電路。Sum 電路區塊使用 PTL 的邏輯去完成，加入了時脈開關後，解決存在於 PTL 4T-XOR 微弱邏輯“0”訊號的問題。 Carry Out 電路區塊則使用骨牌邏輯架構去完成，具有對輸出節點預充電的效果，這對於漣波進位加法器來說，可以加快運算的速度。從我們的模擬結果可以得到，不管是降低電源電壓或是提升頻率而言，混合式邏輯全加器的功率延遲乘積與靜態功率消耗都是達到最佳的結果。. 關鍵字：全加器、算術電路、低功率延遲積、MTCMOS. I.

(3) Low Power-Delay-Product Full Adder Design Student: Yung-Pei Chou. Advisor: Dr. Chuen-Yau Chen. Department of Electrical Engineering National University of Kaohsiung. ABSTRACT In this thesis, we propose a low power-delay product full adder designed in hybrid logic which combines the concepts of static logic, dynamic logic, and multi-threshold CMOS.. In. this design, the circuit for sum and the circuit for carry out are designed separately for alleviating the loading effect in the interconnections.. The multi-threshold CMOS. technology does reduce the leakage current either in the circuit for sum or the circuit for carry out.. The whole simulations are performed by HSPICE with TSMC 0.18-μm 1P6M process. technology.. The simulation results show that the proposed full adder can achieve a. power-delay product of 0.063 pJ for sum block and 0.021 pJ for carry out block at 400 MHz.. Keywords: full adder, arithmetic circuit, low power-delay-product, MTCMOS. II.

(4) 誌謝光陰似箭，在研究所這兩年的生活中，經由忙碌的課業及研究過程所得到的心得，使我漸漸培養出獨立思考與尋找問題並解決的能力。兩年來，我認識了許多人，也學習到很多新事物，無論是在專業部份的訓練，或是在待人處事上，都的確成熟老練了許多。在研究生涯即將結束之際，我把二年所得到的心血結晶，竭盡所能地寫在這篇論文中。或許這就是我人生中最後一段學生生涯，因此，我以充滿感激的心情，寫下這篇致謝。. 首先，學生非常感謝我的指導教授陳春僥博士。老師亦師亦友的個性使我對研究更加有興趣，更感謝老師開了低功率系統設計這堂課使學生能夠完成這篇論文。在課業與研究上，老師總是能用淺顯易懂的道理讓學生瞭解問題所在，並且訓練學生獨立思考的能力。學生也非常感謝夏世昌教授、洪玉城教授於百忙之中撥冗擔任口試委員，將您們專業的意見提供給學生，使學生的論文更加完整。. 再者，感謝系辦助理薏婷和佳恬，亮嘉、正賢、立武、湘涵、承學、政緯等各位學長、同學，和學弟的鼓勵與支持！祝福諸位未來在學業研究或工作崗位上，都能夠事事順利，各展長才，飛黃騰達。. 最後，謹將這篇論文獻給我最親愛的家人，謝謝父母親提供我舒適的生活環境，使我在人生道路上邁向另一個里程碑。. 周詠備於國立高雄大學 August, 2009. III.

(5) 目錄摘要............................................................................................................................................ I ABSTRACT.............................................................................................................................. II 誌謝..........................................................................................................................................III 目錄..........................................................................................................................................IV 圖目錄.......................................................................................................................................V 表目錄.................................................................................................................................... VII 第一章. 緒論............................................................................................................................1. 1.1. 研究動機...................................................................................................................1. 1.2. 全加器原理...............................................................................................................2. 1.3. 全加器構成的邏輯元件...........................................................................................4. 1.4. 全加器相關文獻探討...............................................................................................5. 第二章. 功率消耗探討與解決..............................................................................................14. 2.1. 動態功耗探討與解決.............................................................................................14. 2.2. 靜態功耗探討與解決.............................................................................................15. 第三章. 混合式邏輯全加器設計..........................................................................................19. 3.1. Sum運算電路 .........................................................................................................19. 3.2 Carry Out運算電路 ................................................................................................25 3.3. n-bit混合式邏輯全加器 .........................................................................................29. 第四章. 相關全加器模擬結果比較......................................................................................34. 4.1. 1-bit全加器比較 .....................................................................................................34. 4.2. 32-bit全加器比較 ...................................................................................................41. 第五章. 結論與未來研究方向..............................................................................................46. 5.1. 結論.........................................................................................................................46. 5.2. 未來研究方向.........................................................................................................47. 參考文獻..................................................................................................................................48. IV.

(6) 圖目錄圖 1.1. 全加器真值表..............................................................................................................3. 圖 1.2. 全加器真值表以XOR/XNOR行為運作圖.................................................................3. 圖 1.3. 各種邏輯元件架構......................................................................................................4. 圖 1.4. 1-bit 靜態CMOS全加器 [5] ......................................................................................9. 圖 1.5. 1-bit 傳輸閘全加器 [15] ...........................................................................................9. 圖 1.6. 1-bit CPL全加器 [4] .................................................................................................10. 圖 1.7. 1-bit 14T全加器 [7]..................................................................................................10. 圖 1.8 1-bit SERF全加器 [8]...............................................................................................11 圖 1.9. 1-bit 混合式全加器 [9] ...........................................................................................11. 圖 1.10. 1-bit CLRCL全加器 [10] .......................................................................................12. 圖 1.11. 1-bit 8T全加器 [11] ................................................................................................12. 圖 1.12. 1-bit 動態CMOS全加器 [14] ................................................................................13. 圖 2.1. 動態CMOS邏輯 ........................................................................................................15. 圖 2.2. 時脈閘控....................................................................................................................15. 圖 2.3. MTCMOS原始架構 ..................................................................................................17. 圖 2.4. MTCMOS改良架構 ..................................................................................................17. 圖 2.5. PMOS不同通道寬度對臨界電壓的曲線圖(channel length = 0.18 μm) .................18. 圖 2.6. NMOS不同通道寬度對臨界電壓的曲線圖(channel length = 0.18 μm) ................18. 圖 3.1 PTL的 4T-XNOR.......................................................................................................19 圖 3.2 PTL的 4T-XOR..........................................................................................................19 圖 3.3. 兩個XNOR之MTCMOS架構的Sum電路 ................................................................21. 圖 3.4. 以CLK開關之XOR MTCMOS電路 .........................................................................21. 圖 3.5. 以CLK開關之Sum的MTCMOS電路 .......................................................................24. 圖 3.6. 混合式邏輯的Sum電路模擬圖.................................................................................24. 圖 3.7. 雙臨界電壓骨牌邏輯電路架構................................................................................26. 圖 3.8. 雙臨界電壓骨牌邏輯電路架構改良........................................................................27. 圖 3.9. 雙臨界電壓骨牌邏輯的Cout電路架構 .....................................................................27. 圖 3.10. 雙臨界電壓骨牌邏輯的Cout電路架構改良 ...........................................................28. 圖 3.11. 雙臨界電壓骨牌邏輯Cout電路模擬結果................................................................28 V.

(7) 圖 3.12. 混合式邏輯全加器實現RCA方塊示意圖 .............................................................29. 圖 3.13. 1-bit 混合式邏輯全加器的長寬比 ........................................................................30. 圖 3.14. 1-bit 混合式邏輯全加器的模擬圖(1) ...................................................................31. 圖 3.15. 1-bit 混合式邏輯全加器的模擬圖(2) ...................................................................31. 圖 3.16. 1-bit 混合式邏輯全加器的模擬圖(3) ...................................................................32. 圖 3.17. 1-bit 混合式邏輯全加器的模擬圖(4) ...................................................................32. 圖 3.18. 1-bit 混合式邏輯全加器最快工作頻率模擬圖(1.43 GHz)..................................33. 圖 4.1. Vdd = 1.8 V時頻率與功率消耗關係曲線圖..............................................................35. 圖 4.2. Vdd = 1.8 V時頻率與Sum Delay關係曲線圖............................................................36. 圖 4.3. Vdd = 1.8 V時頻率與Carry Out Delay關係曲線圖 ...................................................36. 圖 4.4 Sum Block在Vdd = 1.8 V時頻率與PDP關係曲線圖 ................................................37 圖 4.5. Carry Out Block在Vdd = 1.8 V時頻率與PDP關係曲線圖........................................37. 圖 4.6. 頻率為 400 MHz時Vdd與功率消耗關係曲線圖 ......................................................38. 圖 4.7. 頻率為 400 MHz時Vdd與Sum Delay關係曲線圖 ....................................................39. 圖 4.8. 頻率為 400 MHz時Vdd與Carry Out Delay關係曲線圖............................................39. 圖 4.9 Sum Block在頻率為 400 MHz時Vdd與PDP關係曲線圖 .........................................40 圖 4.10. Carry Out Block在頻率為 400 MHz時Vdd與PDP關係曲線圖 ..............................40. 圖 4.11. 1-bit 混合式邏輯全加器Layout圖.........................................................................42. 圖 4.12. LVS驗證通過圖 ......................................................................................................42. 圖 4.13. Post-Layout Simulation (TT)...................................................................................43. 圖 4.14. Post-Layout Simulation (SS) ...................................................................................43. 圖 4.15. Post-Layout Simulation (SF) ...................................................................................44. 圖 4.16. Post-Layout Simulation (FS) ...................................................................................44. 圖 4.17. Post-Layout Simulation (FF) ...................................................................................45. VI.

(8) 表目錄表 3.1. PTL組成的 4T-XNOR/XOR輸入與輸出關係 .........................................................20. 表 3.2. 以CLK開關之XOR電路的輸入與輸出關係............................................................22. 表 3.3. 混合式邏輯的Sum電路待機狀態的輸入與輸出關係.............................................23. 表 3.4. 混合式邏輯的Sum電路運算狀態的輸入與輸出關係.............................................23. 表 4.1. 1-bit全加器PDP與靜態功率比較.............................................................................34. 表 4.2. 32-bit全加器PDP與靜態功率比較...........................................................................41. VII.

(9) 第一章. 緒論. 1.1 研究動機近幾年以來，台灣的積體電路(integrated circuit, IC)技術發展一日千里，不斷進步，IC 的存在與我們的生活息息相關，它造就了許多消費性的電子產品，如手機、數位相機、個人電腦、液晶電視、MP4 隨身聽等，讓我們的生活變得更方便舒適。隨著製程技術進步，在一顆晶片上的電晶體電路密度可能隨之增加。一旦這樣，就會伴隨產生散熱與功率消耗的問題。電子產品中如何有效節省電路所消耗的功率，實為近代電子產品最重要的課題，更因環保意識的抬頭，所以低功率的設計方法變得越來越被重視。. 全加器是算術電路中最基本且基礎的電路之一。無論是加法器、乘法器、除法器等複雜的算術電路，全加器都扮演著核心角色 [1]。在算術電路中，漣波進位加法器(ripple carry adder, RCA)是全加器組成最常見的一種應用 [9]。它的最長路徑 (critical path) 是從最前端的進位輸入 (carry in) 到最末端的進位輸出 (output carry)，所以 RCA 每級全加器的進位輸出訊號產生的速度要快，才不會因延遲的影響而產生假信號故障(glitch)。如果能從最基礎的全加器電路進行低功率高速的實現，複雜的算術電路將可達到低功率高速的效果。. 一般在電路上的功率消耗可分為三種：第一種為動態功率消耗(dynamic power dissipation)，由電晶體在開關過程中電流對負載電容進行充、放電的動作所造成；第二種為靜態功率消耗(static power dissipation)，由電晶體擴散區間和基底之間的逆向偏壓漏電流所造成；第三種則是為短路功率消耗 (short circuit power dissipation)，由 PMOS 與 NMOS 同時導通的瞬間，從電源電壓流向接地的電流所造成的功率消耗。不過在 0.35 μm 製程以前的製程技術，靜態與短路的功率消耗所 1.

(10) 佔整體功率消耗的比例並不高，所以往往不受到重視。但是，有鑒於製程的技術發展越來越先進，電晶體尺寸越來越小，電源電壓也跟著降低，臨界電壓(threshold voltage)也越來越低。降低電源電壓雖然可以達到減少動態功率消耗的效果，但是臨界電壓卻是影響漏電流(leakage current)多寡的因素。所以在先進製程中，一旦電路處於待機模式(standby mode)，漏電流將不容忽視，靜態功率消耗佔整體功率消耗的比例也就越來越高。舉例來說，90 nm 製程的靜態功率佔整體功率消耗比例超過 40%，45 nm 製程更是達到 60%以上 [5]。這些漏電流將會嚴重影響整個電路的功率消耗，所以不容忽略。. 1.2 全加器原理一位元的全加器電路共有三個輸入及兩個輸出。三個輸入通常分別以A、B、 Cin來代表，而兩個輸出則以Sum及Cout表示，其真值表如圖 1.1 所示。如果從行為層次來看全加器真值表的行為，如圖 1.2 所示。從圖 1.2 可以看到只要將A跟B做 XOR/XNOR運算，再將之結果與Cin做XOR/XNOR運算，就能得到Sum的運算結果。至於Cout則先將A跟B分成四個區塊(圖 1.2 的圓圈部分)，再將之表達為XOR或XNOR 函數，就可從圖 1.2 清楚看出，只要 A ⊕ B = 0 或 A : B = 1 時，將A或B其中任一個訊號傳給Cout，而在 A ⊕ B = 1 或 A : B = 0 時，將Cin的訊號傳給Cout，這樣就能透過使用 XOR 或 XNOR 選擇完成 Cout 運算電路。上述的行為模式也能用布林函數 (boolean function)表達如下：. Sum = A ⊕ B ⊕ Cin = A : B : Cin. (1.1). Cout = A( A : B ) + Cin ( A ⊕ B ) = B( A : B ) + Cin ( A ⊕ B ) = AB + Cin ( A ⊕ B). 2. (1.2).

(11) 當然，上述的Sum與Cout函數也能依基本布林運算導出各種不同的式子，所以只要依循此行為模式或布林函數，便能完成一個全加器電路。. 圖 1.1. 圖 1.2. 全加器真值表. 全加器真值表以 XOR/XNOR 行為運作圖. 3.

(12) 1.3 全加器構成的邏輯元件很多種的靜態CMOS邏輯(static CMOS logic)變化都已被用於實現低功率的 1-bit全加器 [1]-[4]，其變化主要目的在於減少使用的電晶體數目或是降低電源電壓，達到減少動態功率消耗的效果，當然，這也是最直接且最有效的方法。不過，卻會造成訊號的延遲時間增多。一般來說，這些論文所使用的設計型態大致分成三類：CMOS logic、PTL (pass-transistor logic)及TG (transmission gate) logic電路。. CMOS logic 的基本電路架構如圖 1.3(a)所示，有很規則的對稱性架構，上面的 PMOS 與下面 NMOS 有相等數量，藉由 PMOS 與 NMOS 對負載電容充放電來表達邏輯“1”或邏輯“0”，有最佳的驅動能力。PTL 的架構就如圖 1.3(b)所示，以一顆 NMOS 表達邏輯函式 F = A ⋅ B ，一顆 PMOS 表達邏輯函式 F = A ⋅ B ，兩者互相搭配也可以組成 PTL 多工器，相較於 CMOS logic，PTL 的優點在於能夠有效減少電晶體的數目，但是缺點在於邏輯“1”訊號通過 NMOS 以及邏輯“0”訊號通過 PMOS，都會受到臨界電壓的影響，而使邏輯“1”與邏輯“0”的訊號變的微弱，這是使用 PTL 的通病。只要製程愈先進，電源電壓降低的比例會高於臨界電壓，只要受臨界電壓影響兩次以上，便會使電壓邏輯準位出錯。傳輸閘(TG)邏輯的架構就如圖 1.3(c)所示，其實也是 PTL 的一種變化而已，其架構就是 PMOS 與 NMOS 平行互接組成，相較於 PTL，其優點在於能夠很完整的傳遞邏輯“1”與邏輯“0”的訊號，但缺點就是電晶體數目會是相同 PTL 的兩倍以上。. 圖 1.3. 各種邏輯元件架構 4.

(13) 1.4 全加器相關文獻探討一般來說，最常見且最常被比較的全加器就是傳統的 28 顆電晶體靜態 CMOS 全加器 [5]，其電路架構如圖 1.4 所示。該全加器是用 CMOS logic 的組合電路實現而成，由 PMOS 與 NMOS 兩種電晶體組成，有很規則的對稱性架構。其優點在於驅動力強，輸出波形的電壓擺幅(voltage swing)能達到完整的邏輯“1”與邏輯“0” 的準位。電晶體通道寬度(channel width)大小可以照一定規則比例下調整，即使在低電壓下也能有可靠的運算，畫起佈局圖(layout)不僅能節省電路的面積，還能減少繞線的數目，但缺點則是電晶體會因對稱性而數目過多，動態功率消耗也會增加。. 1992 年，Zhuang 和 Wu [15]提出了傳輸閘全加器，皆是使用傳輸閘與反相器構成，如圖 1.5 所示，共需 20 顆電晶體，比起傳統 CMOS 全加器，它少了 8 顆電晶體。傳輸閘是由 PMOS 與 NMOS 同時去控制訊號通過與否，因此 PMOS 的閘極與 NMOS 的閘極要接反相訊號。其優點能完整的傳遞邏輯“1”或邏輯“0”，不會受到臨界電壓的影響，輸出訊號也能有全額電壓擺幅(full voltage swing)，而缺點就是比起一般的 PTL 去建構相同邏輯電路，傳輸閘需要用到兩倍以上的電晶體數量，且驅動力不強。. 1997 年，Zimmermann 和 Fichtner [4]提出第一個利用 PTL 將 Sum 運算電路與 Carry Out 運算電路分開運作的全加器，稱為 CPL (complementary pass-transistor logic)全加器，共需 32 顆電晶體，如圖 1.6 所示。不過，對於來源訊號來說，並不存在著相反的來源訊號，所以還是必須加個反相器才能有反相訊號。所以，CPL 電路的電晶體數目實際上應為 38 顆電晶體。與傳統 CMOS 全加器最大的不同，就在於使用來源訊號取代電源電壓跟接地，這是 PTL 的特色。其優點因為兩個輸出電路分開，Sum 與 Carry Out 電路沒有互相延遲的問題，一方面也能減少負載效應， 5.

(14) 所以執行運算的速度會變快，而缺點就在於當邏輯“1”通過 NMOS 會因臨界電壓的關係產生微弱的邏輯“1”輸出，這是所有使用 PTL 的通病。因此，在最末端輸出需要加個反相器去修復(restore)電壓擺幅，增強它的驅動力，再加上使用這麼多顆的電晶體，其動態功率消耗與靜態功率消耗都會很高。. 1999 年，Vesterbacka [7]提出了 14 顆電晶體架構的全加器電路，如圖 1.7 所示。它使用了 6T-XOR/XNOR雙輸出電路再搭配用PTL與傳輸閘組成的XOR閘進行Sum 的運算，再用兩個傳輸閘選擇Cout輸出。可說是用傳輸閘的優點去修補PTL的缺點，使其能有完整的邏輯“1”或邏輯“0”的電壓準位輸出。由於該電路才用了 14 顆電晶體，動態功率消耗當然就不高，是使用PTL與傳輸閘結合而成的全加器中很成功例子，可惜缺點也是驅動力太差。. 2002 年，Bui [8]提出了 10 顆電晶體的全加器電路架構，又稱為SERF(static energy-recovery full adder)全加器，如圖 1.8 所示。它利用兩個 4T-XNOR閘搭配兩顆電晶體組成的PTL多工器結合而成，其優點就是電晶體數目不多，動態功率消耗很低，而缺點就是速度不快，延遲時間長。由於SERF全加器的Cout運算在(A, B, Cin) 輸入為(1, 1, 0)或(1, 1, 1)時，Cout此時的邏輯“1”電壓會受到NMOS臨界電壓的影響，變成“Vdd－2Vtn”。因越先進的製程，電源電壓降低的比例會高於臨界電壓，如果在 0.35 μm製程以前的製程技術，“Vdd－2Vtn”還不至於小於“0.5Vdd”，尚能維持在邏輯“1”的最低電壓準位；但是在 0.18 μm製程，當Cout在(A, B, Cin)輸入為(1, 1, 0) 或(1, 1, 1)時，Cout輸出電路會出現邏輯錯誤，這是因為“Vdd－2Vtn”已經不能維持在邏輯“1”的最低電壓準位。這是SERF全加器的限制所在。. 2005 年，Chang [9]提出了混合式(hybrid)全加器，如圖 1.9 所示。它採用了跟 14T類似的Sum運算電路，與 14T最大的不同，就是它在Carry Out運算電路使用了 6.

(15) 互補式CMOS logic的多工器去完成，所以才命名為混合式全加器。不過，此舉雖然能使Cout輸出驅動力增強，卻使用了不少的電晶體，以致功率消耗會變多，總共使用了 26 顆電晶體，也讓整體電路複雜了許多。. 2007 年，Lin [10]提出了另一種 10 顆電晶體架構的全加器電路，稱為 CLRCL(complementary and level restoring carry logic)全加器，其電路架構如圖 1.10 所示。雖然表面上是只有 10 顆電晶體，不過最初全加器的來源訊號Cin並不會存在與Cin相反的訊號，所以事實上還須加個反相器，總數應為 12 顆才對。不過，若是串成RCA電路，下一級全加器就不需要多一個反相器，其優點也是所使用的電晶體數目不多，Sum與Cout運算電路最差也只會受一次臨界電壓影響，輸出訊號不會都達到全額電壓擺幅，串成如RCA的複雜電路，驅動力不佳，到最後可能會有邏輯錯誤產生。. 2008 年，Veeramachaneni 和 Srinivas [11]提出了 8 顆電晶體的全加器，如圖 1.11 所示。不過，這篇論文所提的全加器有問題，其問題在於所提到的 3T-XOR 閘，當 A＝1，B＝0 時，A♁B 的運算應為邏輯“1”，但是 A 的訊號會比上面 XOR 運算更快到達下面的 NMOS，將之打開，變成接地狀態，所以 A♁B 會為邏輯“0”。除非運算能趕在 A＝1 訊號到達前輸出，否則此 3T-XOR 的函數是錯誤的。不過，就 XOR 運算的延遲來說，這應該是不可能的。. 上述提到關於全加器的文獻都是屬於靜態的電路。1984 年，Friedman 和 Liu [14] 提出了動態邏輯 CMOS 電路(dynamic logic CMOS circuits)。其架構移去了靜態 CMOS 邏輯的 PMOS 部分，只留下 NMOS 部分，並在 NMOS 區塊的上面與下面各接一顆 PMOS 與 NMOS 來控制電路的開關，如圖 1.12 所示。與靜態 CMOS 邏輯的差別在於電路運作需藉由 CLK 正緣觸發才能運算，輸入訊號每有變動就要正 7.

(16) 緣觸發，才能得到正確的運算。其優點就是能在電路不需運作時關掉電源電壓，節省動態功率消耗。. 過去以往文獻所提的全加器電路的差別只在於所用的電晶體數量及使用何種邏輯元件跟邏輯函式變化選擇何種訊號給輸出的不同。三種邏輯元件都各有其優缺點，CMOS 與傳輸閘邏輯優點是輸出能達全額電壓擺幅，驅動力佳，但會因其電晶體數目多而功耗高。PTL 邏輯則是會讓電晶體數目減少許多，功耗雖然不高，但輸出訊號有時不能達到全額電壓擺幅，驅動力差。大部分的全加器電路幾乎都是 CMOS 與 PTL 邏輯這兩大類變化組合而成。顯而易見地，過去有關於全加器的論文都是專注在減少電晶體的數目，來達到減少功率消耗，動態功率消耗是可以靠減少電晶體數目降低，但是靜態功率消耗卻是隨著製程進步不減反增。以往的文獻鮮少將靜態功耗考慮進去。. 有鑑於先進製程靜態功率的問題，本論文所提的混合式邏輯全加器(hybrid logic full adder)不僅有將功率延遲乘積這個效能指標納入考量，更加入了時脈信號 CLK 開關全加器電路，也利用 MT(multiple threshold)CMOS 架構 [12]把往後先進製程的靜態功率節省加入考量範圍。將 Sum 運算電路與 Carry Out 運算電路像 CPL 全加器一樣分開來處理，來達到加快電路運算效果與減少負載效應：Sum 運算電路使用了 PTL 組成的 XOR 閘去完成，且因 Sum 運算電路不需要像 Carry Out 運算電路那樣去推動太多級的電路，使用 PTL 是最適合的；Carry Out 運算電路以雙臨界電壓骨牌邏輯閘(dual threshold voltage domino logic) [13]搭配 CMOS 邏輯去組合而成，且能在輸出節點有預充電(precharge)的技術，沒有上升的延遲時間，這對如 RCA 這類的複雜電路，最長路徑能減少延遲的時間，更快處理完成資料，如此一來，便能組合出低功耗高速的全加器。. 8.

(17) 本論文會在第二章說明功率消耗問題與解決辦法。第三章則會說明混合式邏輯全加器設計理論以及線路工作原理。第四章在TSMC 0.18 μm的製程下，以功率延遲乘積(power delay product, PDP)跟第一章所探討的全加器進行比較。PDP代表者功率消耗與電晶體尺寸大小所造成的電路等待時間的這兩種互相衝突因素的折衷，當然PDP值越高，則代表者電路效能越不好。第五章，是結論與未來研究方向。. 圖 1.4. 圖 1.5. 1-bit 靜態 CMOS 全加器 [5]. 1-bit 傳輸閘全加器 [15] 9.

(18) 圖 1.6. 1-bit CPL 全加器 [4]. 圖 1.7. 1-bit 14T 全加器 [7] 10.

(19) 圖 1.8 1-bit SERF 全加器 [8]. 圖 1.9. 1-bit 混合式全加器 [9] 11.

(20) 圖 1.10. 1-bit CLRCL 全加器 [10]. 圖 1.11. 1-bit 8T 全加器 [11] 12.

(21) 圖 1.12. 1-bit 動態 CMOS 全加器 [14]. 13.

(22) 第二章. 功率消耗探討與解決. 2.1 動態功耗探討與解決從前面以往全加器的文獻來看，解決動態功率消耗的最有效方法，不外乎就是減少所使用的電晶體數目以及降低電源電壓。動態功率消耗是與負載電容CLoad 和開關頻率fsw跟電源電壓Vdd的平方成正比 [5]，可表達如下：. Pdynamic = CLoadVdd 2 f sw. (2.1). 減少電晶體數目可以減少寄生負載電容的大小，而降低電源電壓則是能達到平方倍的降低。因此，動態功率消耗可以從降低電源電壓得到明顯的降低。. Friedman 和 Liu [14]提出的動態邏輯 CMOS 電路架構，其與靜態 CMOS 邏輯最大的不同，就在於它移去了靜態 CMOS 邏輯的 PMOS 邏輯區塊，只留下 NMOS 邏輯區塊，並在 NMOS 邏輯區塊的上面與下面各接一顆 PMOS 與 NMOS 來控制電路的開關，如圖 2.1 所示。該架構可以讓電路在不需運作時關掉電源電壓，來達到動態功率的消耗的節省，只不過該架構每次運算皆必須要 CLK 正緣觸發。此外，還能在這類使用時脈去開關的電路加上時脈閘控(clock gating)的想法，如圖 2.2 所示，對於需要以時脈觸發的電路，在時脈輸入端加入時脈閘控，只有在 CLK 與 Load 訊號同時為邏輯“1”時，GCLK 的輸出訊號會是邏輯“1”，此時電路才能被觸發運作，這些方法都是讓電路在待機模式時關掉不運作的電路，達到節省功率消耗。時脈閘控這個想法，雖然會增加電路的面積，但是卻可以幫助電路節省不少的動態功率消耗。. 14.

(23) 圖 2.1. 動態 CMOS 邏輯. 圖 2.2. 時脈閘控. 2.2 靜態功耗探討與解決在 1.1 節提過，臨界電壓的大小是影響漏電流的關鍵，為了解決先進製程嚴重的漏電流所造成的靜態功率消耗問題，[5][12][13]都有提到MTCMOS這種架構，如圖 2.3 所示。MTCMOS的原始架構與動態CMOS邏輯差不多，差別就在於中間邏輯電路的電晶體臨界電壓改調成低臨界電壓(Low-Vt)，控制開關的PMOS與NMOS分別各改接有高臨界電壓(High-Vt)的電晶體。但是由於PMOS與NMOS在開關過程中，會有一瞬間同時是導通的狀態，所以還是有電流由電源電壓往接地流，就是所謂的短路狀態，還是會有功耗產生。因此，後來改為只接一顆High-Vt的PMOS 控制電源供應，稱為virtual supply rail，如圖 2.4(a)，或只接一顆High-Vt的NMOS 控制接地，稱為virtual ground rail，如圖 2.4(b)。這樣不僅解決控制漏電流產生， 15.

(24) 還解決短路功率消耗的問題。. 然而，在MTCMOS架構中，要如何去調整臨界電壓Vt，而不影響電路速度，是我們研究的課題。如果從積體電路的觀點來看臨界電壓，在 [5]提到會造成臨界電壓大小變化的原因，可由下面公式表示：. Vt = Vt 0 − ηVds + γ ( φ s + Vsb − φ s ). (2.2). Vt0為電晶體零偏置臨界電壓(zero-biased threshold voltage)，ηVds 為汲極引發能障降低效應 (drain induced barrier lowering, DIBL) Effect， γ ( φ s + V sb − φ s ) 為基底效應(body effect)，從(2.2)可知，只要控制Vds或Vsb，就能藉由DIBL effect或body effect 來調低或調高臨界電壓，但是要控制Vds與Vsb則需加入額外的電路。如果從半導體的觀點來看臨界電壓，能對臨界電壓造成影響的並不只上述那些效應，尚有窄通道效應(narrow-channel effect) [6]，其所表達的公式如下：. ΔVT =. eN a xdT ⎛ ξ xdT ⎞ ⎟ ⎜ Cox ⎝ W ⎠. (2.3). 其中參數e是電子電荷，Na是受體參雜濃度，Cox是單位面積氧化物電容，W是通道寬度，ξ是一個將橫向空間電荷寬度列入考量的適合參數，xdT是則是縱向考量的空間電荷寬度。對N通道的MOSFET而言，窄通道效應所造成的臨界電壓的平移 (shift) ΔVT 是往正的方向，所以當通道寬度變小時，臨界電壓的平移會變大。很明顯地，從(2.3)我們可以看出也能藉由調整電晶體的通道寬度來達到調整臨界電壓的效果，圖 2.5 與圖 2.6 是本論文針對不同通道寬度的PMOS與NMOS電晶體以TSMC 0.18 μm的製程，經由HSPICE模擬所得到的臨界電壓與通道寬度的曲線圖。. 16.

(25) 從圖 2.5 與 2.6 中可看出通道寬度對臨界電壓的影響，本論文便是藉此調整臨界電壓，也跟 [6]這本書所畫的圖很類似。值得注意的是，當通道寬度的大小越來越接近通道長度(channel length)的大小，此時 DIBL effect 的影響會大於窄通道效應，所以臨界電壓的大小會大幅下降。這樣一來，調整臨界電壓就顯得方便許多，由於臨界電壓是影響漏電流產生的關鍵之一，亦會影響到電晶體導通的電壓，以致於去影響到動態功率消耗跟電路的速度，所以調整臨界電壓需在功率消耗與速度間取得平衡。. 圖 2.3. MTCMOS 原始架構. 圖 2.4. MTCMOS 改良架構. 17.

(26) 0.510. |Vt| (V). 0.505 0.500 0.495 0.490 0.485 0.25. 0.65. 1.05. 1.45. 1.85. 4. 8. 12. 16. 20. channel width (μm). 圖 2.5. PMOS 不同通道寬度對臨界電壓的曲線圖(channel length = 0.18 μm). 0.55 0.54 0.53 Vt (V). 0.52 0.51 0.50 0.49 0.48 0.47 0.25. 0.65. 1.05. 1.45. 1.85. 4. 8. 12. 16. 20. channel width (μm). 圖 2.6. NMOS不同通道寬度對臨界電壓的曲線圖(channel length = 0.18 μm). 18.

(27) 第三章. 混合式邏輯全加器設計. 3.1 Sum 運算電路在 1.4 節提過，Bui [8]所提出的SERF全加器，Sum的運算電路是以兩個PTL的 4T-XNOR組成，再分別用PMOS與NMOS組成的PTL多工器選擇控制開關Cout的輸出，其運作原理就如圖 1.2 所表達一樣。Sum的運算電路也可以改成兩個PTL的 4T-XOR組成，4T-XNOR與 4T-XOR的電路就如圖 3.1 與 3.2 所示。. 圖 3.1 PTL 的 4T-XNOR. 圖 3.2 PTL 的 4T-XOR. 19.

(28) 如果將輸入來源訊號的完整邏輯“1”表示為Vdd，完整邏輯“0”表示為Gnd，將四種來源訊號給PTL組成的 4T-XNOR與 4T-XOR，經由暫態直流分析，可得到表 3.1。從表 3.1 可以清楚看出 4T-XNOR只有在輸入訊號(A, B)=(1, 1)時，它的輸出電壓準位會是微弱的邏輯“1”，即“Vdd－Vtn”，而 4T-XOR只有在輸入訊號(A, B)=(0, 0)時，它的輸出電壓準位會是微弱的邏輯“0”，即“|Vtp|”。PTL的 4T-XNOR與 4T-XOR 都各有其優缺點，相較於CMOS logic組成的XNOR或XOR，PTL組成的XNOR與 XOR節省了不少的電晶體，只是在某些輸入訊號時輸出訊號會不完整，不過對電路設計者來說，這是值得的。. 有趣的是，SERF全加器的Sum運算電路訊號不需等待Cout的運算訊號就能獨立運算輸出，所以就可以利用兩個PTL的XOR閘或XNOR閘組成的Sum運算電路。但是對於這兩種PTL的XNOR與XOR架構來說，如果加入時脈去控制開關電路且與 MTCMOS想法結合，PTL的 4T-XNOR並不適合用於加了時脈的電路，如圖 3.3 所示，除了因為加入時脈之後沒有適當的放電路徑，還因為對於 0.18 μm製程的PMOS 與NMOS而言，NMOS會有較高的臨界電壓，其微弱的邏輯“1”訊號的輸出特性，很容易使電路發生邏輯電壓準位錯誤。. 表 3.1. PTL 組成的 4T-XNOR/XOR 輸入與輸出關係. Input Signals. Output Signal. A. B. 4T-XOR. 4T-XNOR. 0 (Gnd). 0 (Gnd). Weak 0 (|Vtp|). 1 (Vdd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 0 (Gnd). Weak 1 (Vdd－Vtn). 20.

(29) 圖 3.3. 兩個 XNOR 之 MTCMOS 架構的 Sum 電路. 相較於XNOR之MTCMOS架構的Sum電路，雖然PTL的XOR有其微弱的邏輯 “0”訊號的輸出特性，但是相較於 0.18 μm製程的NMOS，PMOS還是有較低的臨界電壓，所以改用XOR去實現就好多了。如圖 3.4 所示，是將PTL組成的XOR改成有能用CLK開關的電路。將 4T-XOR原本的電晶體全都改用Low-Vt，使其能有快速pull up或pull down的特性，且加入一顆有High-Vt 的NMOS來控制放電路徑，一顆有 High-Vt的PMOS在待機模式抑制A與B訊號相異時產生的短路電流，再將CLK分成兩種狀態，可得到表 3.2。. 圖 3.4. 以 CLK 開關之 XOR MTCMOS 電路. 21.

(30) 從表 3.2 可以看出，CLK=1 時為待機模式，OUT 會是接地狀態，當 CLK 由邏輯“1”變成邏輯“0”時，就是進入了運算狀態，且加入了 CLK 這個開關，會使得 PTL 4T-XOR 原本微弱的邏輯“0”訊號的輸出特性不見了，還能用 CLK 去控制開關 XOR 電路。因此，混合式邏輯全加器的 Sum 運算電路只需要兩個 CLK 開關之 XOR 電路就能完成，其架構就如圖 3.5 所示。表 3.3 是針對圖 3.5 在待機模式時的輸入與輸出關係，而表 3.4 則是針對圖 3.5 在運算模式時的輸入與輸出關係，經由 HSPICE 模擬來印證表 3.3 與表 3.4 推論，可得到圖 3.6。從模擬圖可以很清楚看出與表 3.3、表 3.4 是完全相符的，所以本論文的混合式邏輯 Sum 運算電路就是使用 PTL 的方式完成，而對於驅動力不強的 PTL，拿來組成 Sum 電路是適合的選擇。. 表 3.2. 以 CLK 開關之 XOR 電路的輸入與輸出關係 Input Signals. Output Signal. CLK. A. B. OUT. 1 (Vdd). 0 (Gnd). 0 (Gnd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 1 (Vdd)→0 (Gnd). 0 (Gnd). 0 (Gnd). 0 (Gnd). 1 (Vdd)→0 (Gnd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 1 (Vdd)→0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 1 (Vdd)→0 (Gnd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 22.

(31) 表 3.3. 混合式邏輯的 Sum 電路待機狀態的輸入與輸出關係 Input Signals. Output Signal. CLK. A. B. Cin. Sum. 1 (Vdd). 0 (Gnd). 0 (Gnd). 0 (Gnd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 0 (Gnd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 表 3.4. 混合式邏輯的 Sum 電路運算狀態的輸入與輸出關係 Input Signals. Output Signal. CLK. A. B. Cin. Sum. 1 (Vdd)→0 (Gnd). 0 (Gnd). 0 (Gnd). 0 (Gnd). 0 (Gnd). 1 (Vdd)→0 (Gnd). 0 (Gnd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 1 (Vdd)→0 (Gnd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 1 (Vdd)→0 (Gnd). 0 (Gnd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 1 (Vdd)→0 (Gnd). 1 (Vdd). 0 (Gnd). 0 (Gnd). 1 (Vdd). 1 (Vdd)→0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd). 0 (Gnd). 1 (Vdd)→0 (Gnd). 1 (Vdd). 1 (Vdd). 0 (Gnd). 0 (Gnd). 1 (Vdd)→0 (Gnd). 1 (Vdd). 1 (Vdd). 1 (Vdd). 1 (Vdd). 23.

(32) 圖 3.5. 以 CLK 開關之 Sum 的 MTCMOS 電路. 圖 3.6. 混合式邏輯的 Sum 電路模擬圖. 24.

(33) 3.2. Carry Out 運算電路在 3.1 節已經將具有時脈開關的Sum運算電路設計完成了，接下來要將探討實. 現具有時脈開關的Carry Out運算電路。在 [13]提出了一種雙臨界電壓骨牌邏輯電路架構，就如圖 3.7 所示。P1 與P2 都是High-Vt 的PMOS，I1 與I3 是Low-Vt PMOS 的反相器，有快速pull up的能力，而I2 則是Low-Vt NMOS的反相器，有快速pull down 的能力，這個電路架構有三種模式，分別是運算模式(evaluate mode)、預充電模式 (precharge mode)及待機模式(standby mode)。當CLKn從邏輯“0”變成邏輯“1”的過程中，中間節點N1 就會預充電，稱為預充電模式，等到CLKn為邏輯“1”時，電路就進入運算狀態，且只要把CLKn經過I2、I3 的延遲與下面的NMOS運算區塊及I1 的延遲取得平衡，即CLKn+1訊號只比下面NMOS區塊的運算提早一些到達下一級骨牌邏輯電路架構進行預充電，這樣就能有管線化(pipeline)想法的實現。但是為了不讓電路在待機時有漏電流的產生，此時必須將電路下面所有Low-Vt NMOS的輸入令為邏輯“1”，使中間節點固定為邏輯“0”，再加上位於節點上面的High-Vt PMOS裝置會強力鎖住電源電壓，這樣就能減少漏電流的存在。. 不過，為了符合Sum運算電路的運作狀態，就必須對雙臨界電壓骨牌邏輯改變。對於全加器的Carry Out運算電路來說，如果能在待機時先對輸出節點預充電，這樣就能節省上升時間(rising time)，加快運算速度。舉例來說，RCA電路最長路徑是從Cin到最後一級全加器的Cout，預充電能使得Cout訊號沒有上升時間，這樣就能加快電路運算速度。所以，為了將雙臨界電壓骨牌邏輯電路架構拿來實現本論文的Carry Out運算電路，本論文將之改成將所有輸入訊號與CLK訊號進行OR運算，輸入訊號不須經由Latch，只有兩種模式，分別為運算模式與待機模式，在待機時就先對輸出節點Cout預充電，這樣一樣有 [13]提的雙臨界電壓骨牌邏輯電路架構低漏電流的優點，就如圖 3.8 所示。. 25.

(34) 從 1.4 節可以看到傳統 28T的CMOS全加器，其Cout的運算並不需要等待Sum的運算結果就能自行運算輸出，所以就能將 28T的CMOS全加器中Cout 的運算部分 NMOS拿來加入雙臨界電壓骨牌邏輯完成Carry Out運算電路，就如圖 3.9 所示。當然，為了不讓漏電流存在，所有輸入訊號與CLK訊號做OR運算是不可或缺的，所以，本論文使用CMOS組成的OR閘去進行OR運算，因NOR有四分之三的機率輸出是邏輯“0”，所以只要在NOR閘輸出端加入一個Low-Vt PMOS的反相器，使邏輯“0” 比較容易通過反相器變為邏輯“1”，如圖 3.10 所示。圖 3.11 是經由HSPICE模擬所得的結果。由圖 3.11 可以看出，當CLK為邏輯“0”時，電路是處於運算的狀態，Cout 的輸出結果正確，當CLK為邏輯“1”時，電路是處於待機狀態，所有NMOS都接地， Cout的輸出會預充電，輸出結果會為邏輯“1”。這便是本論文混合式邏輯全加器的 Carry Out運算電路，其CLK開關的狀態也與 3.1 節的Sum運算電路相符。. 圖 3.7. 雙臨界電壓骨牌邏輯電路架構. 26.

(35) 圖 3.8. 雙臨界電壓骨牌邏輯電路架構改良. 圖 3.9. 雙臨界電壓骨牌邏輯的Cout電路架構. 27.

(36) 圖 3.10. 圖 3.11. 雙臨界電壓骨牌邏輯的Cout電路架構改良. 雙臨界電壓骨牌邏輯Cout電路模擬結果. 28.

(37) 3.3 n-bit 混合式邏輯全加器從 3.1 節與 3.2 節可以看出，Sum運算電路是使用PTL想法完成，而Carry Out 運算電路使用了CMOS邏輯加入骨牌邏輯想法完成。對於RCA電路來說，Sum的運算輸出不需要推動下級電路，使用驅動力不佳的PTL是最適合的，而Cout運算必須要去推動下級電路，使用驅動力佳的CMOS邏輯也是最適合的。此全加器又包含靜態與動態的邏輯架構想法，因此將之命名為混合式邏輯全加器。如果要串成n-bit 的RCA電路，其電路架構方塊示意圖就如圖 3.12 所示，對於下一級全加器都能節省一個OR閘的運算。. 在 2.2 節中提到的窄通道效應是本論文要用來使來調整臨界電壓大小的依據，利用這個效應調整臨界電壓來控制減少漏電流。圖 3.13 是根據窄通道效應的通道寬度與臨界電壓關係曲線圖去調整，其通道寬度就如圖上所示。. 圖 3.14 至圖 3.17 是 1-bit混合式邏輯全加器在多種不同輸入訊號下的HSPICE 模擬圖，從這些圖可以很清楚看到當CLK為邏輯“1”時，整個電路是處於待機狀態， Sum的電路輸出為邏輯“0”，Cout的電路輸出會恆維持在邏輯“1”，當CLK從邏輯“1” 變成邏輯“0”時，整個電路是處於運算狀態，可以得到正確運算的值，其最快工作頻率可達到 1.43 GHz，如圖 3.18 所示。. 圖 3.12. 混合式邏輯全加器實現 RCA 方塊示意圖 29.

(38) 圖 3.13. 1-bit 混合式邏輯全加器的長寬比. 30.

(39) 圖 3.14. 1-bit 混合式邏輯全加器的模擬圖(1). 圖 3.15. 1-bit 混合式邏輯全加器的模擬圖(2). 31.

(40) 圖 3.16. 1-bit 混合式邏輯全加器的模擬圖(3). 圖 3.17. 1-bit 混合式邏輯全加器的模擬圖(4). 32.

(41) 圖 3.18. 1-bit 混合式邏輯全加器最快工作頻率模擬圖(1.43 GHz). 33.

(42) 第四章. 相關全加器模擬結果比較. 4.1 1-bit 全加器比較本節將以本設計和 1.4 節中以往文獻所提出的全加器比較功率延遲乘積與靜態功率消耗。不過，對於訊號輸出沒有達到全額電壓擺幅的全加器，則不列入比較的範圍。本論文以TSMC 0.18 μm為作為HSPICE模擬的Library，電源電壓Vdd為 1.8 V，將功率延遲乘積比較的時脈頻率定在 400 MHz，經由HSPICE模擬可得到表 4.1。從表 4.1 可以清楚看出，混合式邏輯全加器在PDP與靜態功率消耗部分的表現都是最佳的。. 表 4.1. 1-bit 全加器 PDP 與靜態功率比較. Sum Delay (ns). Cout Delay (ns). Total Power (mW). Sum PDP (pJ). Cout PDP (pJ). Leakage Current (pA). Static Power (pW). CMOS [5]. 0.598. 0.460. 0.167. 0.099. 0.076. 206.51. 371.71. TG [15]. 0.614. 0.358. 0.231. 0.141. 0.082. 317.53. 571.55. CPL [4]. 0.582. 0.592. 0.420. 0.244. 0.248. 572.78. 1031. 14T [7]. 0.658. 0.479. 0.202. 0.132. 0.096. 190.80. 343.44. SERF [8]. N.A.. N.A.. N.A.. N.A.. N.A.. N.A.. N.A.. Hybrid [9]. 0.448. 0.478. 0.280. 0.125. 0.133. 285.62. 514.12. CLRCL [10]. N.A.. N.A.. N.A.. N.A.. N.A.. N.A.. N.A.. Dynamic Logic [14]. 0.473. 0.457. 0.141. 0.067. 0.064. 153.09. 275.57. This work. 0.527. 0.174. 0.120. 0.063. 0.021. 135.28. 243.51. N.A. : No full voltage swing. 34.

(43) 本論文將Vdd固定為 1.8 V，再分別去對頻率 200 MHz、250 MHz、333 MHz、 400 MHz、500 MHz做功率消耗、Sum Delay、Carry Out Delay的模擬，並將之整理成關係曲線圖，就如圖 4.1 至 4.3 所示。從圖 4.1 可以看出混合式邏輯全加器雖然在 200 MHz時功率略高，不過隨者頻率升高，功率卻很穩定升高。從圖 4.2 可以看出混合式邏輯全加器在Sum Delay雖然不是最佳，不過還是有很好的表現。從圖 4.3 可以看出混合式邏輯全加器因為其Cout輸出節點能預充電，所以節省了上升延遲時間，是所有全加器表現最佳的。最後再將這些關係曲線圖整理做PDP的比較，可得到圖 4.4 與 4.5。從這兩張圖來看，混合式邏輯全加器不管是在Sum或Carry Out的 PDP比較，都是最佳的。. Power Consumption (mW). 0.6 0.5. CMOS [5] TG [5] CPL [4] 14T [7] Hybrid [9] Dynamic Logic [14] Hybrid Logic. 0.4 0.3 0.2 0.1 0.0 200. 250. 333. 400. 500. Frequency (MHz). 圖 4.1. Vdd = 1.8 V時頻率與功率消耗關係曲線圖. 35.

(44) 0.8 0.7 CMOS [5] TG [5] CPL [4] 14T [7] Hybrid [9] Dynamic Logic [14] Hybrid Logic. Sum Delay (ns). 0.6 0.5 0.4 0.3 0.2 0.1 0.0 200. 250. 333. 400. 500. Frequency (MHz). 圖 4.2. Vdd = 1.8 V時頻率與Sum Delay關係曲線圖. 0.7. Carry Out Delay (ns). 0.6 CMOS [5] TG [5] CPL [4] 14T [7] Hybrid [9] Dynamic Logic [14] Hybrid Logic. 0.5 0.4 0.3 0.2 0.1 0.0 200. 250. 333. 400. 500. Frequency (MHz). 圖 4.3. Vdd = 1.8 V時頻率與Carry Out Delay關係曲線圖. 36.

(45) 0.35. Sum Block PDP (pJ). 0.30 CMOS [5] TG [5] CPL [4] 14T [7] Hybrid [9] Dynamic Logic [14] Hybrid Logic. 0.25 0.20 0.15 0.10 0.05 0.00 200. 250. 333. 400. 500. Frequency (MHz). 圖 4.4 Sum Block在Vdd = 1.8 V時頻率與PDP關係曲線圖. 0.35 Carry Out Block PDP (pJ). 0.30 CMOS [5] TG [5] CPL [4] 14T [7] Hybrid [9] Dynamic Logic [14] Hybrid Logic. 0.25 0.20 0.15 0.10 0.05 0.00 200. 250. 333. 400. 500. Frequency (MHz). 圖 4.5. Carry Out Block在Vdd = 1.8 V時頻率與PDP關係曲線圖. 37.

(46) 本論文又將頻率固定在 400 MHz，再分別去對Vdd為 1.8 V、1.6 V、1.4 V、1.2 V、1 V做功率消耗、Sum Delay、Carry Out Delay的模擬，並將之整理成關係曲線圖，要注意的是，其中 14T全加器的降壓限制在 1.4 V，在 1.4 V以下輸出便會有錯誤產生，關係曲線圖就如圖 4.6 至 4.8 所示。從圖 4.6 可以看出混合式邏輯全加器在降壓過程中，功率消耗降低的表現是最佳的。從圖 4.7 可以看出混合式邏輯全加器在降壓過程中，Sum電路的延遲時間的表現是不佳的。從圖 4.8 可以看出混合式邏輯全加器在降壓過程中因為Cout輸出節點預充電的效果，還是所有全加器表現最佳的。最後再將這些關係曲線圖整理做PDP的比較，可得到圖 4.9 與 4.10，從這兩張圖來看，混合式邏輯全加器不管是在Sum或Carry Out的PDP比較，依然還是最佳的。. 0.5 Power Consumption (mW). 0.4 CMOS [5] TG [5] CPL [4] 14T [7] Hybrid [9] Dynamic Logic [14] Hybrid Logic. 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 1.8. 1.6. 1.4. 1.2. 1. Vdd (V). 圖 4.6. 頻率為 400 MHz時Vdd與功率消耗關係曲線圖. 38.

(47) 1.4. Sum Delay (ns). 1.2 CMOS [5] TG [5] CPL [4] 14T [7] Hybrid [9] Dynamic Logic [14] Hybrid Logic. 1.0 0.8 0.6 0.4 0.2 0.0 1.8. 1.6. 1.4. 1.2. 1. Vdd (V). 圖 4.7. 頻率為 400 MHz時Vdd與Sum Delay關係曲線圖. 1.2. Carry Out Delay (ns). 1.0. CMOS [5] TG [5] CPL [4] 14T [7] Hybrid [9] Dynamic Logic [14] Hybrid Logic. 0.8 0.6 0.4 0.2 0.0 1.8. 1.6. 1.4. 1.2. 1. Vdd (V). 圖 4.8. 頻率為 400 MHz時Vdd與Carry Out Delay關係曲線圖. 39.

(48) 0.25. Sum Block PDP (pJ). 0.20. CMOS [5] TG [5] CPL [4] 14T [7] Hybrid [9] Dynamic Logic [14] Hybrid Logic. 0.15 0.10 0.05 0.00 1.8. 1.6. 1.4. 1.2. 1. Vdd (V). 圖 4.9 Sum Block在頻率為 400 MHz時Vdd與PDP關係曲線圖. Carry Out Block PDP (pJ). 0.25 0.20. CMOS[5] TG[5] CPL[4] 14T[7] Hybrid[9] Dynamic Logic [14] Hybrid Logic. 0.15 0.10 0.05 0.00 1.8. 1.6. 1.4. 1.2. 1. Vdd (V). 圖 4.10. Carry Out Block在頻率為 400 MHz時Vdd與PDP關係曲線圖. 40.

(49) 4.2. 32-bit 全加器比較本論文也將混合式邏輯全加器與以往文獻所提出的全加器串成 RCA，再分別. 拿來比較功率延遲乘積與靜態功率消耗。不過 PTL 與傳輸閘組成的全加器，因其驅動力太差，無法推動太多級全加器，輸出波形會失真，所以不列入比較。本論文以 TSMC 0.18μm 為作為模擬的 Library，將頻率定在 200 MHz，經由 HSPICE 模擬可得到表 4.2。從表 4.2 可以清楚看出，混合式邏輯全加器因預充電的關係使得功率消耗是最大，不過卻換取延遲時間最少，PDP 與靜態功率消耗是所有全加器裡面最佳的。. 表 4.2. 32-bit 全加器 PDP 與靜態功率比較. Delay (ns). Total Power (mW). PDP (pJ). Leakage Current (nA). Static Power (nW). CMOS [5]. 4.86. 3.7. 17.98. 6.66. 11.98. TG [15]. N.A.. N.A.. N.A.. N.A.. N.A.. CPL [4]. 5.064. 6.96. 35.25. 19.07. 34.33. 14T [7]. N.A.. N.A.. N.A.. N.A.. N.A.. SERF [8]. N.A.. N.A.. N.A.. N.A.. N.A.. Hybrid [9]. 5.69. 3.21. 18.26. 12.97. 23.35. CLRCL [10]. N.A.. N.A.. N.A.. N.A.. N.A.. Dynamic Logic [14]. N.A.. N.A.. N.A.. N.A.. N.A.. This work. 1.94. 4.81. 9.33. 4.97. 8.95. N.A. : The output voltage waveform has been distorted.. 41.

(50) 4.3 Layout 與 Post-Layout Simulation 1-bit 混合式邏輯全加器的 layout 圖，就如圖 4.11 所示。圖 4.12 是 layout 通過 LVS (layout versus schematic) 的驗證圖，圖 4.13 至 4.17 則是對電路進行 PEX(parasitic extraction)後進行各種製程漂移的 post-layout simulation 的模擬圖。. 圖 4.11. 1-bit 混合式邏輯全加器 Layout 圖. 圖 4.12. LVS 驗證通過圖. 42.

(51) 圖 4.13. Post-Layout Simulation (TT). 圖 4.14. Post-Layout Simulation (SS). 43.

(52) 圖 4.15. Post-Layout Simulation (SF). 圖 4.16. Post-Layout Simulation (FS). 44.

(53) 圖 4.17. Post-Layout Simulation (FF). 45.

(54) 第五章. 結論與未來研究方向. 5.1 結論本論文對全加器的實現，是使用 Sum 與 Carry Out 電路各自分開的方法達到減少負載效應來增加運算的效果，且加入了時脈去控制開關全加器電路，使其全加器電路可以在不用的時候關掉電路，節省動態功率消耗，也加入了雙臨界電壓的想法，使其能有效降低漏電流產生，節省靜態功率消耗。. Sum 運算電路使用 PTL 的方式完成，加入了時脈開關解決 PTL 4T-XOR 的缺點，而 Carry Out 運算電路雖然在待機時會在輸出節點預充電，會造成動態功率增加。不過，換來的是高速的 Carry Out 運算，更有足夠的驅動能力去推動下一級電路，這對於 RCA 電路來說，可以加快運算的速度。從第四章的模擬比較來看，混合式邏輯全加器在效能上有最佳的表現，對於本論文介紹以往文獻的全加器來說，除了 CPL 全加器之外，大多數的全加器皆沒有像本論文一樣，可以把整個全加器電路分成 Sum 與 Carry Out 兩個部份的電路來運作，獨立運作可以減少負載，增加運算速度。. 過去論文的比較完全不考慮靜態功耗問題，不過對於往後先進製程來說，靜態功率消耗就已經是不容被忽略。混合式邏輯全加器電路皆有從考慮靜態功率消耗的觀點下去實現，所以採用了雙臨界電壓的想法，從第四章的表 4.1 與表 4.2 可以得知，這的確能有效的節省靜態功率的消耗。使用 TSMC 0.18μm 製程模擬，其實在靜態功率消耗這部份差距或許不是很明顯，但是如果在 0.18μm 製程以後的先進製程技術，靜態功率消耗部份的功率節省降低會更為顯著。. 46.

(55) 5.2 未來研究方向本論文所提的混合式邏輯全加器，如果串成多位元RCA電路，再利用如 [13] 一樣可以使時脈延遲時間與Cout 骨牌邏輯電路運算的延遲時間取得一個平衡的話，在時脈運算訊號未到達前能不啟用電路，只先預充電，就能有管線化的實現，或許能更進一步節省動態功率消耗，這也是未來不錯研究的想法。. 製程只會越來越先進，通道長度也會越來越小，臨界電壓會越來越低，漏電流也因此增多，所以設計電路是必須要考量靜態功率消耗的問題，MTCMOS 的想法會在往後未來的電路架構上扮演重要的角色，譬如 Synopsys 提出了的 UPF(unified power format)設計流程，以及 Cadence 提出的 CPF(common power format)，都有涵蓋雙臨界電壓的想法在裡面，也有多種不同的供應電源的電路，名為 power switch，都是在替這種多重電壓技術研發新的自動 EDA 工具，讓使用者設計更為方便自動化。. 47.

(56) 參考文獻 [1] A. Shams, T. Darwish, and M. Bayoumi, “Performance analysis of low power 1-bit CMOS full adder cells,” IEEE Trans. Very Large Scale Integr. (VLSI) Syst., vol. 10, no. 1, pp. 20–29, Feb. 2002. [2] D. Radhakrishnan, “Low-voltage low-power CMOS full adder,” IEE Proc. Circuits, Devices and Systems, vol. 148, no. 1, pp. 19–24, Feb. 2001. [3] A. Shams and M. Bayoumi, “Performance evaluation of 1-bit CMOS adder cells,” in Proc. IEEE Int. Symp. Circuit and Systems, Orlando, FL, May 30-June 2, 1999, pp. 27–30. [4] R. Zimmermann and W. Fichtner, “Low-power logic styles: CMOS versus pass-transistor logic,” IEEE J. Solid-State Circuits, vol. 32, no. 7, pp. 1079–1090, July 1997. [5] N. H. E. Weste and D. Harris, CMOS VLSI Design. Reading, MA: Addison-Wesley, 2005. [6] D. A. Neamen, Semiconductor Physics & Devices. Reading, MA: McGraw-Hill, 2003. [7] M. Vesterbacka, “A 14-transistor CMOS full adder with full voltage-swing nodes,” in Proc. IEEE Workshop Signal Processing Systems, Taipei, Taiwan, Oct. 20-22, 1999, pp. 713–722. [8] H. T. Bui, Y. Wang, and Y. Jiang, “Design and analysis of low-power 10-transistor full adders using novel XOR-XNOR gates,” IEEE Trans. Circuits Syst. II, Analog Digit. Signal Process, vol. 49, no. 1, pp. 25–30, Jan. 2002. [9] C. H. Chang, J. Gu, and M. Zhang, “A review of 0.18-μm full adder performances for tree structured arithmetic circuits,” IEEE Trans. Very Large Scale Integr. (VLSI) Syst., vol. 13, no. 6, pp. 686-695, June 2005. 48.

(57) [10] J. F. Lin, M. H. Sheu, and C. C. Ho, “A novel high-speed and energy efficient 10-transistor full adder design,” IEEE Trans. Circuits and Systems-I: Regular Papers, vol. 54, no. 5, pp. 1050-1059, May 2007. [11] S. Veeramachaneni and M. B. Srinivas, “New improved 1-bit full adder cells,” in Proc. Canadian Conference Electrical and Computer Engineering (CCECE), Niagara Falls, Canada, May 4-7, 2008, pp. 735-738. [12] S. Mouth, S. Shigematsu, Y. Gotoh, and S. Konaka, “Design method of MTCMOS power switch for low-voltage high-speed LSIs,” in Proc. Asia and South Pacific Design Automation Conference (ASP-DAC), Wanchai, Hong Kong, Jan. 18-21, 1999, pp. 113-116. [13] J. T. Kao and A. P. Chandrakasan, “Dual-threshold voltage techniques for low-power digital circuits,” IEEE J. Solid-State Circuits, vol. 35, no 7, pp. 1009-1018, July 2000. [14] V. Friedman and S. Liu, “Dynamic logic CMOS circuits,” IEEE J. Solid-State Circuits, vol. SC-19, no. 2, pp. 263-266, Apr. 1984. [15] N. Zhuang and H. Wu, “A new design of the CMOS full adder,” IEEE J. Solid-State Circuits, vol. 27, pp. 840–844, May 1992.. 49.

(58)