低功率及高速度十顆電晶體之全加器的設計
Design of Low-Power and High Speed Ten-Transistor Full Adders
謝韶徽(Shao-Hui Shieh)、張庭瑋(Tin-Wei Chang)
*、游信強(Hsin-Chiang You)
國立勤益科技大學 電子工程系
{ssh, hcyou}@ncut.edu.tw,
*[email protected]
摘要
全加器(Full Adder)在計算機算術電路設計上 是非常重要的基本結構,全加器經常被運用到高性 能 算 術 單 元 設 計 中 , 如 中 央 處 理 器 (Central Processing Unit, CPU) 裡 面 的 算 術 邏 輯 單 元 (Arithmetic Logic Unit, ALU)以及各式高性能的信 號處理應用系統上。能夠降低加法器的功率消耗或 是改善加法器的延遲時間,便能提昇整體電路的效 能 與 功 耗 。 目 前 全 加 器 之 設 計 以 十 顆 電 晶 體 (Ten-Transistor, 10-T)所構成之電路架構最為精簡, 本篇論文運用新穎的互斥或閘(Exclusive OR, XOR) 和互斥反或閘(Exclusive NOR, XNOR)為基礎,以 系統化的模組設計方法提出一系列共 42 種新的十 顆電晶體全加器設計。基於 TSMC 0.35 um 2P4M 製 程技術進行設計與實驗,經由實驗結果證明,42 種 新的十顆電晶體全加器設計中,FA-24 是這幾種架 構中延遲時間(Td)性能最佳者,其 Td 為 0.0145nS; 其中 FA-40 之平均功率消耗最佳,其值為 8.34uW; 而 FA-12 的功率延遲乘積最優異,其功率延遲乘積 為 2.40 uW×nS。同時,我們應用新的 10-T 全加器 設計 4-Bit 漣波進位加法器晶片,並將成果送交國 家晶片設計中心(CIC)製作成矽晶片以為實體驗證。 關鍵詞: 全加器、XOR-XNOR、功率消耗、延遲時 間1. 前言
全加器(Full Adder, FA)是加法器(Adder)、乘法 器(Multiplier)、微處理器(Microprocessor)與數位信 號處理器(Digital Processing Unit, DPU)…等高性能 算術運算積體電路(Integrated Circuit, IC)設計的最 重要基本建構基石,所以提升全加器的電路性能即 可大幅改善算術運算電路的整體效能。近年來由於 使用可攜式消費性電子產品的流行及需求增加,所 以對於高運算速度及低功率技術積體電路設計顯 得更加重要。另外,在電路的特性方面,若全加器 電路無輸出驅動能力,在串接多級後會因為負載太 大無法正常運作,而具有輸出驅動能力之加法器電 路則可以串接多級做多位元的正確運算。如果全加 器電路所有節點都具有全擺幅的電壓準位,則適合 於低電壓操作的電路系統。但是具備輸出驅動能力 及全擺幅節點電壓的全加器電路將具有較多的電 晶體數、消耗更多的功率及降低電路的運算速度。 所以設計具有輸出驅動能力及全擺幅電壓之高運 算速度、低功率消耗、低電晶體數的全加器核心電 路是目前研究的重點之ㄧ。 在本篇論文中,運用新穎的互斥或閘(Exclusive OR, XOR)和互斥反或閘(Exclusive NOR, XNOR)為 基礎,以系統化的模組設計方法架構出一系列共 42 種新的十顆電晶體全加器設計,為目前全加器最為 精簡之電路設計架構[1-11]。
2. 全加器設計原理與電路架構
全加器的布林代數式可表示成如下(1)-(3)式:CIN
B
A
SUM
=
⊕
⊕
(1)A
SUM
=
☉B
☉CIN
(2)A
COUT
=
(
A
☉B
)
+
CIN
(
A
⊕
B
)
(3) 在文獻[4]中,已提出式(1)-(3)來表示全加器的 布林代數式,其中 COUT 的布林代數是以式(3)表 示,以 A 接 XNOR 與 CIN 接 XOR 而成;而在本篇 論文中,COUT 的布林代數表示則是將原本式(3) 的 A 接點改成 B 接點,並且以 B 接 XNOR 與 CIN 接 XOR 而成,整個 COUT 的布林代數表示式如下 (4)所示:
B
COUT
=
( ☉ )
A
B
+
CIN
(
A
⊕
B
)
(4) 2.1 新穎的 XOR 與 XNOR 閘 2.1.1 SER-XOR/XNOR
在文獻[3-4]提出 SER (Static Energy-Recover) XOR/XNOR 所組成的全加器,此電路具有利用能 量回收再利用的方式,成功的來減少功率消耗;在 文獻[4-5]中,將其設計發表之 10-T 全加器取名為 SERF,其中 SER-XOR/XNOR 之架構如圖 1 所示。
2.1.2 INV-XOR/XNOR
INV-XOR/XNOR 因其電路架構中,可以明顯 看出有反相器(Inverter, INV)的存在,所以又稱其架 構為 Inverter-Based XOR/XNOR;圖 2(a) 是 INV- XOR 的電路,而圖 2(b)是 INV-XNOR,其整體電路 架構如圖 2 所示。 圖 2. INV-XOR/XNOR 2.1.3 P-XOR / G-XNOR P-XOR 的架構中,電晶體並無連接到電源 VDD 端,故稱其為未接電源 Powerless (P);而 G-XNOR 電路架構中,電晶體並沒連接到地端 GND,故稱其 為未接地 Groundless (G),在圖 3(a)可看出未接電源 端(VDD),而圖 3(b)則未接地端(GND),兩者之整 體電路架構如圖 3 所示。 圖 3. P-XOR/G-XNOR 2.2
全加器模組化設計
在本文中,我們將全加器設計模組化,共分為 三個部份,分別稱為模組 Module-1、模組 Module-2 和模組 Module-COUT,其架構如圖 4 所示 [4]。 在 Module-COUT 的部份,分為 XOR 閘和 XNOR 閘兩大設計,而兩此大設計中又各區分成三 種 次 模 組 (Submodule) 設 計 , 此 三 種 次 模 組 分 為 Multiplexer、 Double PMOS 與 Double NMOS。第一大類型全加器模組化設計是:Module-1 和 Module-2 採用 XOR 閘模組,所接的 Module-COUT 模組部分,使用次模組電路結構如圖 5 所示。
圖 4. Full Adder 組裝方塊圖
圖 5. Module-COUT 之三種次模組 第二大類型全加器模組化設計是:Module-1 和 Module-2 採用 XNOR 閘模組,所接的 Module-COUT 模組,使用三種次模組電路結構如圖 6 所示。
圖 7 是組合起來的 Full Adder 的完整模組化架 構方塊圖,其中分別列出採用 XOR 及 XNOR 模組 的接法,採用不同閘模組會有不同的接法,XOR 模 組接法為圖 7(a)和圖 7(b),其中圖 7 (a) IN1 是 MID、IN2 是 CIN;圖 7 (b) 中 IN1 是 CIN、IN2 是 MID。XNOR 模組接法為圖 7(c)和圖 7(d) ,其 中圖 7 (c) IN1 是 MID、IN2 是 CIN,圖 7 (d) 中 IN1 是 CIN,而 IN2 是 MID 信號。
圖 7. Full Adder 模組架構方塊圖 運用上述提及的互斥或閘(XOR)和互斥反或閘 (XNOR)電路:P-XOR/G-XNOR、INV-XOR/XNOR 及 SER-XOR/XNOR 當做基本模組電路,分別代入 圖 7(a)至圖 7(d)中,可以產生總數有 42 種新的全加 器電路組合,其完整模組化電路結構如表 1 所示。 表 1. 42 種 10-T Full Adder 模組化電路結構
FA Module-1 IN1 IN2 Module-2 Module- COUT 1 INV-XOR MID CIN INV-XOR MUX 2 INV-XOR CIN MID INV-XOR MUX 3 INV-XOR CIN MID INV-XOR PMOS 4 INV-XOR CIN MID INV-XOR NMOS 5 INV-XNOR MID CIN INV-XNOR MUX 6 INV-XNOR CIN MID INV-XNOR MUX 7 INV-XNOR CIN MID INV-XOR PMOS 8 INV-XNOR CIN MID INV-XOR NMOS 9 P- XOR MID CIN P- XOR MUX 10 P- XOR CIN MID P- XOR MUX 11 G- XNOR MID CIN G- XNOR MUX 12 G- XNOR CIN MID G- XNOR MUX 13 SER-XOR MID CIN SER-XOR MUX 14 SER-XNOR MID CIN SER-XNOR MUX 15 INV-XOR MID CIN P- XOR MUX 16 INV-XOR CIN MID P- XOR MUX 17 P- XOR MID CIN INV-XOR MUX 18 P- XOR CIN MID INV-XOR MUX 19 P- XOR CIN MID INV-XOR PMOS 20 P- XOR CIN MID INV-XOR NMOS 21 INV-XNOR MID CIN G- XNOR MUX 22 INV-XNOR CIN MID G- XNOR MUX 23 G- XNOR MID CIN INV-XNOR MUX 24 G- XNOR CIN MID INV-XNOR MUX 25 G- XNOR CIN MID INV-XNOR PMOS 26 G- XNOR CIN MID INV-XNOR NMOS 27 P- XOR MID CIN SER-XOR MUX 28 SER-XOR MID CIN P- XOR MUX 29 SER-XOR CIN MID P- XOR MUX 30 G- XNOR MID CIN SER-XNOR MUX 31 SER-XNOR MID CIN G- XNOR MUX 32 SER-XNOR CIN MID G- XNOR MUX 33 INV-XOR MID CIN SER-XOR MUX 34 SER-XOR MID CIN INV-XOR MUX 35 SER-XOR CIN MID INV-XOR MUX 36 SER-XOR CIN MID INV-XOR PMOS 37 SER-XOR CIN MID INV-XOR NMOS 38 INV-XNOR MID CIN SER-XNOR MUX 39 SER-XNOR MID CIN INV-XNOR MUX 40 SER-XNOR CIN MID INV-XNOR MUX 41 SER-XNOR CIN MID INV-XNOR PMOS 42 SER-XNOR CIN MID INV-XNOR NMOS
我們將初步實驗特性較佳之全加器電路架構 圖表列於下做進一步實驗,下面所列出的圖形,是 實驗需要用到的全加器架構圖:圖 8(a)為 FA-24、 圖 8(b)為 FA-25、圖 8(c)為 FA-42、圖 8(d)為 FA-31、 圖 8(e)為 FA-32、而圖 8(f)為 FA-40 之電路。
圖 8. 部分特性較佳之 10-T 全加器電路架構
3. 實驗結果與分析
3.1 Module-COUT 為 PMOS 的電路 取 Module-COUT 為 PMOS 次模組的六組全加 器電路進行延遲時間(Delay Time, Td)比較,表 2 與 圖 9 是比較電路的延遲時間模擬結果,由表 2 與圖 9 實驗數據所示,FA-25 是這幾種架構中延遲時間 性能最佳的,其 Td 為 0.026 nS。 表 2. Full Adder 延遲時間實驗數據 I FA 3 7 19 Td (nS) 0.029 0.0031 0.036 FA 25 36 41 Td (nS) 0.026 0.038 0.034 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04FA-3 FA-7 FA-19 FA-25 FA-36 FA-41 Full Adder Td (n S) 圖 9. 延遲時間量測比較 I 3.2 Module-COUT 為 NMOS 的電路 取所有 Module-COUT 為 NMOS 次模組的六組 全加器電路進行性能比較,表 3 與圖 10 是電路的 延遲時間比較結果;由表 3 與圖 10 可知,FA-42 是 這幾種架構中性能最佳者,其 Td 為 0.034 nS。 表 3. Full Adder 延遲時間實驗數據Ⅱ FA 4 8 20 Td (nS) 0.045 0.060 0.044 FA 26 37 42 Td (nS) 0.046 0.046 0.034 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
FA-4 FA-8 FA-20 FA-26 FA-37 FA-42 Full Adder Td (n S) 圖 10. 延遲時間量測比較Ⅱ 3.3 Module-COUT 為 MUX 的電路 取所有 Module-COUT 為 MUX 次模組的四組
全加器電路進行比較,表 4 與圖 11 是電路的延遲時 間比較結果,由表 4 與圖 11 所示,其中 FA-24 是 這幾種架構中性能最佳者,其 Td 為 0.0145nS。 表 4. Full Adder 延遲時間實驗數據Ⅲ FA 9 12 23 24 Td (ns) 0.0160 0.0150 0.0147 0.0145 0.0135 0.014 0.0145 0.015 0.0155 0.016 0.0165
FA-9 FA-12 FA-23 FA-24
Full Adder Td (n S) 圖 11. 延遲時間量測比較Ⅲ 3.4 10-T 全加器最佳延遲時間比較 將以上三大類 10-T 全加器最佳延遲時間進行 比較結果,發現表 5 與圖 12 之電路具有最佳延遲 時間,如表 5 與圖 12 所示,其中 FA-24 是這幾種 架構中速度性能最佳者,其 Td 為 0.0145nS;由 FA-24 具有最佳延遲時間實驗值,證明本研究 10-T 全加 器設計中若 Module-COUT 採用 NMOS 模組時,會 比 Module-COUT 為 PMOS 模組時來的快,此乃由 於 NMOS 之載子遷移率(Mobility)較優於 PMOS。
表 5. 三大類 10-T 全加器最佳延遲時間比較 FA 25 42 24 Td (ns) 0.026 0.034 0.0145 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04
FA-25 FA-42 FA-24
Full Adder Td (n S) 圖 12. 三大類 10-T 全加器最佳延遲時間比較 3.5 平均功率消耗(Pd)比較 在 42 種架構的全加器,經過 H-Spice 模擬後, 經 過 比 較 所 挑 選 出 , 取 平 均 功 率 消 耗 (Power Dissipation, Pd)最低的三者表列;表 6 與圖 13 是電 FA-31、FA-32 和 FA-40 是 42 種架構的全加器中, 平均功率最小的三個,其中 FA-40 平均功率消耗最 低,Pd 為 8.34uW。 路的平均功率消耗比較。由表 6 與圖 13 所示, 表 6. Full Adder 較佳平均功率消耗實驗數據 FA 31 32 40 Pd (uW) 9.23 9.02 8.34 7.8 8 8.2 8.4 8.6 8.8 9 9.2 9.4
FA-31 FA-32 FA-40
Full Adder Pd (u W ) 圖 13. 平均功率消耗比較 .6 COUT 的功率延遲比較 在 42 種架構的全加器,進行 COUT 的功率延 遲乘 表 7. COUT 的功率延遲乘積(PDP)比較 FA 3
積(Power Delay Product, PDP)比較,表 7 與圖 14 是 COUT 的功率延遲比較結果;由表 8 所示, 在 COUT 的功率延遲乘積(PDP)比較中,FA-12 的 PDP 值最優異,其功率延遲乘積為 2.40 uW×nS。 11 12 21 24 P ( 2 2 d×Td uW×nS) .42 .40 2.88 2.74 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3
FA-11 FA-12 FA-21 FA-24
Full Adder P d ×T d( u W ×n S ) 圖 14. COUT 的功率延遲比較
4.
片實現
同時,本研究基於驅動能力之考量,經由 42 種新晶
的 10-T 全加器架構中挑選,我們選擇同具功率 消耗較佳與驅動能力較強之 FA-31 全加器電路設計 四位元(4-Bit)漣波進位加法器(Ripple Carry Adder, RCA)晶片,並將設計成果送交國家晶片設計中心 (CIC)製作成實體矽晶片以為驗證。圖 16 所示為使 用 FA-31 設計之四位元漣波進位加法器(4-Bit RCA)晶片佈局圖,表 9 所呈現是整體晶片規格與實驗特 性,在設計與實驗均採用臺積電 TSMC 0.35 um 2P4M 製程技術,模擬採用 H-Spice 軟體模擬 4-Bit RCA,並經由國家晶片設計中心(CIC)製作實體矽晶 片。
表 9. 基於 FA-31 設計之 -Bit RCA 晶片規格列表 4
晶片規格名稱 規格 製程 TSMC 0.35 um 2P4M 電源電壓 (V) 3.3 最高工作頻率 (MHz) 100 電晶體數 92 晶粒面積 (mm2) 1.166 ×1.166 功率消耗 (mW) 1.48
圖 16. 基於 FA-31 設計之 4-Bit RCA 晶片佈局圖
5. 結論
市場上對於高可靠度的電子或電腦系統需求 快速. 致謝
感謝國家晶片設計中心(CIC) 協助製作矽晶片 (下線參考文獻
] 謝永瑞,VLSI 設計概論(修訂二板),全華科 [2] 電子電 [3][4] ang and Y. Jiang, “Design and
[5] ui, A. Al-Sheraidah, and Y. Wang, “New
[6] an, "Principles
[7] ang and H. Wu, "A New Design of the
[8] sterbacka, ”A 14-Transistor CMOS Full
[9] uang, “The Novel
[10] age [11] u, and C.-W. 2 增加中,因此要求更小面積、更高性能及更低 功率消耗的晶片顯得更加重要與廣為流行。為了實 現面積、速度及功率取得最佳化的理想,從基礎運 算 電 路 全 加器 進 行 改 善是 最 直 接 也是 最 有 成 效 的。本文已提出以系統模組化設計的方法,完成一 系列共 42 種新的十顆電晶體全加器設計。基於 TSMC 0.35 um 2P4M 製程技術進行設計與實驗,經 由實驗結果證明,42 種新的十顆電晶體全加器設計 中,FA-24 全加器的延遲時間(Td)性能最佳,其延 遲時間為 0.0145nS;其中 FA-40 全加器之平均功率 消耗(Pd)最佳,其 Pd 為 8.34uW;而 FA-12 全加器 的功率延遲乘積(PDP)最優異,其功率延遲乘積為 2.40 uW×nS。同時,基於驅動能力之考量,我們選 擇功率消耗較佳之 FA-31 全加器電路設計四位元漣 波進位加法器(Ripple Carry Adder, RCA)晶片,並將 設計成果送交國家晶片設計中心(CIC)製作成實體 矽晶片以為驗證;經由實驗結果證明:本研究之設 計方法與結果為有效且實用的。
6
編號 D35-98D-71e),以為本研究之實體驗證。 [1 技圖書股份有限公司,台北,2005。 曹恆煒、林浩雄、郭建宏、陳建中,微 路(上),台北圖書有限公司,台北,2004。 許家豪,“
具有高速及低功率消耗之 10-T 的全 加法器的設計及分析”
,南台科技大學,碩士 論文,2007。 H. T. Bui, Y. WAnalysis of Low-Power 10-Transistor Full Adders Using XOR-XNOR Gates,” IEEE Trans.
on Circuits and Systems II: Analog and Digital Signal Processing, Vol. 49, No. 1, pp.25-30, Jan.
2002. H. T. B
4-Transisor XOR and XNOR Designs,” 2nd
IEEE Asia Pacific Conf. ASICs, pp. 25-28,
Cheju Island, Korea, Aug. 2000. N. H. E. Weste and K. Eshraghi
of CMOS VLSI Design", Addison Wesley, 1993.
N. Zhu
CMOS Full Adder," IEEE Journal of Solid-State
Circuits, Vol. 27, No. 5, pp. 840-844, May
1992. M. Ve
Adder with Full Voltage-Swing Nodes,” IEEE
Workshop on Signal Processing Systems (SiPS 99), pp.713-722, Oct. 1999.
K.-H. Cheng and C.-S. H
Efficient Design of XOR/XNOR Function for Adder Applications,” The 6th IEEE
International Conference on Electronics, Circuits and System, Vol.1, pp.29-32, 1999.
H. Lee and G. E Sobelman, ”New Low-Volt Circuits for XOR and XNOR,” Proceedings
IEEE Southeastcon '97, 'Engineering the New Century', pp.225-229, April 1997.
S.-H. Shieh, C.-K. Tung, L.-R. W
Wu, “Low-Power Full Adder Core Design for
Embedded Structure,” Proc. 14th VLSI
Design/CAD Symp., pp. 2 1-224, Hualien, Aug.