作者:Synopsys,,產(chǎn)品市場營銷經(jīng)理,,Ken Brock
TSMC最近宣布其第四代主要16納米工藝,即16FFC(16納米FinFET緊湊版), 進入批量生產(chǎn),。該工藝提供了一種簡單的從28納米工藝進行轉(zhuǎn)移的方式,,它具有優(yōu)異的性能、功耗和面積方面的優(yōu)點,。為了在該工藝上開發(fā)最具競爭力的片上系統(tǒng)(SOC),,設(shè)計人員必須選擇優(yōu)化的基礎(chǔ)IP構(gòu)件(嵌入式存儲器和標(biāo)準(zhǔn)單元庫),,以實現(xiàn)最高的SOC性能,以及最低的功耗和面積,。通過將16FFC工藝和正確基礎(chǔ)IP組合,,設(shè)計人員能夠為多種應(yīng)用開發(fā)SOC,從高端綠色服務(wù)器和網(wǎng)絡(luò)處理器到超低功耗移動裝置,、消費產(chǎn)品,、可穿戴產(chǎn)品,以及介于中間的任何產(chǎn)品,。
在本文中,,介紹了設(shè)計人員可采取的七種方式,采用它們,,設(shè)計人員能夠利用這一新工藝的優(yōu)點,,以及最先進的邏輯庫和存儲器編譯器技術(shù),對其SOC的性能,、功耗和面積進行優(yōu)化,。
1.與28納米技術(shù)相比,利用16納米技術(shù)的摩爾定律縮小比例,,設(shè)計人員能夠改善SOC的面積,。
2. FinFET提供了較高的每單位面積飽和電流,這意味著可以通過不同的電路拓?fù)鋪砀纳菩阅?,從而使用較小的邏輯單元來收斂關(guān)鍵定時路徑,。
3.與28納米相比,F(xiàn)inFET的漏電流更低,,但是,由于fin的輸入電容增加,,消耗的動態(tài)功耗相對較高,。
4.標(biāo)準(zhǔn)單元架構(gòu)能夠利用創(chuàng)新的工藝技術(shù)(continuous poly),借助于使用與邏輯庫共同優(yōu)化的物理設(shè)計工具,,產(chǎn)生最密集的布圖,,以節(jié)省面積和功耗。
5.布線性好的高扇入標(biāo)準(zhǔn)單元,,和具有多種延遲時間,、多種建立時間和多位觸發(fā)器(MBFF)的時序單元,使得設(shè)計人員能夠優(yōu)化其處理器核的性能和功耗,。
6.具有多種位元,、多種外圍VT和創(chuàng)新的功耗管理特性的多種存儲器編譯器。
7. 將創(chuàng)新的工藝技術(shù),、庫設(shè)計能力,、最新的EDA工具創(chuàng)新和流程結(jié)合在一起,,SOC設(shè)計人員能夠利用自己的設(shè)計技能,開發(fā)出具有最高性能,、最低硅片成本和最低功耗的設(shè)計,。
工藝縮放
作為摩爾定律和經(jīng)典Dennard縮放的一部分,16FFC工藝提供了更小的晶體管間距(contacted poly pitch或CPP)和更小的互連金屬間距(線到線,,過孔到線,,以及過孔到過孔)以利于布線,提供了更小的位單元以減少面積,。優(yōu)化的IP布圖創(chuàng)新能利用這些更小設(shè)計規(guī)則,,同時還能處理16納米技術(shù)帶來的挑戰(zhàn),包括因更細(xì)導(dǎo)線而致的較高線電阻,,以及信號線和電網(wǎng)的電遷移,。必須在IP架構(gòu)和IP驗證方面解決這些挑戰(zhàn)。如圖1所示,,與28納米技術(shù)相比,,使用優(yōu)化的基礎(chǔ)IP時,16FFC能夠提供兩倍以上的面積收益和至少30%的性能改進,。
圖1:面積-性能,,28納米-16納米,CPU
FinFET提供了較高的每單位面積飽和電流,,這意味著可以通過不同的電路拓?fù)鋪砀纳菩阅?,從而使用較小的邏輯單元來收斂關(guān)鍵定時路徑。
柵漏電流減低但動態(tài)功耗增加
16FFC提供了豐富的電壓閾值(VT)和溝道長度,,涵蓋廣泛的性能/漏電范圍,。在圖2中,給出了邏輯門性能-漏電(對數(shù)尺度)圖,,其中顯示了通過在多個VT/溝道長度上使用針腳相容的標(biāo)準(zhǔn)單元來實現(xiàn)設(shè)計權(quán)衡,。
圖2:每種VT和溝道長度的相對性能-相對漏電,7.5軌(T)超高密度
許多移動和物聯(lián)網(wǎng)(IOT)設(shè)備大多數(shù)時間處于待機或睡眠狀態(tài),,這時唯一的功耗為漏電功耗,。FinFET的一個主要優(yōu)點在于,它們能在很低的電壓下工作,,當(dāng)然相關(guān)的性能也會降低,。漏電流大體上與供電電壓成正比,漏電流節(jié)省在低電壓下很可觀,。
總功耗由動態(tài)功耗和漏電功耗組成,。與28納米或其他節(jié)點相比,F(xiàn)inFET的漏電更低,但由于fin的輸入電容和飽和電流增加,,它會消耗較高的動態(tài)功耗,。在28納米SOC的設(shè)計范例下,這類在相對漏電-動態(tài)功耗方面的變化會產(chǎn)生較大差異,。在圖3中,,顯示了從180納米到16納米,漏電功耗占總SOC功耗的百分比,。在16FFC,,這會大大減少設(shè)計人員在減小漏電方面的壓力,但會將更多注意力放在降低動態(tài)功耗方面,。
圖3:從180納米到16納米漏電功耗占總SOC功耗的百分比
管理動態(tài)功耗= CFV2
由于應(yīng)用規(guī)范對SOC性能具有強制要求,,可由設(shè)計人員控制的動態(tài)功耗源包括,通過積極使用時鐘門控來管理開關(guān)頻率,,將電容最小化,,并將工作電壓將至最低。使用密集的優(yōu)化布圖和較短的走線,,可將布線電容將至最低(通過使用在給定頻率給定功能下具有最佳單元高度的優(yōu)化庫,,可將輸入電容最小化)。標(biāo)準(zhǔn)單元可按照多種高度來構(gòu)建(3fin,、4fin和5fin),,從而在性能和可靠性方面與設(shè)計模塊的目標(biāo)頻率相匹配。在圖4中,,顯示了三種不同軌道高度下(7.5T,、9T、10.5T)1X驅(qū)動反相器的輸入電容,。其他單元具有類似趨勢,。
圖4:各種標(biāo)準(zhǔn)單元架構(gòu)下1X反相器的輸入電容
對于同一個模塊,使用超高密度(UHD)7.5軌道庫時,,與高密度(HD)9軌道庫相比,,并不具有最高的性能,但由于降低了器件電容,,功耗會降低25%左右,具體情況取決于模塊的功能和頻率,。此外,,當(dāng)降低模塊的電壓時,動態(tài)功耗的降低因數(shù)為V2,。在圖5中,,給出了不同額定電壓下模塊的漏電功耗(虛線)和動態(tài)功耗(實線)圖。低壓下降低的動態(tài)功耗歸因于V2分量,。
圖5:多個額定電壓下的性能-漏電和動態(tài)功耗
顯著改善模塊性能,、功耗和面積的邏輯庫設(shè)計
將新的TSMC 16FFC工藝與優(yōu)化布圖以及創(chuàng)新的邏輯庫電路設(shè)計結(jié)合在一起,,可為通過綜合和布局布線從RTL創(chuàng)建數(shù)字邏輯模塊的設(shè)計工程師提供數(shù)項優(yōu)點。布線后的模塊密度對于降低硅片面積和節(jié)省功耗十分關(guān)鍵,。
針對最小SOC面積和最低總功耗的高效布圖
標(biāo)準(zhǔn)單元設(shè)計是一個復(fù)雜的過程,,其中,每一個電路元件,、布圖特性或折中均會對性能,、功耗、面積(PPA)和可制造性產(chǎn)生重大影響,。充分利用工藝特性如CPODE(continuous poly on diffusion edge),,與使用PODE(poly on diffusion edge)的設(shè)計相比,能夠使布線后模塊小5%,,從而得到最小的布線后模塊面積和最小的總功耗,。
組合單元
優(yōu)化寄存器-寄存器路徑需要豐富的標(biāo)準(zhǔn)單元庫,包括合適的功能,、驅(qū)動強度和實現(xiàn)種類,。一套豐富的優(yōu)化功能(NAND, NOR, AND, OR, inverter, buffers, XOR, XNOR, MUX, adders, compressors 等)對于綜合出優(yōu)化的電路而言十分必要。需使用優(yōu)化布圖技術(shù)以便最大程度利用最新的布線算法來消除阻塞,。先進的綜合和布局布線工具能夠利用豐富的驅(qū)動強度集合,,來對由設(shè)計拓?fù)浜蛦卧g物理距離產(chǎn)生的不同的扇出和負(fù)載進行優(yōu)化處理。
時序單元
觸發(fā)器的建立時間加上延遲時間有時被稱為“死區(qū)”或“黑洞”時間,。與時鐘不確定性類似,,該時間會消耗每一時鐘周期內(nèi)的時間,而這些時間本應(yīng)用于執(zhí)行有用的計算工作,。需要用到多套高性能觸發(fā)器,,以便對這類死區(qū)時間進行優(yōu)化管理。延遲時間優(yōu)化觸發(fā)器(多延遲時間觸發(fā)器)快速將信號送入關(guān)鍵路徑邏輯簇,,建立時間優(yōu)化觸發(fā)器(多建立時間觸發(fā)器)捕獲寄存器,,從而延長可用時鐘周期。通過對綜合和布線優(yōu)化工具進行有效約束,,我們能夠使用這些多建立時間/多延遲時間觸發(fā)器集合來實現(xiàn)最大速度,,從而獲得15-20%的性能提升。
顯著改善PPA的存儲器編譯器設(shè)計
DesignWare?存儲器編譯器針對低功耗,、高性能和高密度進行了優(yōu)化,,它提供了多種先進的功耗管理特性,如輕度睡眠,、深度睡眠,、關(guān)機、雙供電軌道、寫輔助等,,使得設(shè)計人員能夠滿足當(dāng)今SOC嚴(yán)格的低功耗要求,。DesignWare存儲器編譯器與DesignWare STAR Memory System?緊密結(jié)合在一起,提供了集成的嵌入式存儲器測試解決方案來檢測并修復(fù)制造故障,,從而達到最高可能的良率,,同時將對芯片面積的影響將至最低。DesignWare存儲器編譯器在數(shù)以十億計的量產(chǎn)芯片上得到了驗證,,這使得設(shè)計人員能夠降低風(fēng)險并縮短面市時間,。
圖6:用于各種應(yīng)用的多種DesignWare存儲器編譯器
總結(jié)
TSMC的16FFC工藝改進了工藝規(guī)則和變異性,以實現(xiàn)更小的設(shè)計,、更高的性能和更低的功耗,。如果擁有充分利用這些新工藝能力的邏輯庫和嵌入式存儲器,領(lǐng)先的綜合和布局布線工具就能夠最大程度地利用這些工藝改進來滿足嚴(yán)格的設(shè)計規(guī)范,。Synopsys 的DesignWare邏輯庫和領(lǐng)先的EDA工具,、存儲器編譯器以及齊全的接口IP采用了相應(yīng)設(shè)計,使得SOC設(shè)計人員能夠挑戰(zhàn)性能,、面積和功耗極限,,并充分利用新工藝的能力來實現(xiàn)具有最小的面積和最高的兆赫/毫瓦的SOC。