《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 解決方案 > 復雜的多核心ARM集成設計面臨的挑戰(zhàn)和提出的解決方案

復雜的多核心ARM集成設計面臨的挑戰(zhàn)和提出的解決方案

2004-09-01
關鍵詞: ARM 多核 RTL

        最近,,英國Ascot的Agere系統(tǒng)公司 ASIC設計中心從一個重要客戶處收到一份富有挑戰(zhàn)性的簡報:將8個 ARM966E-S r1p0 處理器子系統(tǒng)集成到單芯片上。
  盡管這項任務很復雜,,但是僅花了11個月就完成了4M-gate 5Mbit 的設計,。目前,芯片已投入生產(chǎn),,并作為首次推出的基礎設施的一部分,,于2002年在歐洲首次使用。整個芯片是第三方和Agere設計經(jīng)驗的合作成果,,Agere負責提供ARM子系統(tǒng)設計經(jīng)驗和芯片集成知識,,而第三方提供特定用途知識產(chǎn)權。

 本文不僅概括了小組在開發(fā)設計過程中遇到的挑戰(zhàn),,還提供了對所采用的解決方案的深刻見解,。使用的技術有Agere的0.16um 6LM (金屬層) 1.5V/3.3V處理,且連線到456 PBGAM數(shù)據(jù)包,,以及Agere的內部EDA工具集,、用于合成的Synopsys的設計編譯器,、用于靜態(tài)時序分析的Primetime、用于測試插入和矢量生成的DC-XP/Tetramax和用于功耗分析的Primepower,。小組使用了Avanti Apollo/Saturn 的布局規(guī)劃和時鐘樹綜合(CTS)技術,、Mentor Graphics的Modelsim RTL 仿真技術和Cadence的NCVerilog 功能門仿真技術。 Celerity是用于Spice仿真的解決方案,,而AssuraSI是用于信號集成分析的解決方案,。
 

ARM966E

  ARM966E-S子系統(tǒng)
  本設計是分等級的,它將ARM966E-S子系統(tǒng)排在最低級別,。子系統(tǒng)的結構如圖所示,。
  每個ARM966E-S子系統(tǒng)在每段設計里可使用2次,并同時添加第三方IP,。而該段在設計中被復制4次,。在層次的上一級也包括了第三方IP,最后,,包括Agere所有的IO和測試結構,。該結構在圖2中有說明。使用該設計結構,,Agere提出了SoC設計,,即當設備中的最低核心電壓是1.32V,接合溫度達到125 攝氏度,,且使用最慢處理特性時,,這種設計最少能容納1280 MIPS,是基于每個ARM966E-S核心160 MIPS的一種測量方法,。在這些條件下,,限制MIP數(shù)目的因素不是ARM966E-S核心(在這種技術下能達到200MIPs),而是指令/數(shù)據(jù)緊密耦合內存 (TCM)的大小和形狀,,以及AMBA 高速總線 (AHB)的物理長度,。在Agere的最新技術(0.13um)里,已獲得不止兩倍的性能,,同時使用AMBA 3.0 AXI協(xié)議,,克服了AHB的局限性。
 

<a class=多核設備結構" border="0" height="369" hspace="0" src="http://files.chinaaet.com/images/20100812/d0f94d6e-d584-4e0b-a329-cd20203d133d.jpg" width="520" />

   子系統(tǒng)設計工藝基礎是Agere的 "AHB Supercore macrocell",。 Agere利用子系統(tǒng)的開發(fā)經(jīng)驗,,使Supercore滿足了SoC設計的要求。這就要求更改TCM配置,,包括將部分數(shù)據(jù)TCM內存映射變?yōu)殡p口RAM,。而且,增加了一個雙向的外部存儲接口(EMI)  和一個定制的矢量中斷控制器(VIC)。

  測試設計功能性
  一旦完成ARM966E-S子系統(tǒng)的RTL設計,,Agere的工程師就創(chuàng)建了一套系統(tǒng)測試,,以證明設計的功能性。除了可以測試ARM提供的矢量外,,還可以測試合成的ARM966E-S核心的有效性,。用于測試子系統(tǒng)的測試基準使用了Synopsys LMC (邏輯模型化公司)軟內存模式仿真TCM。

  該測試組件還用于檢驗各個步驟的分塊合成和構造,。一旦子系統(tǒng)設計人員確定了整個設計的合成,,就會在融合到整個SoC設計前,將單獨的驗證結果傳給SoC設計人員,。為了遵守ARM許可協(xié)議,,無需ARM966E-S門級連線表,而是與ARM966E-S DSM系統(tǒng)仿真的DSM(設計仿真模式)一并傳給第三方,。

  這是一個復雜的SoC設計,,不僅需要測試性能,還需要相關的調試,。將BIST,、SCAN和邊界掃描結構包含在內,才有可能對整個設計的高故障覆蓋生產(chǎn)進行測試,。如果需要調試,除了需要一個結構外,,還需添加支持ICE在線仿真的ETM9 (內置的蹤跡模塊),。

  尤其是掃描技術,它不同于以往一次性掃描整個芯片的方法,。每個分層的掃描都是單獨進行的,,然后合并起來進入上一級。這里主要的工作區(qū)將所有以前掃描過的子模塊當作黑盒子來處理,,直至插入了掃描,。之后在填寫設計連線表前,子模塊代替設計中的黑盒子,,為上一級掃描和合并做準備,。這個過程在4 種不同層次上都有重復。從設計開始,,Synopsys已發(fā)布了新版的設計編譯器,,Agere用它成功掃描和編譯了許多復雜的分級設計,而無需精心制作的腳本,。

 邊界掃描結構設計使所有IO計時在IO和電壓轉換結構中都是可預料的,。這應當通過創(chuàng)建IO緩沖和邊界掃描物理布局宏單元獲得。這些宏單元與Agere的BCADu軟件相結合,建立最高級IO連接,。每種接入接出宏單元都轉換為正確的電壓,,并接收不同的掃描輸入和輸出。

  這就意味著功能信號在核心內不會與掃描信號相混淆,。從而,,隨著設計的進行,實現(xiàn)從頂級透視預測整個時序,。IO環(huán)設計的另一特性是將邊界掃描時鐘TCK發(fā)送給數(shù)據(jù)的另一端,。這就消除了與TCK有關的任何保留時序問題,同時意味著不必擔心時序平衡和芯片外圍的TCK時鐘樹,。

  由于這種設備是基于ARM的,,且具有ICE性能,與IO邊界共享JTAG端口,,所以需要進行掃描,。設計的TDO針需要在每兩個測試結構間復用。為了實現(xiàn)這一特性,,將邊界掃描控制器(Agere開發(fā)的BCAD軟件部分)變?yōu)榭芍С诌吔鐠呙杌騃CE,。
  復雜設計需要足夠的調試性能
  ICE和ETM性能都添加到SoCy設計中。在設計規(guī)格階段,,為每個ARM966E-S提供一個獨立的ETM9,,費用會很大,而且因為8 個ARM966E-S都具有同一功能,,所以只需要其中的一個ARM966E-S,。因此單個的ETM9放在核心最上層,并連接到單芯片的單ARM966E-S核心中,,其它三個芯片的ETM接口未被連接,。

  SoC 設計的ICE性能需要依靠所有8個ARM966E-S核,能經(jīng)由設備的JTAG端口,,通過TDI/TDO信號進行通信,。因為擁有多個JTAG端口的解決方案并不很實用,因而有必要利用ARM966E-S的菊花鏈通信性能,。菊花鏈控制的說明見圖3,。菊花鏈系列連接要求在每兩個ARM966E-S核間進行數(shù)據(jù)傳送,并意味著較低級別的TCK時鐘平衡變得重要了,。為了使多ICE能以實用的調試速率運行,,TCK時鐘樹必須首先在芯片間,然后在芯片內的ARM966E-S間達到平衡,。
 

菊花鏈調試接入

   因為設備不包含只讀存儲器(ROM),,所以在通電時,,需要啟動系統(tǒng)將軟件下載到每個核。需通過主要外部接口,,到達每個子系統(tǒng)的AHB基礎存儲器,。然后處理器開始啟動,并將主程序傳輸?shù)絻群说闹噶頣CM,。
  富有挑戰(zhàn)性的物理執(zhí)行
 此Soc設計的物理執(zhí)行是使用Avanti的 Apollo 和Saturn來實現(xiàn)TDL(時序驅動布局)和CTS (時鐘樹整合)的,。目前Synopsys Astro已經(jīng)替代了這個流程。8個內核的設計,,可能產(chǎn)生有趣的挑戰(zhàn),。設備的形狀由ARM966E-S子系統(tǒng)的大小和形狀規(guī)定,并受芯片形狀和大小的影響,。通過這個設備的數(shù)據(jù)流主要是單向的,,同時影響到平面布局圖。這就意味著唯一的可能就是在各自頂端堆疊芯片,。于是要求制定長線(> 3mm)轉發(fā)器信號策略,,同時,因為每個芯片與來自芯片四個方向的信號通信,,所以要求大量的轉發(fā)器元,。這就迫使Agere的設計小組在平面布局圖中采用轉發(fā)器區(qū)域,管理利用轉發(fā)器元的數(shù)量,。隨著信號傳送距離變長(> 20mm),,就會對計時產(chǎn)生影響,于是要求重新設計SoC的某些方面,,以提供更多的管線級數(shù),,確保時序不受干擾。

 如果這個設計很大(> 140mm^2),,有大量的初級IO信號,同時大于數(shù)據(jù)中的125K觸發(fā)器,,那么就應特別注意其功耗,、IR壓降及IO和時鐘交換引起的噪音。通過精確的嵌入時延管理,,確保每個芯片的計時,,從而減少設備功耗、IR 壓降和時鐘噪音,。芯片外的電路記錄對邊的時間,,另外金屬的附加級也添加,僅用于功率路由,。然而即使利用這些技術,,設計人員仍認為電壓能降到1.32V(Agere0.16um 1.5V 庫中最小的典型電壓),。隨后計時分析和模擬這個更低的電壓特征,并產(chǎn)生設備計時分析和模擬的SDF(標準時延格式),。

 對這一種類的設備,,另一值得考慮的事項是地面反彈分析。需要考慮要求的VDD 和VSS板的數(shù)目,,然后使用Celerity SPICE模擬器對芯片進行仿真,,同時使用所有的輸出交換。相應地,,測量輸出緩沖驅動容量,,調整VDD/VSS板的數(shù)目和基調。然后再進行一個相似的仿真,,評估內核電源板的需求,。最后由于這是一種混合的電壓設計,我們?yōu)?.3V交換 IO 和1.5V內核電壓重新設計一個標準的數(shù)據(jù)基底,,以合并電源層,,從而減少連接到VDD 和VSS電源的感應。


 Agere實現(xiàn)了布局內的時序閉合后,,就會利用其信號集成分析工具方法,,評估假信號問題,以及信號耦合引起的時序問題,。圖4演示了Agere的SI流程,。
 

Agere

    當時,這個方法還是相對較新的,。這些工具雖然已經(jīng)十分先進了,,但仍沒有現(xiàn)在的先進。于是導致了許多反復設計,,在修復了潛在問題后,,再進行進一步的信號集成分析,這樣才能完成整個設計,。

    這樣的設計以及許多同樣復雜的后續(xù)設計的結果是:Agere工具的信號集成能力得到很好的調整,,以致于單個信元具有獨特的門限特征,產(chǎn)生了新的SI 加強型信元(hardened cell),,以及用于更高精度模塊化的單網(wǎng)分析,。這就使易受當前信號完整性問題影響的網(wǎng)絡數(shù)量大幅下降,從而讓我們能集中精力解決真正的問題,。相應地,,Agere現(xiàn)在利用了Synopsys Astro Cross-talk工具進行布局設計,并采用時鐘屏蔽作為標準,,消除時鐘故障問題,。同時,,Agere 還采用了Cadence的Celtic工具代替圖4 SI 流程中的Assura工具。

       總之,,這是個十分苛刻的SoC設計,,需要開發(fā)新的設計技術才能成功實現(xiàn)。這些技術已經(jīng)逐漸被應用到Agere的其它設計中,,而且到目前為止,,位于英國Ascot 的Agere設計中心已完成了7種不同技術的基于ARM的設計,包括Agere最新的0.13um技術,,而整個公司已經(jīng)擁有了30種基于ARM的設計方案,。

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。