微電子或集成電路 (IC) 是許多前沿應(yīng)用的核心,,其工藝進(jìn)步直接影響各種應(yīng)用的創(chuàng)新,。但在機(jī)器人,、太空探索,、航空航天,、核電站,、精密檢測(cè),、醫(yī)學(xué)成像,、甚至環(huán)境保護(hù)和食品安全等應(yīng)用中,工藝的先進(jìn)性并不是全部,,“輻射”是這些領(lǐng)域的 IC 需要解決的核心問(wèn)題,。輻射可能會(huì)導(dǎo)致機(jī)器人發(fā)生故障,,使醫(yī)學(xué)成像不準(zhǔn)確,或者工業(yè)應(yīng)用機(jī)器出現(xiàn)停轉(zhuǎn)等等,。
對(duì)于 IC 設(shè)計(jì)師來(lái)說(shuō),,在所有上述應(yīng)用中,宇宙空間應(yīng)該說(shuō)是最具挑戰(zhàn)性的應(yīng)用場(chǎng)景,。失去地球大氣層的保護(hù),,電子系統(tǒng)在阿爾法 ( Alpha ) 和貝塔 ( Beta ) 粒子、伽馬 ( Gamma ) 和 X 射線以及銀河宇宙輻射等高能(電離)輻射面前,,相當(dāng)脆弱,,所以能夠抗衡此類(lèi)輻射的航空級(jí)IC 代表了防輻射IC 技術(shù)的塔尖。
電離輻射有足夠的能量讓電子脫離軌道,。如果這個(gè)電子代表存儲(chǔ)器中的一個(gè)數(shù)位或總線接口上的一個(gè)值,,該值就可能被改變或“翻轉(zhuǎn)”。這種狀況有多種叫法,,包括單粒子效應(yīng) (SEE),、單粒子翻轉(zhuǎn)或單粒子閂鎖。無(wú)論具體叫什么,,如果錯(cuò)誤的數(shù)位發(fā)生翻轉(zhuǎn),,例如應(yīng)用代碼中的指令或寄存器中的控制數(shù)位,整個(gè)系統(tǒng)就會(huì)崩潰,。
耐輻射 (Radiation-tolerant)和抗輻射加固 (Radiation-hardened)的區(qū)別
為了在宇宙空間中運(yùn)行,,電子系統(tǒng)需要具有防范輻射風(fēng)險(xiǎn)的能力。某些 IC 制造商采用標(biāo)準(zhǔn)半導(dǎo)體晶圓中加入防護(hù)襯底的方式提供“ 加固 ( hardened ) ”組件,。雖然抗輻射加固 IC 具有更強(qiáng)的耐輻射能力,,但卻不能徹底免疫。與此同時(shí),,因?yàn)榭馆椛湫酒O(shè)計(jì)要求更復(fù)雜且產(chǎn)量更低,,因而價(jià)格也明顯更加昂貴。
此外,,即便所需要的組件可以被設(shè)計(jì)成抗輻射加固IC,,因?yàn)槠渫懂a(chǎn)速度的滯后性,也阻礙了航天器設(shè)計(jì)人員對(duì)抗輻射加固 IC 選用,。
在遭遇電離輻射時(shí),除了采用抗輻射加固IC的設(shè)計(jì)方法提供抗輻射能力,,設(shè)計(jì)人員還可以通過(guò)運(yùn)用器件和設(shè)計(jì)方法進(jìn)行檢測(cè)并予以糾正,。
這就是所謂的耐輻射。
這種方法的主要優(yōu)勢(shì)在于,,可以將大量組件都制作成耐輻射組件,。例如,,眾多存儲(chǔ)器技術(shù)采用糾錯(cuò)碼技術(shù)來(lái)檢測(cè)和糾正存儲(chǔ)器內(nèi)的位翻轉(zhuǎn)。
三重模塊冗余
如果寄存器內(nèi)發(fā)生了位翻轉(zhuǎn),,或由存儲(chǔ)器檢索的數(shù)據(jù)在總線接口傳輸?shù)倪^(guò)程中發(fā)生了翻轉(zhuǎn),,對(duì)此類(lèi)事件進(jìn)行檢測(cè)則極為復(fù)雜。開(kāi)發(fā)者通常使用三重模塊冗余技術(shù)?。╰riple modular redundancy,, TMR)來(lái)檢測(cè)和糾正此類(lèi)性質(zhì)的事件。通過(guò)TMR,,主要電路采用完全相同的設(shè)計(jì)提供并行三冗余,,由“票決”電路比較這些相同路徑的輸出,按少數(shù)服從多數(shù)的原則決定輸出,。(參見(jiàn)圖 1)
如果其中一條電路遭遇影響輸出的事件,,其輸出將不同于其余兩條電路的輸出。如果只使用兩條完全相同的電路進(jìn)行比較,,輸出不同將提示有事件發(fā)生,,但無(wú)法辨別具體發(fā)生在哪條電路上。
哪個(gè)輸出是正確的,?使用三條電路,,可以確定正確的輸出(可以進(jìn)行合理假設(shè),在兩條電路上發(fā)生完全相同的 SEE 的概率基本為零),。
開(kāi)發(fā)者隨即可以采納多數(shù)輸出或重新評(píng)估設(shè)備運(yùn)行,。大量 OEM 廠商對(duì)自己的設(shè)計(jì)采用定制 IC,因此為了實(shí)現(xiàn) TMR,,他們?cè)陔娐钒迳喜⑿胁季?IC 的三個(gè)副本并追加一個(gè)投票器 IC,。
圖 1:采用三模冗余的情況下,使用“票決”電路對(duì)并行的三個(gè)相同的電路開(kāi)展評(píng)估,,確保電路產(chǎn)生正確(大多數(shù))輸出,。
任務(wù)關(guān)鍵型 TMR
TMR 在對(duì)系統(tǒng)性能影響最小(指時(shí)延)的情況下提供高度的可靠性,。然而,,這種可靠性顯然有其代價(jià)。它增大了系統(tǒng)的占板面積,、功耗和費(fèi)用,。鑒于各條電路的重要性并不均等,理想情況下,,開(kāi)發(fā)者希望僅在必要時(shí)使用 TMR,。
以溫度傳感器為例。不常發(fā)生的數(shù)據(jù)點(diǎn)錯(cuò)誤不會(huì)影響整體監(jiān)測(cè)性能,因?yàn)闃颖究梢噪S時(shí)間平均,,因此不必承擔(dān)三個(gè)傳感器或三個(gè)監(jiān)測(cè)電路帶來(lái)的附加費(fèi)用,。
除了在電路板上為電路創(chuàng)建三個(gè)副本以外,還有一種替代方法是在賽靈思 XQR Versal ACAP或自適應(yīng) SoC 等航天級(jí)可編程器件中實(shí)現(xiàn)電路,。賽靈思軟硬件一體化可編程邏輯方法讓設(shè)計(jì)人員能夠在單個(gè)芯片中實(shí)現(xiàn)復(fù)雜的 TMR,。無(wú)需并行布局三個(gè) IC,單個(gè)可編程邏輯器件就能將三條電路和票決電路集成在一起,。(參見(jiàn)圖 2)
圖 2:如圖所示的賽靈思 XQR 航天級(jí)器件能將使用 TMR 的任務(wù)關(guān)鍵型電路實(shí)現(xiàn)在單個(gè)芯片中,。
使用可編程邏輯的主要優(yōu)勢(shì)在于設(shè)計(jì)人員能夠根據(jù)需要實(shí)現(xiàn) TMR。借助這種方法,,任務(wù)關(guān)鍵型模塊能夠在無(wú)需復(fù)制非重要模塊的情況下,,以最高可靠性實(shí)現(xiàn),從而避免推高成本和功耗,。
此外,,因?yàn)?ACAP 或 FPGA 中的自適應(yīng)系統(tǒng)并非定制 IC 那樣在功能上是固定的,所以設(shè)計(jì)人員在推出新特性時(shí)可以避免因重新開(kāi)發(fā)新 IC 而造成的延誤或成本,。
隨著 AI 和機(jī)器學(xué)習(xí)技術(shù)不斷演進(jìn)發(fā)展,,成為電子系統(tǒng)不可或缺的組成部分,自適應(yīng)靈活性也正在變得越來(lái)越重要,。這意味著當(dāng)新的 AI 推斷模型出現(xiàn)時(shí),,就可以通過(guò)軟件更新的方式來(lái)更新硬件系統(tǒng)。此外,,這種更新還能用于在軌系統(tǒng),,在部署后進(jìn)一步提高它們的效率和性能。這是直到近期才具備的功能,。
擦除
可編程邏輯和定制 IC 之間的差異在于 ACAP/FPGA 需要配置,。通過(guò)配置,可以定義可編程器件的功能,。配置數(shù)據(jù)存儲(chǔ)在基于 SRAM 的單元中,,也被稱(chēng)作配置 RAM 或簡(jiǎn)稱(chēng) CRAM。因此,,CARM 可能受輻射事件的影響,,可能會(huì)改變可編程器件的既定“特性”。
擦除是一種用來(lái)保護(hù)配置存儲(chǔ)器單元的方法,。器件有專(zhuān)門(mén)一部分通過(guò)使用校驗(yàn)和分析,,不斷對(duì) CRAM 做逐幀檢查。如果檢測(cè)到輻射事件,,就啟動(dòng)重配置,。器件“擦除”(即重新加載)被電離輻射損壞的配置幀。在糾正輻射事件后,再繼續(xù)處理,。
需要注意的是,只有受影響的幀才需要擦除,,整個(gè)系統(tǒng)則繼續(xù)不中斷地運(yùn)行,。此外,ACAP/FPGA 也能采用“盲擦除”,。在采用盲擦除時(shí),,器件不會(huì)檢查是否有輻射事件發(fā)生,而是通過(guò)定期進(jìn)行重配置,,確保其處在已知的良性狀態(tài)下,。這種方法非常可靠,,因?yàn)樗鼜?qiáng)制刷新 CRAM,,甚至是在非必要時(shí)。
在之前的幾代產(chǎn)品中,,賽靈思 CRAM 防范單事件翻轉(zhuǎn)的擦除機(jī)制是通過(guò)外接 IC實(shí)現(xiàn)的,,而如今,該功能已經(jīng)作為一項(xiàng)功能,,集成在 FPGA 的可編程邏輯中,,或 ACAP 的專(zhuān)用處理器中。
就其本質(zhì)而言,,電子產(chǎn)品不具備與生俱來(lái)的耐輻射能力,。但是卻可以通過(guò)先進(jìn)的設(shè)計(jì)方法,讓系統(tǒng)自動(dòng)識(shí)別并改變輻射事件,,提高系統(tǒng)的總體耐輻射能力,,從而大幅提升可靠性和恢復(fù)能力。通過(guò)采用自適應(yīng)平臺(tái),,設(shè)計(jì)人員可以運(yùn)用三重模塊冗余技術(shù)和擦除技術(shù),,優(yōu)化系統(tǒng)成本,降低占板面積和功耗,。
*本文原文翻譯自EETimes美國(guó)