領(lǐng)先的模擬AI處理器公司Mythic日前宣布,公司正式推出業(yè)界首款模擬矩陣處理器(Mythic AMP?)M1108 AMP,。按照他們的說(shuō)法,,這個(gè)新產(chǎn)品的發(fā)布預(yù)示了AI激動(dòng)人心的新紀(jì)元,因?yàn)樗状翁峁┝艘环N模擬計(jì)算解決方案,,該解決方案可實(shí)現(xiàn)一流的性能和性能,,并且其精度可與數(shù)字設(shè)備媲美。
報(bào)道指出,,M1108 AMP能為邊緣部署提供了無(wú)與倫比的可能性,,應(yīng)用市場(chǎng)包括智能家居,AR / VR,,無(wú)人機(jī),,視頻監(jiān)控,智能城市以及工廠車間的自動(dòng)化,。憑借其革命性的技術(shù),,M1108 AMP處于AI處理重大新趨勢(shì)的最前沿。
報(bào)道指出,,M1108集成了108個(gè)AMP tiles ,,每個(gè)tiles都配有一個(gè)Mythic模擬計(jì)算引擎(MythicACE?),該引擎具有閃存單元,、ADC陣列,、32位的RISC-V處理器、SIMD矢量引擎,,SRAM和一個(gè)高吞吐量的片上網(wǎng)絡(luò)(NOC)路由,。
此外,四個(gè)控制tiles為系統(tǒng)主機(jī)處理器提供了高帶寬PCIe2.0接口,。M1108具有108個(gè)AMP tiles,,可提供高達(dá)35萬(wàn)億次/秒的運(yùn)算(TOPS),,可在單個(gè)芯片上以高效率、低延遲地高效執(zhí)行復(fù)雜的AI模型(例如ResNet-50,,YOLOv3和OpenPoseBody25),。在峰值吞吐量下運(yùn)行復(fù)雜的AI模型時(shí),M1108的典型功耗約為4W,。而且,,憑借利用成熟的40nm技術(shù)的固有成本優(yōu)勢(shì),并且不需要任何外部DRAM或SRAM,,M1108 AMP將以PCIe M.2和PCIe卡形式提供,,并且M1108PCIe評(píng)估套件可應(yīng)要求提供。
模擬AI芯片怎么玩,?Mythic詳細(xì)講述
說(shuō)到人工智能硬件,,我們向來(lái)事無(wú)巨細(xì)。WikiChip密切關(guān)注的一家公司是Mythic,。這家公司還沒(méi)有完全公開他們的架構(gòu)和產(chǎn)品,,但一些細(xì)節(jié)已經(jīng)開始慢慢浮出水面。在最近的人工智能硬件峰會(huì)上,,該公司的創(chuàng)始人兼首席執(zhí)行官M(fèi)ike Henry)紹了該芯片的最新情況,。
這家位于奧斯汀的初創(chuàng)公司由Mike Henry和Dave Fick于2012年創(chuàng)立,最近完成了7000萬(wàn)美元的B輪融資,,總?cè)谫Y額剛剛超過(guò)8500萬(wàn)美元,。如今,公司員工已增至110人,。
Mythic是一家模擬公司,。但是,在我們探討細(xì)節(jié)之前,,必須指出,,它們目前僅專注于推理,無(wú)論是在數(shù)據(jù)中心還是在邊緣,。到2024年,,這兩個(gè)市場(chǎng)的TAM(Total Available Market總體有效市場(chǎng))
預(yù)計(jì)將達(dá)到250億美元,這就是為什么這里有如此多的關(guān)注點(diǎn)的原因,。從長(zhǎng)遠(yuǎn)來(lái)看,,Mythic計(jì)劃針對(duì)大眾市場(chǎng)的消費(fèi)品和汽車產(chǎn)品。
把所有東西都放在芯片上,,放在閃存里
隨著模型準(zhǔn)確性的提高,,其大小也會(huì)隨之增加。如今,,模型達(dá)到了數(shù)億個(gè)參數(shù),,甚至達(dá)到數(shù)十億,。最重要的是,通常實(shí)時(shí)地需要確定性行為,,例如一致的幀速率和延遲,。這就是Mythic的作用,。Mythic的論點(diǎn)很簡(jiǎn)單:將足夠的存儲(chǔ)與大量并行計(jì)算單元打包在芯片上,,以最大化內(nèi)存帶寬并減少數(shù)據(jù)移動(dòng)的能力。但是有一個(gè)轉(zhuǎn)變——這就是Mythic的原始方法的閃光點(diǎn)——該公司拋棄了傳統(tǒng)的SRAM,,轉(zhuǎn)而使用更密集的閃存,,此外,Mythic還計(jì)劃在模擬環(huán)境下直接在內(nèi)存中進(jìn)行本地計(jì)算,。
但是為什么是閃存,?答案很簡(jiǎn)單:因?yàn)樗芏却螅牡?,而且便宜,,幾乎比SRAM的密度大兩個(gè)數(shù)量級(jí)。
理論上,,Mythic的芯片更像內(nèi)存,,而不是傳統(tǒng)的CMOS。從更長(zhǎng)的路線圖來(lái)看,,隨著SRAM bit cell的擴(kuò)展變得越來(lái)越困難,,它帶來(lái)的好處也越來(lái)越深遠(yuǎn)??偟膩?lái)說(shuō),,從每美元的性能、每單位成本的密度和每瓦特的性能來(lái)看,,這是一個(gè)潛在的巨大勝利,。
多年來(lái),我們看到了一大堆路線圖,,當(dāng)他們開始談?wù)撐磥?lái)10年的時(shí)候,,很容易忽視它。但對(duì)Mythic來(lái)說(shuō),,有一些不同之處,。值得特別指出的是,目前Mythic正在研究40納米的嵌入式閃存,。他們有一個(gè)相當(dāng)清晰的28nm和22nm的路徑,,因此,粗略地說(shuō),,這個(gè)圖的一半是基于今天已經(jīng)發(fā)布的現(xiàn)有節(jié)點(diǎn),。
Mythic公司的首席執(zhí)行官M(fèi)ike Henry似乎相信他們可以繼續(xù)這樣做,,但是盡管正在進(jìn)行一些工作以繼續(xù)擴(kuò)展到16/14納米節(jié)點(diǎn),還不清楚它是否會(huì)上市,。
許多業(yè)內(nèi)人士認(rèn)為,,嵌入式閃存在22納米的時(shí)候遭遇了瓶頸。在與Mythic的一次簡(jiǎn)短交談中,,他們告訴我們,,他們并沒(méi)有與嵌入式閃存結(jié)合,如果其中一項(xiàng)新興技術(shù)(如多位ReRAM,、PCM或NRAM)作為一種強(qiáng)大的替代技術(shù)出現(xiàn),,他們肯定會(huì)考慮遷移到這種技術(shù)。
IPU
Mythic的芯片被稱為IPUs或智能處理單元,。在外設(shè)方面,,該芯片非常簡(jiǎn)單,由PCIe的x4通道和DNN平鋪網(wǎng)格組成,,PCIe是負(fù)責(zé)整個(gè)芯片管理的基本控制處理器,。由于芯片的設(shè)計(jì)是為了存儲(chǔ)整個(gè)模型,沒(méi)有DRAM,。
Mythic表示,,由于這是一個(gè)基于tiles的設(shè)計(jì),如果有需求,,他們可以通過(guò)添加直接的音頻/視頻和各種其他接口來(lái)進(jìn)一步定制,。在去年的Hot Chip上,Mythic談?wù)摰氖且豢?000萬(wàn)權(quán)值(weights)的初始產(chǎn)品,。在最近的人工智能硬件峰會(huì)上,,Mike Henry表示,初始產(chǎn)品權(quán)值將達(dá)到1.2億,,這比最初的計(jì)劃要多很多,。在富士通的40nm制程中,近標(biāo)線全尺寸芯片應(yīng)具有約300M權(quán)值的容量,,因此120M仍然是一個(gè)相當(dāng)大的芯片,。
IPU的作用是作為一個(gè)連接到主機(jī)的PCIe加速器。對(duì)于大型模型或多個(gè)模型,,可以使用多個(gè)IPU,。模型最初被加載到IPU中,并保持靜止,。沒(méi)有DRAM和編程閃存相對(duì)較慢,,因此模型應(yīng)該能夠適應(yīng)芯片與多個(gè)應(yīng)用映射到同一芯片。這對(duì)于許多邊緣應(yīng)用程序來(lái)說(shuō)非常典型,。在正常操作下,,主機(jī)CPU將數(shù)據(jù)發(fā)送到IPU,,并通過(guò)PCIe端口接收結(jié)果。
IPU總體設(shè)計(jì)(WikiChip)
該芯片由DNN tiles構(gòu)成網(wǎng)格,。在一個(gè)tiles里面是一個(gè)模擬矩陣乘法器,,它建立在一個(gè)巨大的嵌入式閃存池的頂部,用來(lái)計(jì)算權(quán)值,。嵌入式閃存單元使用浮動(dòng)?xùn)艠O通過(guò)存儲(chǔ)電荷,、控制閾值電壓來(lái)存儲(chǔ)位。晶體管支持256級(jí)電導(dǎo)(G=1/R)之間的完全關(guān)閉和打開狀態(tài),,Mythic用它來(lái)表示8位值,。
通過(guò)將所有神經(jīng)元的權(quán)值映射到閃光晶體管上,,他們可以利用歐姆定律自然地進(jìn)行矩陣乘法運(yùn)算,。實(shí)現(xiàn)的方法是使用閃光晶體管將權(quán)值表示為可變電阻。這在計(jì)算之前執(zhí)行一次,。使用8位DAC,,輸入矢量作為一組電壓通過(guò)可變電阻。根據(jù)歐姆定律,,輸出電流是輸入數(shù)據(jù)與權(quán)值向量(I = V x G)相乘的結(jié)果,。最后,一組adc將產(chǎn)生的電流轉(zhuǎn)換回?cái)?shù)字值,,成為輸出矢量,。ReLu和其他各種非線性操作也由adc在那個(gè)時(shí)間點(diǎn)完成。
圍繞這個(gè)組件還有一些額外的邏輯,。不管工作條件如何,,DAC/ADC封裝器都會(huì)進(jìn)行補(bǔ)償和校準(zhǔn),以獲得精確的8位計(jì)算—類似于今天的圖像傳感器所做的工作,。
模擬矩陣乘法(wikichip)
需要指出的是,,這個(gè)方案沒(méi)有實(shí)際的內(nèi)存訪問(wèn)。矩陣相乘是在內(nèi)存中完成的,,利用歐姆定律,,所以沒(méi)有權(quán)值訪問(wèn)能量。使用固定權(quán)值時(shí),,也沒(méi)有批量大小或其他特殊處理,。雖然固定容量可能會(huì)帶來(lái)一些問(wèn)題。順便說(shuō)一下,,它們支持神經(jīng)元稀疏,,但不支持權(quán)值稀疏性。
有趣的是,,Mythic說(shuō),,對(duì)于他們的第一代,,為了加快開發(fā)和上市時(shí)間,他們不會(huì)使用DAC作為輸入,。相反,,他們使用一個(gè)數(shù)字近似電路,由此分別計(jì)算每個(gè)輸入位,,然后累加結(jié)果,。他們將在將來(lái)用DAC消除這種情況,這有望為他們提供一些很好的改善,。