Google的TPU芯片專門為云端AI應(yīng)用設(shè)計(jì),可謂是為云而生,。而TPU的設(shè)計(jì)過程又越來越多的利用了云的優(yōu)勢,,可謂是生于云中。TPU所帶來的創(chuàng)新,,不僅僅是芯片架構(gòu),,還反映在整個(gè)芯片研發(fā)的思路,方法,,甚至是“文化”,,而后者可能對整個(gè)產(chǎn)業(yè)都會(huì)帶來更為深遠(yuǎn)的影響。
傳統(tǒng)的芯片公司做芯片,,目標(biāo)是規(guī)模量產(chǎn)和銷售,,第一個(gè)風(fēng)險(xiǎn)就是芯片的規(guī)格不能滿足市場需求,做出來也沒用,。有了規(guī)格之后,,我們考慮的最多的就是成本(PPA和研發(fā)成本)和Time to Market,這讓我們在做trade-off的時(shí)候束手束腳,。如果不用擔(dān)心難伺候的客戶,,不用擔(dān)心規(guī)格不對,,而成本和ToM也不是最重要的因素,我們是不是終于可以大展拳腳了呢,?
我們在研發(fā)一款芯片的過程中,,從架構(gòu)設(shè)計(jì)到物理實(shí)現(xiàn),需要很多步驟,,其中的很多工作,,比如仿真驗(yàn)證,需要大量的計(jì)算資源,。而在現(xiàn)實(shí)中,,計(jì)算資源總是有限的,我們要么Delay,,要么放棄對驗(yàn)證質(zhì)量的追求,。如果計(jì)算資源是“無限”的,我們還需要做這種無奈的取舍嗎,?
當(dāng)看到[1]中的如下文字,,我一下就想到了上述兩個(gè)場景,進(jìn)而非常理解Daniel Nenni所形容的在Google做芯片就像“小朋友進(jìn)了糖果屋”的感覺,。
“A friend of mine now works for Google designing chips. Can you imagine what it is like designing chips for a company that does not sell the chips (cost and delivery are not the driving factor) and has a massive cloud at their disposal? To put it bluntly my friend was like a kid in a candy store. He can now design a much better quality chip without having to worry about lengthy simulation and verification runs. To be clear, you can bet Google chip designers get silicon right the first time, absolutely.”
Google TPU我介紹的很多了,,2017年Google公布了第一代TPU的架構(gòu),之后基本是每年更新一代,,可以說迭代速度非常之快,。大家看TPU的論文,都會(huì)感覺它的架構(gòu)和設(shè)計(jì)似乎并不復(fù)雜,,但我相信離開了Google,,沒人能做到類似的成功。因?yàn)門PU的設(shè)計(jì)反映的是Google在Cloud/Data center軟硬件體系上的強(qiáng)大經(jīng)驗(yàn)和實(shí)力,,它放在Google Cloud上就是合適,。我最近的文章討論了Tesla的FSD芯片,它的前提也是這個(gè)芯片就是自己用的,,不用考慮別人的需求,。在這種情況下,我們來對比評價(jià)它的架構(gòu)設(shè)計(jì)就顯得沒什么意義了,。Google不只做TPU,,還有不少芯片項(xiàng)目。Apple早就把自研芯片作為最核心的研發(fā)了,。其它能數(shù)得上的科技巨頭也無一例外的都在自研芯片,,很多現(xiàn)在還不是巨頭的系統(tǒng)公司和應(yīng)用公司也開始自研芯片。這個(gè)趨勢會(huì)給整個(gè)半導(dǎo)體行業(yè)帶來很多變化,,商業(yè)模式,,生態(tài)和產(chǎn)業(yè)鏈,,技術(shù)趨勢,研發(fā)模式,,設(shè)計(jì)方法,,甚至是”文化“。
而芯片研發(fā)模式的變革就引出了本文的第二個(gè)問題:云上的芯片設(shè)計(jì),。還記得在17年我參加阿里云棲大會(huì)的一個(gè)討論,,被問就是關(guān)于在云上用EDA工具做芯片的問題。應(yīng)該說,,當(dāng)時(shí)這種模式不論是在技術(shù)上還是商業(yè)模式上都還在探索階段,。到現(xiàn)在再回看,這個(gè)探索到實(shí)用的過程似乎并不太長,。在今年的DAC(Design Automation Conference,,EDA界的盛會(huì))上,Google和eSilicion有個(gè)聯(lián)合talk,,”Doing EDA in the Cloud ? Yes, it’s possible !“[2],。”We often hear that the EDA industry is not yet ready for the cloud, usually due to objections about the nature of cloud-native technologies. However, the cloud seems like the ideal place to run chip designs: flexible compute resources available on demand, nearly infinite storage, and a pricing structure that avoids costs for idle resources. “可惜我沒有看到具體的材料,。
實(shí)際上,,Google在去年DAC上就做了名為”Google: Moving EDA to the Cloud - a Google-on-Google story“報(bào)告(這個(gè)可以在網(wǎng)上找到)。當(dāng)時(shí)就提到,,在做TPU的過程中很自然的想到了利用云資源的優(yōu)勢,。其實(shí)也不難理解,芯片設(shè)計(jì)中大量的時(shí)間是花在仿真驗(yàn)證上的,,而這些仿真驗(yàn)證又很容易并行執(zhí)行。如果能在一段時(shí)間內(nèi)提供大量運(yùn)算資源,,就可能大大減少總的驗(yàn)證時(shí)間,,或者在有限時(shí)間內(nèi)做更充分的驗(yàn)證。由于這種需求是突發(fā)性的,,一般的芯片設(shè)計(jì)公司不可能自己建立這樣的能力來滿足短暫的峰值需求,。但對Cloud來說,這就不算問題了,。所以才說Google可以在需要的時(shí)候把”無限“的資源投到芯片設(shè)計(jì),,實(shí)現(xiàn)快速迭代(他們的原話是”敏捷開發(fā)“),同時(shí)更容易實(shí)現(xiàn)高質(zhì)量驗(yàn)證并保證一次投片成功,。下圖是Google Could支持芯片驗(yàn)證的架構(gòu),,其中就明確提到了”Unlimited Simulations Running in Parallel“。
當(dāng)然,,Google這么做可以說非常自然,,但對第三方芯片公司來說,,要利用這樣的平臺(tái),還需要考慮很多因素的,,比如數(shù)據(jù)安全的問題,。上述talk中也提到了這個(gè)話題,認(rèn)為安全性本身就是云廠商重點(diǎn)關(guān)注的問題,,它們在安全性上的投入比一般公司大得多,,因此在云上的安全性比本地的安全性更高。芯片項(xiàng)目的數(shù)據(jù)和IP是芯片公司的最核心資產(chǎn),,大家對安全性的關(guān)注當(dāng)然很高,。不過隨著這種模式越來越完善,相信這些障礙都是可以解決的,,剩下的可能真是”文化“的問題了,。”云上做芯片“可以算是芯片研發(fā)模式的重要?jiǎng)?chuàng)新,,沿著這個(gè)思路,,也可以引出很多有趣的話題,有機(jī)會(huì)我們進(jìn)一步討論吧,。
最后,,在Daniel的文章中,他提出了一個(gè)很有意思的問題,,大家可以也思考一下,。
“For new chip design companies the cloud is an easy decision. For the older fabless companies that have years and years of non-cloud culture and non-cloud infrastructure it is a very difficult change. The question I have is how are they going to compete with the natural born cloud chip designers?”