本文作者: 杜芹DQ
本文來(lái)源: 半導(dǎo)體行業(yè)觀察
原文鏈接:https://mp.weixin.qq.com/s/1mtrHzIqslsscxP0ShcQlA
在整個(gè)計(jì)算機(jī)發(fā)展歷史中,,我們不得不學(xué)習(xí)計(jì)算機(jī)語(yǔ)言,但隨著人工智能時(shí)代的來(lái)到,,計(jì)算機(jī)也將學(xué)會(huì)我們的語(yǔ)言,,與人類(lèi)進(jìn)行交流,ChatGPT生成式人工智能的爆火更是將人機(jī)交互提升到了新的高度,。這種變革也許就如同當(dāng)時(shí)互聯(lián)網(wǎng)的到來(lái)一樣重要,。作為底層支撐的芯片,正成為計(jì)算機(jī)學(xué)習(xí)人類(lèi)語(yǔ)言的關(guān)鍵,。
“春江水暖鴨先知”,,圍繞生成式AI,芯片三大巨頭英偉達(dá),,AMD和英特爾無(wú)不在快馬加鞭的進(jìn)行部署,迎接新拐點(diǎn)的到來(lái),。隨著昨天英特爾祭出高性價(jià)比的“中國(guó)特定版”Gaudi 2新產(chǎn)品,,三大芯片巨頭英特爾、英偉達(dá)和AMD已經(jīng)都在生成式AI領(lǐng)域擁有了各自強(qiáng)有力的“武器”,,生成式AI領(lǐng)域即將迎來(lái)一番鏖戰(zhàn),!
英偉達(dá),瘋狂押注生成式AI初創(chuàng)公司
英偉達(dá)無(wú)疑是生成式AI領(lǐng)域最大的贏家,,憑借在生成式AI領(lǐng)域“一芯難求”的A100芯片,,英偉達(dá)已經(jīng)賺的盆滿缽滿,市值更是飆到1萬(wàn)億美元,,短暫的與科技巨頭肩并肩,。相信大家都對(duì)最近英偉達(dá)的“瘋狂投資”頗為關(guān)注,英偉達(dá)一連投資了Inflection AI、RunwayML,、Cohere等好幾家初創(chuàng)公司,,而這些投資對(duì)象無(wú)不與生成式AI相關(guān)。
隨著越來(lái)越多的大模型初創(chuàng)公司的興起,,英偉達(dá)正在在成百上千的生成式人工智能競(jìng)賽中選“馬”,,向初創(chuàng)公司投入更大的賭注。根據(jù)PitchBook的數(shù)據(jù),,英偉達(dá)自2018年以來(lái)參與的五筆最大的風(fēng)險(xiǎn)投資交易都發(fā)生在今年,,確切的說(shuō)是在過(guò)去六個(gè)月內(nèi),足見(jiàn)英偉達(dá)對(duì)人工智能的看好,。被老黃選中的這些生成式AI初創(chuàng)企業(yè)的估值正在不斷飆升,,老黃似要再賺一波。
Inflection AI成立于2022年,,由Google DeepMind聯(lián)合創(chuàng)始人Mustafa Suleyman和LinkedIn聯(lián)合創(chuàng)始人 Reid Hoffman創(chuàng)立,,該公司正在使用英偉達(dá)的芯片部署大規(guī)模的生成式人工智能模型,構(gòu)建面向消費(fèi)者的AI產(chǎn)品,,被認(rèn)為是OpenAI的頂級(jí)競(jìng)爭(zhēng)對(duì)手,。在Inflection AI的最新一輪輪融資中,除了英偉達(dá),,Inflection AI的投資者名單中還有微軟聯(lián)合創(chuàng)始人比爾蓋茨,、谷歌前首席執(zhí)行官 Eric Schmidt。目前Inflection AI的估值據(jù)說(shuō)已達(dá)到40億美元,。
Inflection AI將構(gòu)建一個(gè)由大約22,000個(gè)英偉達(dá)H100芯片組成的超級(jí)計(jì)算機(jī),,這大約是用于訓(xùn)練所有GPT4的計(jì)算量的三倍。他們已經(jīng)發(fā)布了一個(gè)名為Pi的聊天機(jī)器人(Pi代表“personal intelligence,,個(gè)人智慧”),,與ChatGPT類(lèi)似,可提供“文本和語(yǔ)音對(duì)話,、友好的建議以及自然流暢的簡(jiǎn)潔信息”,。
出于好奇心,小編嘗試著與其對(duì)話,,“你與ChaGPT誰(shuí)更厲害,?”他的回答是“我不會(huì)回答這個(gè)問(wèn)題——那只是自找麻煩。我專(zhuān)注于成為一個(gè)友好,、支持性的人工智能,,為人們提供各種幫助。ChatGPT做了一些令人驚奇的事情,,但我并不想與它競(jìng)爭(zhēng),。我正在努力做我自己的事!”這個(gè)回答確實(shí)有點(diǎn)絲滑,他不僅能發(fā)出跟真人口語(yǔ)一般的語(yǔ)音(4種可選),,甚至還能發(fā)表情包,。
英偉達(dá)投資的另一家初創(chuàng)公司Runway是一家AI視頻軟件公司,成立于2018年,,該公司一直處于人工智能與創(chuàng)造力相結(jié)合的前沿,。今年他們利用計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)方面的最新進(jìn)展發(fā)布了Gen1和Gen2兩代視頻生成模型,其中Gene1還需要提供原源頻,,而Gen2僅需要幾個(gè)單詞就能生成短視頻,。目前早期的生成式AI大都是集中在“文生文”和“文生圖”等方面,但是Runway這家初創(chuàng)公司做的是文生視頻,,這算是一個(gè)無(wú)人區(qū),。據(jù)悉,Gen-2生成視頻每秒的成本為0.05美元,。如此看來(lái),,生成式視頻的潛力也巨大。
2023年6月,,Runway從谷歌和英偉達(dá)那里募集了1.41億美元的投資,,目前其估值已飆升至15億美元,比去年12月增長(zhǎng)了3倍,。英偉達(dá)首席執(zhí)行官黃仁勛表示,,生成式 AI 正在改變內(nèi)容創(chuàng)作行業(yè),Runway的技術(shù)為難以想象的故事和想法注入了新的生命,。
Cohere是一家總部位于加拿大,,專(zhuān)注于企業(yè)的生成人工智能初創(chuàng)公司,該公司由谷歌前頂級(jí)人工智能研究人員創(chuàng)立,。Cohere生產(chǎn)的人工智能工具可以為文案寫(xiě)作,、搜索和摘要提供支持,專(zhuān)注在企業(yè)領(lǐng)域,,也是為了將自己與OpenAI區(qū)別開(kāi)來(lái),,避免競(jìng)爭(zhēng)的一種表現(xiàn)。2023年6月8日,,其在一輪融資中籌集了2.7億美元,投資者中包括英偉達(dá)和甲骨文等,。最新一輪的融資使其估值達(dá)到22億美元左右,。
可以看出,英偉達(dá)在生成式人工智能競(jìng)賽當(dāng)中,,選中了不同細(xì)分應(yīng)用的“戰(zhàn)馬”,,押寶也算押的全面。
而除了投資押注之外,英偉達(dá)還在為其自身的AI發(fā)展鞏固護(hù)城河,。
2023年2月份,,英偉達(dá)秘密收購(gòu)了一家初創(chuàng)公司OmniML,官網(wǎng)資料顯示,,OmniML成立于2021年,,總部位于加利福尼亞州,OmniML由麻省理工學(xué)院EECS教授,、原深鑒科技聯(lián)合創(chuàng)始人韓松博士,、前Facebook工程師吳迪博士和斯坦福大學(xué)“深度壓縮”技術(shù)聯(lián)合發(fā)明人毛慧子博士創(chuàng)立。
據(jù)悉,,OmniML是一家專(zhuān)門(mén)致力于縮小ML(機(jī)器學(xué)習(xí))模型的公司,,以便將大模型移動(dòng)到無(wú)人機(jī)、智能相機(jī)和汽車(chē)等等邊緣設(shè)備當(dāng)中去,。去年,,OmniML公司推出了一個(gè)名為Omnimizer的平臺(tái),這是一個(gè)能使人工智能快速,、輕松地進(jìn)行大規(guī)模優(yōu)化的平臺(tái),。除此之外,該平臺(tái)還優(yōu)化了模型,,使其甚至能夠在功耗最低的設(shè)備上運(yùn)行,。而在被英偉達(dá)收購(gòu)之前,2022年3月,,OmniML獲得了GSR Ventures,、Foothill Ventures以及高通風(fēng)投領(lǐng)投的1000萬(wàn)美元的種子輪資金。
至于為何要收購(gòu)這家初創(chuàng)公司,,從英偉達(dá)的邊緣AI布局也不難理解,。雖然英偉達(dá)憑借其GPU在數(shù)據(jù)中心AI訓(xùn)練市場(chǎng)占據(jù)主導(dǎo)地位,但是邊緣也是一塊很大的市場(chǎng),,英偉達(dá)也有意要爭(zhēng)一爭(zhēng),。目前英偉達(dá)主要有三大邊緣產(chǎn)品,分別是用于企業(yè)邊緣計(jì)算的NVIDIA EGX平臺(tái),、用于工業(yè)應(yīng)用的IGX平臺(tái)以及用于自主機(jī)器和嵌入式邊緣用例的 Jetson,。而通過(guò)收購(gòu)OmniML,將OmniML技術(shù)集成到其邊緣產(chǎn)品中,,英偉達(dá)可以優(yōu)化模型,,以便在低端硬件上進(jìn)行高效部署??紤]到如果將大模型轉(zhuǎn)移到邊緣,,未來(lái)可能帶來(lái)巨大的價(jià)值,,英偉達(dá)收購(gòu)這家尚處于起步階段的公司也就不足為奇了。而此舉無(wú)疑將進(jìn)一步增強(qiáng)英偉達(dá)全面的邊緣AI戰(zhàn)略,,也將鞏固其在AI市場(chǎng)的領(lǐng)導(dǎo)地位,。
搶奪英偉達(dá)市場(chǎng),AMD先行一步
而另一邊的AMD早已按捺不住,,先是在去年6月份,,AMD推出CPU+GPU架構(gòu)的Instinct MI300正式進(jìn)軍AI訓(xùn)練端。緊接著在今年6月的AMD發(fā)布會(huì)上,,祭出AI大模型“專(zhuān)用武器”GPU MI300X,,它配備192GB HBM內(nèi)存,與英偉達(dá)的H100相比,,MI300X提供了2.4倍的內(nèi)存和1.6倍的內(nèi)存帶寬,,這將成為AMD的一大優(yōu)勢(shì),因?yàn)閮?nèi)存容量是當(dāng)下AI大模型的限制因素,,192GB的MI300X也讓運(yùn)行更大的模型成為可能,。
MI300X是AMD特意針對(duì)大語(yǔ)言模型優(yōu)化的版本,它是MI300產(chǎn)品的「純GPU」版本,,擁有12個(gè)5nm的小芯片,,晶體管數(shù)量達(dá)到了1530億個(gè),是AMD Chiplet技術(shù)應(yīng)用的又一杰作,。據(jù)AMD CEO Lisa Su的介紹,,單個(gè)MI300X可以在內(nèi)存中運(yùn)行多達(dá)大約800億個(gè)參數(shù)的模型,這意味著減少了所需的GPU數(shù)量,,而且使用多個(gè)MI300X疊加可以處理更多的參數(shù),。
MI300X看起來(lái)是一個(gè)強(qiáng)有力的競(jìng)爭(zhēng)者。不過(guò),,MI300X的高密度HBM卻是燒錢(qián)神器,,與NVIDIA H100相比,AMD可能不會(huì)具有顯著的成本優(yōu)勢(shì),。據(jù)悉,,MI300X將在第三季度出樣,第四季度加大生產(chǎn),。屆時(shí)我們可以看看實(shí)際的情況,。
AMD與英偉達(dá)在GPU領(lǐng)域的競(jìng)爭(zhēng)由來(lái)已久,早在2006年,,AMD收購(gòu)加拿大公司ATI獲得了圖形處理技術(shù),,這是AMD最重要的一筆收購(gòu),自此開(kāi)啟了與英偉達(dá)在GPU領(lǐng)域的長(zhǎng)久戰(zhàn),。2022年AMD又收購(gòu)了DPU芯片廠商Pensando,,這些都成為AMD面對(duì)生成式AI巨大的市場(chǎng)需求下,能繼續(xù)與英偉達(dá)抗衡的背后引擎,。
要知道,,英偉達(dá)除了GPU芯片之外,DPU芯片也在生成式AI領(lǐng)域發(fā)揮著重要作用,。當(dāng)GPU數(shù)量擴(kuò)展到成千上萬(wàn)時(shí),,性能不再僅依賴于單一CPU,也不再僅依賴于單一服務(wù)器,,而是更加依賴于網(wǎng)絡(luò)的性能,。“網(wǎng)絡(luò)已經(jīng)成為生成式AI或AI工廠中的計(jì)算單元,,就像InfiniBand的DPU不僅僅負(fù)責(zé)通信,,也是計(jì)算單元的一部分。因此,,我們不僅要考量CPU和GPU提供的計(jì)算能力,,還需要將網(wǎng)絡(luò)的計(jì)算能力納入考慮范圍?!庇ミ_(dá)網(wǎng)絡(luò)亞太區(qū)高級(jí)總監(jiān)宋慶春在此前的一次交流會(huì)中指出,。
英特爾拿什么打生成式AI市場(chǎng)?
對(duì)于如此火爆的生成式AI領(lǐng)域,,英特爾自然也想分一杯羹,。英特爾在個(gè)人電腦市場(chǎng)的搖錢(qián)樹(shù)正在被逐漸侵蝕,他們?cè)缇涂粗辛藬?shù)據(jù)中心以及AI的市場(chǎng),。但在生成式AI領(lǐng)域,,不同于英偉達(dá)和AMD的做法,英特爾似乎不是靠GPU來(lái)打,。英特爾雖然也發(fā)布了GPU產(chǎn)品,,不過(guò)其GPU似乎暫時(shí)志不在此,而是更加注重其GPU在科學(xué)計(jì)算領(lǐng)域的優(yōu)勢(shì),。前段時(shí)間,,英特爾宣布配備了其Max系列CPU和GPU的Aurora超級(jí)計(jì)算機(jī)已經(jīng)安裝完成,其中包含了63744個(gè)Ponte Vecchio 計(jì)算GPU,,這算是英特爾Max系列GPU的首次大規(guī)模部署,。
而且英特爾暫時(shí)放棄了CPU+GPU Falcon Shores“XPU”組合產(chǎn)品,轉(zhuǎn)而采用純GPU Falcon Shores,。這使得英特爾無(wú)法與AMD的 Instinct MI300和Nvidia的Grace Hopper處理器競(jìng)爭(zhēng),,后兩者均采用混合處理器。延伸閱讀:關(guān)于芯片三巨頭的XPU之間的競(jìng)爭(zhēng),,筆者曾在《英偉達(dá),,落后了,?》一文中進(jìn)行過(guò)描述。英特爾的這一轉(zhuǎn)變是由于生成式AI大模型的爆發(fā)而做出的調(diào)整,,英特爾認(rèn)為,,生成式AI市場(chǎng)大部分是來(lái)自商業(yè)領(lǐng)域,所以原來(lái)的XPU策略一方面市場(chǎng)不如標(biāo)準(zhǔn)化芯片市場(chǎng)大,,成本會(huì)太高,,而且標(biāo)準(zhǔn)化芯片不一定會(huì)受到客戶的青睞,這引發(fā)了英特爾如何構(gòu)建下一代超級(jí)計(jì)算芯片的思維轉(zhuǎn)變,。不過(guò),,英特爾的Falcon Shores改用純GPU,不知道是否也會(huì)像AMD的MI300X一樣做出針對(duì)大模型應(yīng)用產(chǎn)品,。
無(wú)論如何,,在當(dāng)下這是緊迫的時(shí)間節(jié)點(diǎn)下,英特爾用來(lái)打生成式AI市場(chǎng)的主要產(chǎn)品是其AI芯片——Gaudi 2,。
談到Gaudi 2,,就不得不從一段收購(gòu)歷史說(shuō)起。為了進(jìn)軍深度學(xué)習(xí)市場(chǎng),,早在2016年8月,,英特爾就花費(fèi)4億美元收購(gòu)了Nervana Systems,當(dāng)時(shí)的想法是,,通過(guò)開(kāi)發(fā)專(zhuān)門(mén)用于深度學(xué)習(xí)的ASIC,,它可以獲得與英偉達(dá)競(jìng)爭(zhēng)的優(yōu)勢(shì)。不過(guò)2019年12月,,英特爾又斥資20億美元收購(gòu)了芯片功能更強(qiáng)的Habana Labs之后,,英特爾也在2020年放棄了Nervana神經(jīng)網(wǎng)絡(luò)處理器(NNP)的研發(fā),轉(zhuǎn)而集中精力開(kāi)發(fā)Habana AI產(chǎn)品線,。
而Nervana被放棄之后,,原Nervana創(chuàng)始人Naveen Rao和Nervana的前核心員工Hanlin Tang離開(kāi)了英特爾,另立門(mén)戶于2021年創(chuàng)立了一家生成式AI初創(chuàng)公司MosaicML,,他們專(zhuān)注于企業(yè)生成式AI的需求,,具體而言,MosaicML提供了一個(gè)平臺(tái),,讓各類(lèi)型企業(yè)都可以輕松地在安全的環(huán)境中訓(xùn)練和部署AI模型,。而就在2023年6月28日,MosaicML被大數(shù)據(jù)巨頭Databricks以13億美元收購(gòu),,這可以說(shuō)是今年以來(lái)生成式AI領(lǐng)域內(nèi)公布的最大一筆收購(gòu)案,。
言歸正傳,繼續(xù)說(shuō)回英特爾,,被英特爾收購(gòu)后,,Habana一共發(fā)布了2款A(yù)I芯片,,分別是第一代Gaudi 和Gaudi 2。Gaudi平臺(tái)從一開(kāi)始就為數(shù)據(jù)中心的深度學(xué)習(xí)訓(xùn)練和推理工作負(fù)載而構(gòu)建的AI加速器,。其中Gaudi 2于2022年推出,,相比第一代,Gaudi 2在性能和內(nèi)存方面的提升,,使其成為市場(chǎng)上能夠橫向擴(kuò)展AI訓(xùn)練的一大解決方案。
尤為值得一提的是,,就在日前,,英特爾特意為中國(guó)市場(chǎng)推出了專(zhuān)為訓(xùn)練大語(yǔ)言模型而構(gòu)建的最新Gaudi 2新產(chǎn)品——HL-225B夾層卡。HL-225B處理器符合美國(guó)工業(yè)與安全局 (Bureau of Industry and Security, BIS)發(fā)布的有關(guān)出口規(guī)定,。Gaudi2夾層卡符合OCP OAM 1.1(開(kāi)放計(jì)算平臺(tái)之開(kāi)放加速器模塊)規(guī)范,。這樣一來(lái),客戶便可從符合規(guī)范的多種產(chǎn)品中做出選擇,,靈活地進(jìn)行系統(tǒng)設(shè)計(jì),。
Gaudi 2處理器采用7nm,作為對(duì)比,,第一代Gaudi處理器采用16nm工藝,。Gaudi 2具備出色的2.1 Tbps網(wǎng)絡(luò)容量可擴(kuò)展性,原生集成21個(gè)100 Gbps ROCE v2 RDMA端口,,可通過(guò)直接路由實(shí)現(xiàn)Gaudi處理器間通信,。Gaudi2處理器還集成了專(zhuān)用媒體處理器,用于圖像和視頻解碼及預(yù)處理,。
HL-225B夾層卡采用的是Gaudi HL-2080處理器,,HL-2080處理器擁有24個(gè)完全可編程的第四代張量處理器核心(TPC)。這些核心原生設(shè)計(jì)能夠?yàn)閺V泛的深度學(xué)習(xí)工作負(fù)載加速,,同時(shí)還賦予用戶按需進(jìn)行優(yōu)化和創(chuàng)新的靈活性,。此外,它還集成了96 GB HBM2e內(nèi)存和48MB SRAM,,支持600瓦夾層卡級(jí)熱設(shè)計(jì)功耗(TDP),。
Gaudi 2是為數(shù)不多的能替代英偉達(dá)H100進(jìn)行LLM訓(xùn)練的方案。最近英特爾公布了Gaudi 2在GPT-3(1750億個(gè)參數(shù))基本模型的LLM訓(xùn)練基準(zhǔn)的性能結(jié)果,。MLPerf結(jié)果顯示:
Gaudi 2在GPT-3上的訓(xùn)練時(shí)間情況是在384個(gè)加速器上花費(fèi)了311分鐘,,作為對(duì)比,英偉達(dá)和云提供商CoreWeave合作運(yùn)行的3584 GPU計(jì)算機(jī)在不到 11 分鐘內(nèi)完成了這項(xiàng)任務(wù),,如下圖所示,。以每個(gè)芯片為基礎(chǔ),英偉達(dá)H100系統(tǒng)的任務(wù)速度是Gaudi2的3.6倍,。但是Gaudi 2的優(yōu)勢(shì)在于其成本要比H100低,,而且能跑大模型,。
Gaudi 2在GPT-3模型上從256個(gè)加速器到384個(gè)加速器實(shí)現(xiàn)了近線性95%擴(kuò)展;而且它在計(jì)算機(jī)視覺(jué)(ResNet-50 8 加速器和Unet3D 8加速器)以及自然語(yǔ)言處理模型(BERT 8 和 64 加速器)方面均取得了出色的訓(xùn)練結(jié)果,;與11月提交的內(nèi)容相比,,Gaudi 2 在BERT和ResNet模型的性能分別提高了10%和4%,代表軟件成熟度在提高,。
英特爾聲稱目前在FP16軟件中Gaudi 2比英偉達(dá)A100價(jià)格更有競(jìng)爭(zhēng)力,,且性能更高,其每瓦性能約為英偉達(dá)A100的2倍,。而且要計(jì)劃在今年9月份在FP8軟件中顯著縮短訓(xùn)練完成時(shí)間,,在性價(jià)比上打敗英偉達(dá)的H100。
除了Gaudi 2,,英特爾的另一款可以跑大模型的產(chǎn)品是第四代至強(qiáng)CPU,。不過(guò)CPU的應(yīng)用空間相對(duì)有局限性,英特爾的CPU只適用于少數(shù)從頭開(kāi)始間歇性訓(xùn)練大型模型的客戶,,并且通常在他們已經(jīng)部署來(lái)運(yùn)行業(yè)務(wù)的基于Intel的服務(wù)器上使用,。所以CPU不算是英特爾用來(lái)主打生成式AI市場(chǎng)的產(chǎn)品,可以算作是一個(gè)補(bǔ)充方案,。
結(jié)語(yǔ)
對(duì)于比“毒品”還難買(mǎi)到的英偉達(dá)GPU而言,,英特爾Gaudi 2和AMD MI300X將成為Nvidia H100的有利替代品,不過(guò)英偉達(dá)留出的時(shí)間窗口可不大,,據(jù)悉,,英偉達(dá)的H100 GPU直到明年一季度仍處于售罄的狀態(tài),與此同時(shí),,英偉達(dá)正在不斷增加H100 GPU的出貨量,,還訂購(gòu)了大量用于H100 GPU的晶圓。
無(wú)論如何,,目前在生成式AI市場(chǎng),,還是芯片巨頭的天下。國(guó)內(nèi)的GPU芯片企業(yè)或者SoC企業(yè)都需要加把勁了,。
更多精彩內(nèi)容歡迎點(diǎn)擊==>>電子技術(shù)應(yīng)用-AET<<