當下,,高性能計算(HPC)芯片成為半導體產(chǎn)業(yè)發(fā)展的主要驅(qū)動力,,無論是 IC 設計、晶圓代工,,還是封裝測試企業(yè),正在將越來越多的資源和精力由手機轉(zhuǎn)向 HPC 市場,,特別是人工智能(AI)服務器芯片,。
目前,稱霸 HPC 芯片市場的依然是以英特爾,、英偉達和 AMD 這三巨頭為代表的美國企業(yè),,不過,這些公司的優(yōu)勢主要體現(xiàn)在 IC 設計上,,在芯片制造,,特別是晶圓代工,以及封裝測試方面,,美國企業(yè)在全球范圍內(nèi)沒有優(yōu)勢,。
在 HPC 芯片和系統(tǒng)方面,中國本土相關企業(yè)和產(chǎn)品一直處于追趕狀態(tài),,與國際領先技術和企業(yè)之間有明顯差距,。不過,受多種因素影響,,近幾年,,這種落后的局面正在悄然改變,無論是 IC 設計,,還是晶圓代工,,以及封裝測試,,中國本土企業(yè)的技術和產(chǎn)品力在加速提升。這些給美國 HPC 芯片大廠帶來了挑戰(zhàn),,在美國政策和中國本土產(chǎn)品競爭力提升的雙重壓力下,,這些美國芯片大廠也在想辦法突圍。
制程不夠,,封裝來湊
HPC 芯片對晶圓廠的制程工藝要求很高,,能夠完全提供這種產(chǎn)能的晶圓廠不多,這就是美國積極邀請臺積電和三星在其本土建設 5nm 及以下先進制程晶圓廠的主要原因,。但是,,這樣的產(chǎn)能建設需要時間和技術積累,短期內(nèi)難以形成規(guī)模,,做先進封裝相對容易一些,,而且很實用,因為異構芯片很受市場歡迎,,而先進封裝是實現(xiàn)異構芯片的關鍵一環(huán),,實現(xiàn)起來又比 5nm、3nm 這樣的芯片制造產(chǎn)線要容易,,因此,,無論是美國,還是中國大陸,,都把發(fā)展先進封裝技術和產(chǎn)線看得很重,。
市場對先進封裝有怎樣的需求呢?以 HPC 芯片大廠英偉達和 AMD 為例說明一下,。
業(yè)界估算,,2024 年,英偉達和 AMD 的 AI 芯片出貨量總計有望達到 150 萬個,。據(jù)悉,,AMD 的 MI300A 于今年第一季度開始量產(chǎn)出貨,采用了 Chiplet(小芯片)設計,,其中,,CPU 和 GPU 部分采用臺積電 5nm 制程,I/O 部分采用 6nm,,并通過臺積電全新系統(tǒng)整合芯片封裝(SoIC)和 CoWoS 整合。
與 H100 類似,,英偉達最新產(chǎn)品 H200 依然供不應求,,預計該公司在 2024 年底前還會推出采用臺積電 3nm 制程的 B100 和 GB200 等新產(chǎn)品,估計英偉達今年 AI 芯片出貨總量不會低于 100 萬個,,與 2023 年相比翻倍,。這些 Chiplet 設計產(chǎn)品都需要先進封裝,,臺積電的相關產(chǎn)能已經(jīng)供不應求,這也是 2023 全年高性能 GPU 供不應求的重要原因,,這些 GPU 多采用 CoWoS 封裝技術,,目前,CoWoS 供需缺口不低于 20%,,除了英偉達,,越來越的國際 IC 設計大廠也在持續(xù)增加訂單。預計到 2024 下半年,,臺積電 CoWoS 產(chǎn)能將增加 130%,,加上有更多廠商(日月光 ASE、Amkor,、矽品,、三星和 JCET 等)積極切入 CoWoS 供應鏈,先進封裝市場一片紅火,。
因此,,無論是美國企業(yè)(如英特爾和 Amkor),還是美國政府,,都在大力發(fā)展或扶持先進封裝產(chǎn)線,。
美國 DARPA 推出了一項名為下一代微電子制造(NGMM)的新計劃,主要關注點是 3D 異構集成微系統(tǒng) ( 3DHI ) ,,該計劃認為,,微電子創(chuàng)新的下一個主要浪潮將來自通過先進封裝集成異質(zhì)材料、器件和電路的能力,??梢酝ㄟ^新的封裝和集成技術將內(nèi)存和處理器集成,顯著提高芯片性能,,芯片能夠在不增加更多晶體管的情況下大幅提高速度,。
DARPA 表示該計劃的目標是建立一個 3DHI 制造中心,并可供學術界,、政府和行業(yè)用戶使用,。衡量它成功的標準是能否以合理的成本支持設計、制造,、封裝和測試各種高性能 3DHI 微系統(tǒng),,且支持快節(jié)奏的創(chuàng)新研究。
去年 11 月,,美國政府宣布了國家先進封裝制造計劃愿景 ( NAPMP ) ,,NAPMP 是 4 個 CHIPS for America 研發(fā)計劃之一,政府預計向該計劃投入約 30 億美元,,該計劃的初始資助分配將于 2024 年初公布,。
企業(yè)方面,,美國最大,全球排名第二的封測企業(yè) Amkor 于 2023 年底宣布在亞利桑那州建設一座先進芯片封裝廠,,該項目將專注于高性能計算芯片的封裝和測試,。據(jù)悉,該工廠將在 2~3 年內(nèi)投入生產(chǎn),,并已向美國政府申請 CHIPS 補貼,。該工廠建成后,將與附近的臺積電新建晶圓廠配合,,為蘋果,、AMD、英偉達,、博通等本土大客戶提供先進制程芯片制造和封測服務,。
美國 HPC 芯片大廠遭遇挑戰(zhàn)
除了先進制程制造和封裝產(chǎn)能,美國 HPC 芯片大廠還面臨著銷售渠道不暢通,,以及更多競爭對手的挑戰(zhàn),。
以英偉達為例,中國大陸市場占其銷售額的 20% 左右,,該公司不得不多次改變 GPU 性能規(guī)格,,以滿足美國政府的出口要求。
2022 年 8 月,,美國政府禁止向中國大陸出口英偉達的 A100 和 H100 芯片,,AMD 的 MI250 也被納入限制名單,因為這些芯片的通信帶寬達到了 600GB/s 或更高,。針對中國大陸市場,,英偉達隨后推出了 A800 和 H800 處理器,通信帶寬都明顯低于 600GB/s,。
2023 年 10 月,,美國商務部工業(yè)與安全局(BIS)表示,將使用 " 性能密度 " 作為新參數(shù)對受限芯片進行分類,。根據(jù)新規(guī)定,,英偉達的 A800、H800,、L40,、L40S 和 RTX 4090 相關產(chǎn)品被禁止銷往中國大陸。針對這項規(guī)定,,英偉達又于去年 11 月推出了三款 AI 芯片—— H20,、L20 和 L2,但要到 2024 年第二季度才能量產(chǎn)交付,。
針對 RTX 4090 在中國大陸銷售受限問題,,英偉達開發(fā)出了 RTX 4090 D 顯卡,通過降低部份規(guī)格,,以符合美國出口管制要求,。據(jù)悉,RTX 4090 D 滿足綜合運算性能(TPP)4800 限制,,RTX 4090 的 TPP 是 5286,。
最近,英偉達推出了最新版本的中國特供 GPU 和顯卡 RTX 5880 Ada,,符合 4800 TPP 的限制規(guī)定,。英偉達將 AD102 芯片用于 RTX 6000 Ada 和 RTX 5000 Ada,RTX 5880 Ada 很可能使用相同芯片的變體,。AD102 擁有 18,432 個 CUDA 內(nèi)核,。
不止英偉達,由于受到同樣的出口限制,,英特爾和 AMD 也在向中國大陸市場推出定制化的 GPU 和 CPU 產(chǎn)品,。
2023 年 7 月,英特爾針對中國市場推出了一款定制版的 AI 訓練處理器 Gaudi2,。由于 MI300 系列產(chǎn)品受到美國新規(guī)限制,,AMD 也計劃向中國大陸市場推出特供版的 MI300。
這幾家美國處理器大廠如此熱衷于為中國大陸市場開發(fā)定制版產(chǎn)品,,主要原因是這里的市場巨大,,有足夠的賺錢空間。不過,,隨著近幾年美國限制政策的出臺,,以及中國本土企業(yè)和產(chǎn)品競爭力的提升,英偉達等廠商的技術和產(chǎn)品優(yōu)勢正在縮小,。例如,,英偉達的 H20 在性能和效率上仍比中國本土 AI 芯片具有優(yōu)勢,但這種優(yōu)勢正在縮小,,因為多家中國本土芯片廠商正在快速發(fā)展,。
事實上,一些中國大陸科技公司已經(jīng)轉(zhuǎn)向使用本地芯片,。
由于中國本土 AI 芯片與英偉達特供版產(chǎn)品之間的差距縮小,,進入 2024 年以來,多家中國互聯(lián)網(wǎng)大廠和云服務提供商表示,,今年下訂的英偉達 H20 等產(chǎn)品數(shù)量將遠少于原本想買的,,因為本土相關芯片的用量增加了。
測試結果顯示,,H20 能有效在多個處理器之間高效傳輸數(shù)據(jù),,比中國本土相關芯片更適合 AI 計算應用,,但是,需要更多 H20 才能表現(xiàn)出英偉達常規(guī) GPU 的算力,,這就大幅提高了成本,。相比之下,中國本土最先進的 AI 芯片也能處理 AI 相關應用,,只是處理任務的復雜度低于英偉達的,。知情人士表示,多家中國互聯(lián)網(wǎng)大廠和云服務提供商已經(jīng)把一些 AI 芯片訂單轉(zhuǎn)至本土廠商,。
不止中國市場,,英偉達、英特爾等 HPC 芯片大廠還要面對來自美國本土客戶的競爭,。微軟,、Meta、亞馬遜等云服務提供商為了降低芯片成本,,并使芯片供應鏈多元化,,減少對英偉達的依賴,不僅開始提升采購 AMD 的 MI300 系列產(chǎn)品數(shù)量,,要求 ODM 廠設計專門采用 MI300 系列產(chǎn)品的 AI 服務器,,還紛紛加強自研 HPC 芯片力度,爭取將更多自研芯片用于自家的互聯(lián)網(wǎng)和云計算系統(tǒng),。
這樣看來,,雖然英偉達和 AMD 依然很風光,但受限于先進制程,、封裝產(chǎn)能,,以及來自各級別芯片對手的競爭,這幾家處理器傳統(tǒng)大廠是有隱憂的,,未來的日子不會像現(xiàn)在這么好過,。
中國本土 AI 系統(tǒng)的崛起和不足
中國是電子信息制造和消費大國,對 GPU 和 CPU 需求量巨大,。近年來,,國產(chǎn) GPU 公司,如璧韌科技,、摩爾線程,、芯動科技、天數(shù)智能,、華為等紛紛發(fā)布新品,,且含金量越來越高,??傮w來看,,中國本土 GPU 和 CPU 性能及生態(tài)系統(tǒng)正在逐步完善,。
以華為為例,,該公司自研的 Ascend 910 系列處理器,,特別是其最新版本芯片得到了越來越多中國本土 IT 系統(tǒng)設備和互聯(lián)網(wǎng)大廠的青睞,,訂單量持續(xù)提升,。除了芯片本身,,華為還提供相應的開發(fā)工具包和跨 AI 的云訓練服務,。2023 年 8 月,科大訊飛董事長劉慶峰高度評價了華為開發(fā)的處理器,,將它與英偉達的 A100 進行了比較,,劉慶峰表示,科大訊飛正在與華為合作進行硬件開發(fā),。當然,,不止科大訊飛一家,有幾家中國本土頭部 IT 和互聯(lián)網(wǎng)大廠都在與華為和其它本土 HPC 芯片企業(yè)合作,,開發(fā)高性能計算系統(tǒng),。
經(jīng)過多年的潛心研發(fā)和沉淀,近兩三年,,龍芯迎來了收獲季,。
2023 年底,龍芯正式推出了 3A6000 處理器,。3A6000 依然基于該公司自研的 LoongArch 指令集架構,,工藝制程依舊是 12nm,內(nèi)核升級為 LA664,,也就是 64 位,。3A6000 為 4 核處理器,所以擁有 4 個 LA664 核心,,支持 128 位向量處理擴展指令(LSX)和 256 位高級向量處理擴展指令(LASX),。另外,3A6000 支持同步多線程技術,,也就是超線程技術,。測試數(shù)據(jù)顯示,3A6000 的 SPEC 性能達到了英特爾 10 代酷睿 4 核處理器的水準,。
龍芯還推出了服務器 CPU 芯片 3C6000 和 3D6000,,以及具有較高性價比的桌面級 CPU 芯片 2K3000,可用于上網(wǎng)本,、工控,、迷你主機等。
龍芯也在研發(fā) GPU,于 2023 年底推出了 9A1000,,對標 AMD 的 RX 550 顯卡,,計劃在 2024 年第三季度流片。9A1000 支持科學計算加速和 AI 加速,。
以華為和龍芯為代表的中國本土廠商不斷發(fā)力,,正在將國產(chǎn) GPU 和 CPU 推向新的高度,目前來看,,這些產(chǎn)品可以替換英偉達和英特爾的中國特供版芯片,。
不過,要想跟上國際大廠的最先進 HPC 芯片,,中國本土企業(yè)還有較長的路要走,,攻克其中的技術壁壘依然很難。開發(fā)高性能 GPU 和 CPU 是一項系統(tǒng)工程,,包含硬件架構,、算法、軟件生態(tài)等多個組成部分,,缺一不可,。
另外,HPC 系統(tǒng)設計也很復雜,,芯片只是其中的一個重要組成部分,,復雜系統(tǒng)不是簡單的處理器堆砌,如果體系結構設計,、高速互聯(lián)網(wǎng)絡,、并行文件系統(tǒng)、存儲列陣等不過關,,即使堆再多的 CPU,,整個系統(tǒng)性能也無法提高。
結語
從目前的發(fā)展情況來看,,未來,,美國和中國大陸的 HPC 芯片產(chǎn)業(yè)鏈綜合實力都將增強,美國的 IC 設計能力依然強大,,同時,,其制造、封測能力不斷提升,,同時,,中國大陸的 IC 設計和制造競爭力也會持續(xù)提升,并加快追趕傳統(tǒng)大廠的腳步,。
目前來看,,美國發(fā)展先進芯片制造和封測具有更多優(yōu)勢,,畢竟它們在獲得先進半導體設備,以及在本土建先進制程晶圓廠方面更具話語權和掌控力,。中國大陸在建先進制程晶圓產(chǎn)線方面,,困難較多。在這種情況下,,發(fā)展先進封裝技術和產(chǎn)線就顯得更加重要,。
近幾年,中國投資先進封裝技術的力度越來越大,。由于小芯片和異構集成已經(jīng)成為充分利用較為成熟制程節(jié)點的重要手段,,許多公司正在進入 FOWLP 或 FOPLP 等扇出型封裝業(yè)務,由于能夠?qū)崿F(xiàn)無基板(no-substrate)解決方案,,扇出技術廣受歡迎,。同時,CoWoS 和 3D 封裝技術也成為重點開發(fā)項目,。總體來看,,先進封裝已成為中國本土相關企業(yè)提升未來市場競爭力的戰(zhàn)略手段,。