亚洲国产成人精女人久久久,国产精品丝袜久久久久久igao

一萬(wàn)億晶體管GPU將到來,，臺(tái)積電董事長(zhǎng)撰文解讀

日期： 2024-03-29

來源：半導(dǎo)體行業(yè)觀察

關(guān)鍵詞： 臺(tái)積電萬(wàn)億晶體管

在之前的演講介紹中,，臺(tái)積電曾多次談到了萬(wàn)億晶體管的路線圖,。今天,，在IEEE網(wǎng)站上，發(fā)表了一篇署名為《How We’ll Reach a 1 Trillion Transistor GPU》的文章,，講述了臺(tái)積電是如何達(dá)成萬(wàn)億晶體管芯片的目標(biāo),。

值得一提的是，本文署名作者M(jìn)ARK LIU（劉德音）和H.-S. PHILIP WONG,，其中劉德音是臺(tái)積電董事長(zhǎng),。H.-S Philip Wong則是斯坦福大學(xué)工程學(xué)院教授、臺(tái)積電首席科學(xué)家,。

以下為文章正文：

1997 年,，IBM 深藍(lán)超級(jí)計(jì)算機(jī)擊敗了國(guó)際象棋世界冠軍Garry Kasparov。這是超級(jí)計(jì)算機(jī)技術(shù)的突破性演示,，也是對(duì)高性能計(jì)算有一天可能超越人類智能水平的首次展示,。在接下來的10年里，我們開始將人工智能用于許多實(shí)際任務(wù),，例如面部識(shí)別,、語(yǔ)言翻譯以及推薦電影和商品。

再過十五年,，人工智能已經(jīng)發(fā)展到可以“合成知識(shí)”（synthesize knowledge）的地步,。生成式人工智能，如ChatGPT和Stable Diffusion,，可以創(chuàng)作詩(shī)歌,、創(chuàng)作藝術(shù)品、診斷疾病,、編寫總結(jié)報(bào)告和計(jì)算機(jī)代碼,，甚至可以設(shè)計(jì)與人類制造的集成電路相媲美的集成電路。

人工智能成為所有人類事業(yè)的數(shù)字助手,，面臨著巨大的機(jī)遇,。ChatGPT是人工智能如何使高性能計(jì)算的使用民主化、為社會(huì)中的每個(gè)人帶來好處的一個(gè)很好的例子,。

所有這些奇妙的人工智能應(yīng)用都?xì)w功于三個(gè)因素：高效機(jī)器學(xué)習(xí)算法的創(chuàng)新,、訓(xùn)練神經(jīng)網(wǎng)絡(luò)的大量數(shù)據(jù)的可用性，以及通過半導(dǎo)體技術(shù)的進(jìn)步實(shí)現(xiàn)節(jié)能計(jì)算的進(jìn)步,。盡管它無(wú)處不在,，但對(duì)生成式人工智能革命的最后貢獻(xiàn)卻沒有得到應(yīng)有的認(rèn)可。

在過去的三十年里,，人工智能的重大里程碑都是由當(dāng)時(shí)領(lǐng)先的半導(dǎo)體技術(shù)實(shí)現(xiàn)的,，沒有它就不可能實(shí)現(xiàn)。Deep Blue 采用 0.6 微米和 0.35 微米節(jié)點(diǎn)芯片制造技術(shù)的混合實(shí)現(xiàn),；贏得 ImageNet 競(jìng)賽的深度神經(jīng)網(wǎng)絡(luò)并開啟了當(dāng)前機(jī)器學(xué)習(xí)時(shí)代的設(shè)備使了用 40 納米技術(shù)打造的芯片,；AlphaGo 使用 28 納米技術(shù)征服了圍棋游戲,；ChatGPT 的初始版本是在采用 5 納米技術(shù)構(gòu)建的計(jì)算機(jī)上進(jìn)行訓(xùn)練的。,；ChatGPT 的最新版本由使用更先進(jìn)的4 納米技術(shù)的服務(wù)器提供支持,。所涉及的計(jì)算機(jī)系統(tǒng)的每一層，從軟件和算法到架構(gòu),、電路設(shè)計(jì)和設(shè)備技術(shù),，都充當(dāng)人工智能性能的乘數(shù)。但可以公平地說,，基礎(chǔ)晶體管器件技術(shù)推動(dòng)了上面各層的進(jìn)步,。

如果人工智能革命要以目前的速度繼續(xù)下去，它將需要半導(dǎo)體行業(yè)做出更多貢獻(xiàn),。十年內(nèi),，它將需要一個(gè) 1 萬(wàn)億晶體管的 GPU，也就是說,，GPU 的設(shè)備數(shù)量是當(dāng)今典型設(shè)備數(shù)量的 10 倍,。

AI 模型大小的不斷增長(zhǎng)，讓人工智能訓(xùn)練所需的計(jì)算和內(nèi)存訪問在過去五年中增加了幾個(gè)數(shù)量級(jí),。例如,，訓(xùn)練GPT-3需要相當(dāng)于一整天每秒超過 50 億次的計(jì)算操作（即 5,000 petaflops /天），以及 3 萬(wàn)億字節(jié) (3 TB) 的內(nèi)存容量,。

新的生成式人工智能應(yīng)用程序所需的計(jì)算能力和內(nèi)存訪問都在持續(xù)快速增長(zhǎng),。我們現(xiàn)在需要回答一個(gè)緊迫的問題：半導(dǎo)體技術(shù)如何跟上步伐？

從集成器件到集成小芯片

自集成電路發(fā)明以來,，半導(dǎo)體技術(shù)一直致力于縮小特征尺寸,，以便我們可以將更多晶體管塞進(jìn)縮略圖大小的芯片中。如今,，集成度已經(jīng)上升了一個(gè)層次,；我們正在超越 2D 縮放進(jìn)入3D 系統(tǒng)集成。我們現(xiàn)在正在將許多芯片組合成一個(gè)緊密集成,、大規(guī)模互連的系統(tǒng),。這是半導(dǎo)體技術(shù)集成的范式轉(zhuǎn)變,。

在人工智能時(shí)代，系統(tǒng)的能力與系統(tǒng)中集成的晶體管數(shù)量成正比,。主要限制之一是光刻芯片制造工具被設(shè)計(jì)用于制造不超過約 800 平方毫米的 IC,，即所謂的光罩限制（reticle limit）。但我們現(xiàn)在可以將集成系統(tǒng)的尺寸擴(kuò)展到光刻掩模版極限之外,。通過將多個(gè)芯片連接到更大的中介層（一塊內(nèi)置互連的硅片）上,，我們可以集成一個(gè)系統(tǒng),，該系統(tǒng)包含的設(shè)備數(shù)量比單個(gè)芯片上可能包含的設(shè)備數(shù)量要多得多。例如,，臺(tái)積電的CoWoS（chip-on-wafer-on-substrate ）技術(shù)就可以容納多達(dá)六個(gè)掩模版區(qū)域的計(jì)算芯片,，以及十幾個(gè)高帶寬內(nèi)存（HBM）芯片。

CoWoS是臺(tái)積電的硅晶圓上芯片先進(jìn)封裝技術(shù),，目前已在產(chǎn)品中得到應(yīng)用,。示例包括 Nvidia Ampere 和 Hopper GPU。當(dāng)中每一個(gè)都由一個(gè) GPU 芯片和六個(gè)高帶寬內(nèi)存立方體組成,，全部位于硅中介層上,。計(jì)算 GPU 芯片的尺寸大約是芯片制造工具當(dāng)前允許的尺寸。Ampere有540億個(gè)晶體管,，Hopper有800億個(gè),。從 7 納米技術(shù)到更密集的 4 納米技術(shù)的轉(zhuǎn)變使得在基本相同的面積上封裝的晶體管數(shù)量增加了 50%。Ampere 和 Hopper 是當(dāng)今大型語(yǔ)言模型 ( LLM ) 訓(xùn)練的主力,。訓(xùn)練 ChatGPT 需要數(shù)萬(wàn)個(gè)這樣的處理器,。

HBM 是對(duì) AI 日益重要的另一項(xiàng)關(guān)鍵半導(dǎo)體技術(shù)的一個(gè)例子：通過將芯片堆疊在一起來集成系統(tǒng)的能力，我們?cè)谂_(tái)積電稱之為SoIC (system-on-integrated-chips) ,。HBM 由控制邏輯 IC頂部的一堆垂直互連的 DRAM 芯片組成,。它使用稱為硅通孔 (TSV) 的垂直互連來讓信號(hào)通過每個(gè)芯片和焊料凸點(diǎn)以形成存儲(chǔ)芯片之間的連接。如今,，高性能 GPU廣泛使用 HBM ,。

展望未來，3D SoIC 技術(shù)可以為當(dāng)今的傳統(tǒng) HBM 技術(shù)提供“無(wú)凸塊替代方案”（bumpless alternative）,，在堆疊芯片之間提供更密集的垂直互連,。最近的進(jìn)展表明，HBM 測(cè)試結(jié)構(gòu)采用混合鍵合技術(shù)堆疊了 12 層芯片,，這種銅對(duì)銅連接的密度高于焊料凸塊所能提供的密度,。該存儲(chǔ)系統(tǒng)在低溫下粘合在較大的基礎(chǔ)邏輯芯片之上，總厚度僅為 600 μm,。

對(duì)于由大量運(yùn)行大型人工智能模型的芯片組成的高性能計(jì)算系統(tǒng),，高速有線通信可能會(huì)很快限制計(jì)算速度。如今,，光學(xué)互連已被用于連接數(shù)據(jù)中心的服務(wù)器機(jī)架,。我們很快就會(huì)需要基于硅光子學(xué)的光學(xué)接口，并與 GPU 和 CPU 封裝在一起,。這將允許擴(kuò)大能源效率和面積效率的帶寬,，以實(shí)現(xiàn)直接的光學(xué) GPU 到 GPU 通信，這樣數(shù)百臺(tái)服務(wù)器就可以充當(dāng)具有統(tǒng)一內(nèi)存的單個(gè)巨型 GPU。

由于人工智能應(yīng)用的需求,，硅光子將成為半導(dǎo)體行業(yè)最重要的使能技術(shù)之一,。

邁向萬(wàn)億晶體管 GPU

如前所述，用于 AI 訓(xùn)練的典型 GPU 芯片已經(jīng)達(dá)到了標(biāo)線區(qū)域極限（reticle field limit）,。他們的晶體管數(shù)量約為1000億個(gè),。晶體管數(shù)量增加趨勢(shì)的持續(xù)將需要多個(gè)芯片通過 2.5D 或 3D 集成互連來執(zhí)行計(jì)算。通過 CoWoS 或 SoIC 以及相關(guān)的先進(jìn)封裝技術(shù)集成多個(gè)芯片,，可以使每個(gè)系統(tǒng)的晶體管總數(shù)比壓縮到單個(gè)芯片中的晶體管總數(shù)大得多,。如AMD MI 300A 就是采用這樣的技術(shù)制造的。

AMD MI300A 加速處理器單元不僅利用了CoWoS,，還利用了臺(tái)積電的 3D 技術(shù)SoIC,。MI300A結(jié)合了 GPU 和 CPU內(nèi)核，旨在處理最大的人工智能工作負(fù)載,。GPU為AI執(zhí)行密集的矩陣乘法運(yùn)算,，而CPU控制整個(gè)系統(tǒng)的運(yùn)算，高帶寬存儲(chǔ)器（HBM）統(tǒng)一為兩者服務(wù),。采用 5 納米技術(shù)構(gòu)建的 9 個(gè)計(jì)算芯片堆疊在 4 個(gè) 6 納米技術(shù)基礎(chǔ)芯片之上,，這些芯片專用于緩存和 I/O 流量?；A(chǔ)芯片和 HBM 位于硅中介層之上,。處理器的計(jì)算部分由 1500 億個(gè)晶體管組成。

我們預(yù)測(cè),，十年內(nèi),，多芯片 GPU 將擁有超過 1 萬(wàn)億個(gè)晶體管。

我們需要在 3D 堆棧中將所有這些小芯片連接在一起,，但幸運(yùn)的是,，業(yè)界已經(jīng)能夠快速縮小垂直互連的間距，從而增加連接密度,。而且還有足夠的空間容納更多,。我們認(rèn)為互連密度沒有理由不能增長(zhǎng)一個(gè)數(shù)量級(jí)，甚至更高,。

GPU 的節(jié)能性能趨勢(shì)

那么,，所有這些創(chuàng)新的硬件技術(shù)如何提高系統(tǒng)的性能呢？

如果我們觀察一個(gè)稱為節(jié)能性能的指標(biāo)的穩(wěn)步改進(jìn),，我們就可以看到服務(wù)器 GPU 中已經(jīng)存在的趨勢(shì),。EEP 是系統(tǒng)能源效率和速度（the energy efficiency and speed of a system）的綜合衡量標(biāo)準(zhǔn)。過去 15 年來,，半導(dǎo)體行業(yè)的能效性能每?jī)赡昃吞岣吡巳蹲笥摇Ｎ覀兿嘈胚@一趨勢(shì)將以歷史速度持續(xù)下去。它將受到多方面創(chuàng)新的推動(dòng),，包括新材料,、器件和集成技術(shù)、極紫外（EUV）光刻,、電路設(shè)計(jì),、系統(tǒng)架構(gòu)設(shè)計(jì)以及所有這些技術(shù)元素的共同優(yōu)化等。

特別是,，EEP 的增加將通過我們?cè)诖擞懻摰南冗M(jìn)封裝技術(shù)來實(shí)現(xiàn),。此外，系統(tǒng)技術(shù)協(xié)同優(yōu)化 (STCO：system-technology co-optimization)等概念將變得越來越重要,，其中 GPU 的不同功能部分被分離到各自的小芯片上,，并使用性能最佳和最經(jīng)濟(jì)的技術(shù)來構(gòu)建每個(gè)部分。

3D 集成電路的Mead-Conway時(shí)刻

1978年,，加州理工學(xué)院教授Carver Mead和施樂帕洛阿爾托研究中心的Lynn Conway發(fā)明了集成電路的計(jì)算機(jī)輔助設(shè)計(jì)方法,。他們使用一組設(shè)計(jì)規(guī)則來描述芯片縮放，以便工程師可以輕松設(shè)計(jì)超大規(guī)模集成（VLSI）電路,，而無(wú)需了解太多工藝技術(shù),。

3D 芯片設(shè)計(jì)也需要同樣的功能。如今,，設(shè)計(jì)人員需要了解芯片設(shè)計(jì),、系統(tǒng)架構(gòu)設(shè)計(jì)以及硬件和軟件優(yōu)化。制造商需要了解芯片技術(shù),、3D IC技術(shù)和先進(jìn)封裝技術(shù),。正如我們?cè)?1978 年所做的那樣，我們?cè)俅涡枰环N通用語(yǔ)言,，以電子設(shè)計(jì)工具可以理解的方式描述這些技術(shù),。這種硬件描述語(yǔ)言使設(shè)計(jì)人員可以自由地進(jìn)行 3D IC 系統(tǒng)設(shè)計(jì)，而無(wú)需考慮底層技術(shù),。它正在路上：一種名為3Dblox 的開源標(biāo)準(zhǔn)已被當(dāng)今大多數(shù)技術(shù)公司和電子設(shè)計(jì)自動(dòng)化 (EDA) 公司所接受,。

隧道之外的未來

在人工智能時(shí)代，半導(dǎo)體技術(shù)是人工智能新能力和應(yīng)用的關(guān)鍵推動(dòng)者,。新的 GPU 不再受過去的標(biāo)準(zhǔn)尺寸和外形尺寸的限制,。新的半導(dǎo)體技術(shù)不再局限于在二維平面上縮小下一代晶體管。集成人工智能系統(tǒng)可以由盡可能多的節(jié)能晶體管,、用于專門計(jì)算工作負(fù)載的高效系統(tǒng)架構(gòu)以及軟件和硬件之間的優(yōu)化關(guān)系組成,。

過去 50 年來，半導(dǎo)體技術(shù)的發(fā)展就像走在隧道里一樣,。前面的路很清晰,，因?yàn)橛幸粭l明確的道路。每個(gè)人都知道需要做什么：縮小晶體管。

現(xiàn)在,，我們已經(jīng)到達(dá)隧道的盡頭,。從這里開始，半導(dǎo)體技術(shù)將變得更加難以發(fā)展,。然而,，在隧道之外，還有更多的可能性,。我們不再受過去的束縛,。

雜志訂閱.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息,，并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施,，避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話：010-82306118；郵箱：[email protected],。

一萬(wàn)億晶體管GPU將到來,，臺(tái)積電董事長(zhǎng)撰文解讀

日期： 2024-03-29

來源：半導(dǎo)體行業(yè)觀察

相關(guān)內(nèi)容