《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > Sora一旦推出,,峰值算力需要75萬張H100GPU

Sora一旦推出,峰值算力需要75萬張H100GPU

2024-03-28
來源:鳳凰網(wǎng)科技
關(guān)鍵詞: Sora H100 GPU 人工智能

Sora何時(shí)推出,?大約在年底,。它非常受歡迎,一旦投入使用,,不僅會(huì)對(duì)影視行業(yè)造成沖擊,,而且會(huì)在視頻網(wǎng)站、社交媒體,、電商平臺(tái),,以及教育等領(lǐng)域得到廣泛應(yīng)用。它的物理世界模擬器的作用,,以及“世界模型”的潛力也非常巨大,。

問題來了,它需要多大算力,?

風(fēng)險(xiǎn)投資機(jī)構(gòu)Factorial Funds的Matthias Plappert,,最近對(duì)Sora模型進(jìn)行了剖析。他們推算的主要依據(jù),,是論文Scalable Diffusion Models with Transformers 中的數(shù)據(jù),。Sora模型在一定程度上是基于論文中所提出的、基于Transformer的架構(gòu)的DiT (Diffusion Transformers),。論文的第一作者William Peebles目前在OpenAI負(fù)責(zé)Sora研究團(tuán)隊(duì),。

作者假設(shè)Sora推出后,將在Tiktok和Youtube上得到廣泛的應(yīng)用,,推算出需要的算力相當(dāng)于72萬張英偉達(dá)H100 GPU,。對(duì)比一下,目前Meta擁有的總算力,,相當(dāng)于65萬張H100,。

下面我們介紹下其中關(guān)于訓(xùn)練與推理的部分:

從DiT到Sora訓(xùn)練計(jì)算量的外推

關(guān)于Sora的細(xì)節(jié)信息非常少,但我們可以再次查看顯然是Sora基礎(chǔ)的DiT論文,,并從中推斷出相關(guān)的計(jì)算數(shù)字,。最大的DiT模型DiT-XL有6.75億個(gè)參數(shù),總計(jì)算預(yù)算約為10^21次浮點(diǎn)運(yùn)算,。為了更容易理解這個(gè)數(shù)字,,這相當(dāng)于大約0.4個(gè)Nvidia H100 GPU運(yùn)行一個(gè)月(或一個(gè)H100運(yùn)行12天),。

但是目前DiT僅對(duì)圖像建模,而Sora是一個(gè)視頻模型,。Sora可以生成長(zhǎng)達(dá)1分鐘的視頻,。如果我們假設(shè)視頻以24幀/秒編碼,一個(gè)視頻最多包含1440幀,。Sora的像素到潛在映射似乎在空間和時(shí)間上都有壓縮,。如果我們假設(shè)與DiT論文中相同的壓縮率(8倍),我們最終在潛在空間中得到180幀,。因此,,在直觀地將DiT外推到視頻時(shí),我們得到了180倍的計(jì)算量倍增因子,。

我們進(jìn)一步認(rèn)為,,Sora的參數(shù)量明顯大于6.75億個(gè)。我們估計(jì)200億參數(shù)的模型是可行的,,這使我們?cè)谟?jì)算量上比DiT再多出30倍,。

最后,我們認(rèn)為Sora使用的訓(xùn)練數(shù)據(jù)集比DiT大得多,。DiT在批量大小為256時(shí)經(jīng)過300萬步訓(xùn)練,,即總計(jì)使用了7.68億張圖像(但要注意同一數(shù)據(jù)被重復(fù)使用了多次,因?yàn)镮mageNet僅包含1400萬張圖像),。Sora似乎是在圖像和視頻的混合數(shù)據(jù)集上進(jìn)行訓(xùn)練的,但除此之外我們幾乎一無所知,。因此,,我們簡(jiǎn)單假設(shè)Sora的數(shù)據(jù)集中有50%是靜止圖像,50%是視頻,,并且數(shù)據(jù)集比DiT使用的大10到100倍,。然而,DiT在相同的數(shù)據(jù)點(diǎn)上反復(fù)訓(xùn)練,,如果有更大的數(shù)據(jù)集可用,,這種做法可能是次優(yōu)的。因此,,我們認(rèn)為4到10倍的計(jì)算量倍增因子是一個(gè)更合理的假設(shè),。

將上述因素綜合考慮,并分別計(jì)算額外數(shù)據(jù)集的低估計(jì)和高估計(jì),我們得到以下計(jì)算結(jié)果:

* 數(shù)據(jù)集低估計(jì): 10^21次浮點(diǎn)運(yùn)算 x 30 x 4 x (180/2) ≈ 1.1x10^25次浮點(diǎn)運(yùn)算

* 數(shù)據(jù)集高估計(jì): 10^21次浮點(diǎn)運(yùn)算 x 30 x 10 x (180/2) ≈ 2.7x10^25次浮點(diǎn)運(yùn)算

這相當(dāng)于4,211至10,528個(gè)Nvidia H100 GPU運(yùn)行1個(gè)月的計(jì)算量。

推理計(jì)算與訓(xùn)練計(jì)算的比較

另一個(gè)值得考慮的重要因素,,是訓(xùn)練計(jì)算與推理計(jì)算之間的對(duì)比。訓(xùn)練計(jì)算量非常大,,但這是一次性的成本,。相比之下,,推理計(jì)算量雖然小得多,但每一次生成都意味著一次推理計(jì)算,。因此,,推理計(jì)算量會(huì)隨著用戶數(shù)量的增加而擴(kuò)大,并變得越來越重要,,特別是當(dāng)一個(gè)模型被廣泛使用時(shí),。

因此,觀察“收支平衡點(diǎn)”是很有用的,,即消耗在推理計(jì)算上的計(jì)算量,,超過了訓(xùn)練期間消耗的計(jì)算量的時(shí)間點(diǎn)。

1.png

(左圖對(duì)比DiT的訓(xùn)練與推理計(jì)算,右圖對(duì)比Sora的訓(xùn)練與推理計(jì)算,。對(duì)于Sora部分,我們的數(shù)據(jù)基于上文估計(jì),因此不是完全可靠,。我們還展示了兩種訓(xùn)練計(jì)算的估計(jì):一種低估計(jì)(假設(shè)數(shù)據(jù)集大小的倍增因子為4倍)和一種高估計(jì)(假設(shè)為10倍)。)

在上述數(shù)字中,,我們?cè)俅卫肈iT來推算Sora,。對(duì)于DiT,最大的模型(DiT-XL)每步使用524×10^9次浮點(diǎn)運(yùn)算,,DiT使用250步擴(kuò)散生成單張圖像,,因此總計(jì)為131×10^12次浮點(diǎn)運(yùn)算。我們可以看到,,收支平衡點(diǎn)在生成760萬張圖像后達(dá)到,,此后推理計(jì)算將占主導(dǎo)。作為參考,,用戶每天大約上傳9500萬張圖像到Instagram,。

對(duì)于Sora,,我們將浮點(diǎn)運(yùn)算次數(shù)外推為524×10^9次 × 30 × 180 ≈ 2.8×10^15次,。如果我們?nèi)匀患僭O(shè)每段視頻需250步擴(kuò)散,那就是每段視頻總計(jì)708×10^15次浮點(diǎn)運(yùn)算,。作為參考,這大約相當(dāng)于每小時(shí)每個(gè)Nvidia H100生成5分鐘視頻,。

收支平衡點(diǎn)在生成1530萬(低估計(jì))到3810萬(高估計(jì))分鐘視頻后達(dá)到,之后推理計(jì)算將超過訓(xùn)練計(jì)算,。作為參考,每天約有4300萬分鐘視頻上傳到Y(jié)ouTube,。

需要注意的是:對(duì)于推理來說,,浮點(diǎn)運(yùn)算次數(shù)并不是唯一重要的因素,。內(nèi)存帶寬也是另一個(gè)重要因素,。此外,,現(xiàn)有研究正致力于減少所需的擴(kuò)散步數(shù),這可能導(dǎo)致推理計(jì)算量大幅降低,,因此推理速度會(huì)更快,。訓(xùn)練和推理階段的浮點(diǎn)運(yùn)算利用率也可能有所不同,在這種情況下,,它們就變得很重要了。

不同模型之間的推理計(jì)算量比較

我們還觀察了不同模態(tài)下不同模型的每單位輸出推理計(jì)算量,。這里的想法是,,看看不同類型模型的推理計(jì)算量級(jí)別有多大差異,這對(duì)于規(guī)劃和預(yù)測(cè)計(jì)算需求有直接影響,。重要的是,,我們要理解,由于不同模型工作于不同的模態(tài),,每個(gè)模型的輸出單位也不盡相同:對(duì)于Sora,,單個(gè)輸出是一段1分鐘長(zhǎng)的視頻;對(duì)于DiT,,是一張512x512像素的圖像,;而對(duì)于Llama 2和GPT-4,我們將單個(gè)輸出定義為一份長(zhǎng)度為1000個(gè)token的文本文檔,。

2.png

(比較不同模型每單位輸出的推理計(jì)算量,對(duì)于Sora是1分鐘視頻,對(duì)于GPT-4和LLama 2是1000個(gè)token的文本,對(duì)于DiT是單張512x512像素的圖像,。我們可以看到,我們對(duì)Sora推理的估計(jì)比其他模型昂貴,要高出數(shù)個(gè)數(shù)量級(jí),。)

我們比較了Sora、DiT-XL,、LLama 2 70B和GPT-4,,并以對(duì)數(shù)刻度繪制了它們的浮點(diǎn)運(yùn)算次數(shù)。對(duì)于Sora和DiT,,我們使用上文的推理估計(jì)值,。對(duì)于Llama 2和GPT-4,我們使用經(jīng)驗(yàn)公式浮點(diǎn)運(yùn)算次數(shù)=2×參數(shù)數(shù)量×生成的token數(shù)來估計(jì),。對(duì)于GPT-4,我們假設(shè)它是一個(gè)混合專家 (MoE)模型,,每個(gè)專家有220B參數(shù),,每次前向傳遞激活2個(gè)專家,。需要注意的是,GPT-4的這些數(shù)字未得到OpenAI的確認(rèn),,因此也需要謹(jǐn)慎對(duì)待,。

我們可以看到,基于擴(kuò)散模型如DiT和Sora的推理算力需求要大得多:DiT-XL(6.75億參數(shù))的推理計(jì)算量,,大約與LLama 2(700億參數(shù))相當(dāng),。我們還可以看到,Sora的推理算力需求比GPT-4高出數(shù)個(gè)數(shù)量級(jí),。

需要注意的是,,上述許多數(shù)字都是估計(jì)值,并且依賴于簡(jiǎn)化的假設(shè),。例如,,它們并未考慮GPU的實(shí)際浮點(diǎn)運(yùn)算利用率、內(nèi)存容量和帶寬限制以及諸如推測(cè)解碼等高級(jí)技術(shù),。

如果類似Sora的模型占有重要市場(chǎng)份額時(shí)的推理計(jì)算量

在這一部分,,我們根據(jù)Sora的計(jì)算需求,推測(cè)如果AI生成視頻在流行視頻平臺(tái)如TikTok和YouTube上占有重要市場(chǎng)份額,,將需要多少英偉達(dá)H100 GPU來運(yùn)行類似Sora的模型,。

我們假設(shè)每小時(shí)每個(gè)H100生成5分鐘視頻(詳見上文),相當(dāng)于每天每個(gè)H100生成120分鐘視頻,。

TikTok:每天1700萬分鐘視頻(3400萬個(gè)視頻x平均30秒長(zhǎng)度),,假設(shè)AI滲透率50%。

YouTube:每天4300萬分鐘視頻,,假設(shè)AI滲透率15%(主要是2分鐘以下的短視頻),。

AI每天總計(jì)生成視頻:850萬+650萬=1070萬分鐘。

為支持TikTok和YouTube的創(chuàng)作者社區(qū),,需要89000張英偉達(dá)H100 GPU,。

由于以下因素,這一數(shù)字可能偏低:

我們假設(shè)100%的浮點(diǎn)運(yùn)算利用率,,并未考慮內(nèi)存和通信瓶頸,。實(shí)際上50%的利用率更為現(xiàn)實(shí),需要乘以2倍,。

需求不會(huì)均勻分布在時(shí)間上,,而是具有突發(fā)性。峰值需求尤其成問題,,因?yàn)樾枰鄳?yīng)更多GPU來滿足所有流量,。我們認(rèn)為,應(yīng)考慮峰值需求再增加2倍,,作為所需最大GPU數(shù)量,。

創(chuàng)作者可能會(huì)生成多個(gè)候選視頻,,從中挑選最佳。我們保守地假設(shè),,平均每個(gè)上傳視頻要生成2個(gè)候選視頻,,再增加2倍。

總計(jì)在峰值時(shí)需要大約72萬臺(tái)英偉達(dá)H100 GPU,。

這說明了我們的觀點(diǎn):隨著生成式AI模型變得越來越受歡迎和受到依賴,,推理計(jì)算將占主導(dǎo)地位。對(duì)于基于擴(kuò)散的模型如Sora,,這種趨勢(shì)會(huì)更加明顯,。

另外需要注意,如果擴(kuò)大模型規(guī)模,,推理計(jì)算需求也會(huì)大幅增加,。另一方面,更優(yōu)化的推理技術(shù)和整個(gè)技術(shù)棧上的其他優(yōu)化措施,,可能會(huì)在一定程度上抵消這種影響,。


雜志訂閱.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。