近日,,中國(guó)人工智能(AI)大模型技術(shù)廠(chǎng)商DeepSeek(深度求索)發(fā)布的推理大模型DeepSeek-R1火爆網(wǎng)絡(luò),,其不僅性能比肩OpenAI o1 ,,并且其所需的訓(xùn)練成本可能只有后者的約1/20,,API的定價(jià)更是只有后者的約1/28,,相當(dāng)于使用成本降低了約97%。這不僅引發(fā)了外界對(duì)于OpenAI,、Meta,、谷歌等眾多大模型廠(chǎng)商嚴(yán)重依賴(lài)于高成本的英偉達(dá)AI芯片持續(xù)堆算力的“大力出奇跡”模式的質(zhì)疑,也導(dǎo)致了市場(chǎng)對(duì)于眾多市值已大漲的AI芯片股的價(jià)值需要重估的擔(dān)憂(yōu),。
受此影響,,在美國(guó)當(dāng)?shù)貢r(shí)間1月27日的美股交易當(dāng)中,,Marvell大跌19.1%,、博通大跌17.4%、英偉達(dá)大跌16.97%,臺(tái)積電大跌13.33%,、美光大跌11.71%,、AMD大跌6.37%、ASML大跌5.75%,。
DeepSeek-V3橫空出世:性能比肩GPT-4o,,訓(xùn)練成本僅為其1/20
早在2024年12月26日,DeepSeek就通過(guò)官方微信公眾號(hào)發(fā)布推文稱(chēng),,旗下全新系列模型DeepSeek-V3首個(gè)版本上線(xiàn)并同步開(kāi)源,。國(guó)外獨(dú)立評(píng)測(cè)機(jī)構(gòu)Artificial Analysis測(cè)試了DeepSeek-V3后表示,“DeepSeek-V3超越了迄今為止所有開(kāi)源模型,?!备鼮殛P(guān)鍵的是,該模型使用英偉達(dá)H800 GPU在短短兩個(gè)月內(nèi)就訓(xùn)練完成,,并且僅花費(fèi)了約558萬(wàn)美元,。
據(jù)介紹,DeepSeek-V3為自研MoE模型,,671B參數(shù),,激活37B,在14.8T token上進(jìn)行了預(yù)訓(xùn)練,。DeepSeek-V3多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開(kāi)源模型,,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
針對(duì)DeepSeek-V3,,獨(dú)立評(píng)測(cè)網(wǎng)站Artificial Anlaysis就關(guān)鍵指標(biāo)——包括質(zhì)量,、價(jià)格、性能(每秒生成的Token數(shù)以及首個(gè)Token生成時(shí)間),、上下文窗口等多方面——與其他人工智能模型進(jìn)行對(duì)比,,最終得出以下結(jié)論。
質(zhì)量:DeepSeek-V3質(zhì)量高于平均水平,,各項(xiàng)評(píng)估得出的質(zhì)量指數(shù)為80,。
價(jià)格:DeepSeek-V3比平均價(jià)格更便宜,每100萬(wàn)個(gè)Token的價(jià)格為0.48美元,。其中,,輸入Token價(jià)格為每100萬(wàn)個(gè)Token 0.27美元,輸出Token價(jià)格為每100萬(wàn)個(gè)Token 1.10 美元,。
速度:DeepSeek-V3比平均速度慢,,其輸出速度為每秒87.5個(gè)Token。
延遲:DeepSeek-V3與平均水平相比延遲更高,,接收首個(gè)Token(即首字響應(yīng)時(shí)間)需要1.14秒,。
上下文窗口:DeepSeek-V3的上下文窗口比平均水平小,,其上下文窗口為13萬(wàn)個(gè)Token。
最終Artificial Anlaysis得出結(jié)論:DeepSeek-V3模型超越了迄今為止發(fā)布的所有開(kāi)放權(quán)重模型,,并且擊敗了OpenAI的GPT-4o(8月),,并接近Anthropic的Claude 3.5 Sonnet(10月)。DeepSeek-V3的人工智能分析質(zhì)量指數(shù)得分為80,,領(lǐng)先于OpenAI的GPT-4o和Meta的Llama 3.3 70B等模型,。目前唯一仍然領(lǐng)先于DeepSeek的模型是谷歌的Gemini 2.0 Flash和OpenAI的o1系列模型。領(lǐng)先于阿里巴巴的Qwen2.5 72B,,成為了AI大模型領(lǐng)域的領(lǐng)先者,。
更重要的是,DeepSeek使用2048塊英偉達(dá)H800 GPU在短短兩個(gè)月內(nèi)就訓(xùn)練出了DeepSeek-V3,,僅花費(fèi)了約557.6萬(wàn)美元,,僅為GPT-4o(約超過(guò)1億美元)的接近二十分之一,資源運(yùn)用效率極高,。
OpenAI創(chuàng)始成員Karpathy也表示:“DeepSeek-V3讓在有限算力預(yù)算上進(jìn)行模型預(yù)訓(xùn)練這件事變得容易,。DeepSeek-V3看起來(lái)比Llama-3-405B更強(qiáng),訓(xùn)練消耗的算力卻僅為后者的1/11,?!保〒?jù)外媒估計(jì),Meta的大模型Llama-3.1的訓(xùn)練投資超過(guò)了5億美元,。)
當(dāng)時(shí)外界對(duì)此事也有一些質(zhì)疑之聲,,比如有測(cè)試發(fā)現(xiàn),DeepSeek-V3竟然聲稱(chēng)自己是ChatGPT,。一時(shí)間,,“DeepSeek-V3是否在使用ChatGPT輸出內(nèi)容進(jìn)行訓(xùn)練”的質(zhì)疑聲四起。
對(duì)此,,有猜測(cè)稱(chēng),,DeepSeek可能用了包含GPT-4通過(guò)ChatGPT生成的文本的公共數(shù)據(jù)集?!叭绻鸇eepSeek-V3是用這些數(shù)據(jù)進(jìn)行訓(xùn)練的,,那么該模型可能已經(jīng)記住了GPT-4的一些輸出,現(xiàn)在正在逐字反芻它們,?!?/p>
不過(guò),DeepSeek-V3也并非是第一個(gè)錯(cuò)誤識(shí)別自己的模型,,谷歌的Gemini等有時(shí)也會(huì)聲稱(chēng)是競(jìng)爭(zhēng)對(duì)手的模型,。例如,Gemini在普通話(huà)提示下稱(chēng)自己是百度的文心一言聊天機(jī)器人,。造成這種情況的原因可能在于,,AI公司在互聯(lián)網(wǎng)上獲取大量訓(xùn)練數(shù)據(jù),,但是,現(xiàn)如今的互聯(lián)網(wǎng)本就充斥著各種各樣用AI生產(chǎn)出來(lái)的數(shù)據(jù),。
DeepSeek-R1:性能比肩OpenAI o1,,使用成本僅為其1/28
然而,,在時(shí)隔不到1個(gè)月之后,,2025年1月20日,DeepSeek又發(fā)布了全新的推理大模型DeepSeek-R1,,回?fù)袅送饨绲馁|(zhì)疑,。
據(jù)介紹,DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),,在僅有極少標(biāo)注數(shù)據(jù)的情況下,,極大提升了模型推理能力。在數(shù)學(xué),、代碼,、自然語(yǔ)言推理等任務(wù)上,性能比肩 OpenAI o1 正式版,。
在國(guó)外大模型排名Arena上,,DeepSeek-R1基準(zhǔn)測(cè)試已經(jīng)升至全類(lèi)別大模型第三。其中,,在風(fēng)格控制類(lèi)模型(StyleCtrl)分類(lèi)中與OpenAI o1并列第一,;其競(jìng)技場(chǎng)得分達(dá)到1357分,略超OpenAI o1的1352分,。
1月27日,,社交平臺(tái)認(rèn)證為“AI投資機(jī)構(gòu)Menlo Ventures負(fù)責(zé)人”的Deedy對(duì)比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜,、上下文更長(zhǎng),、推理性能更佳。
DeepSeek還宣布將 DeepSeek-R1 訓(xùn)練技術(shù)全部公開(kāi),,以期促進(jìn)技術(shù)社區(qū)的充分交流與創(chuàng)新協(xié)作,。
除了性能出眾之外,低成本也是DeepSeek-R1一大關(guān)鍵優(yōu)勢(shì),,雖然其預(yù)訓(xùn)練費(fèi)用雖然并未公開(kāi),,但是猜測(cè)應(yīng)該與DeepSeek-V3相當(dāng)。同時(shí),,DeepSeek公布的API的定價(jià)顯示,,其每百萬(wàn)輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬(wàn)輸出tokens 16元,。DeepSeek-R1這個(gè)收費(fèi)大約是OpenAI o1正式版運(yùn)行成本的約1/28,。OpenAI o1模型上述三項(xiàng)服務(wù)的定價(jià)分別約合人民幣55元,、110元、438元,。
也就是說(shuō),,用戶(hù)使用DeepSeek-R1,即可體驗(yàn)到與OpenAI o1 性能相當(dāng)?shù)拇竽P褪褂皿w驗(yàn),,但是使用成本只需要OpenAI o1的1/28,,即成本降低了約97%。
DeepSeek掀起AI算力“革命”
眾所周知,,算法,、算力和數(shù)據(jù)是影響AI能力的三大核心要素,而對(duì)于通用大模型來(lái)說(shuō),,經(jīng)過(guò)這兩年來(lái)發(fā)展,,業(yè)界普遍認(rèn)為要想實(shí)現(xiàn)AGI(通用人工智能)必須依賴(lài)于越來(lái)越龐大的大參數(shù)模型,因此需要更為強(qiáng)大算力來(lái)作為支持,。因此我們可以看到,,微軟、谷歌,、Meta,、X、字節(jié)跳動(dòng),、亞馬遜,、阿里巴巴等大廠(chǎng)一直在持續(xù)加大對(duì)于AI芯片的采購(gòu)。
近日,,在美國(guó)政府的推動(dòng)下,,OpenAI、軟銀,、甲骨文等廠(chǎng)商還宣布將聯(lián)合成立一家新的AI公司“Stargate”(星際之門(mén)),,未來(lái)四年將投資5000億美元,而這其中大部分資金都將被用于建設(shè)AI基礎(chǔ)設(shè)施,。
在這些廠(chǎng)商對(duì)于AI芯片旺盛的需求帶動(dòng)下,,此也直接推動(dòng)了英偉達(dá)、博通,、臺(tái)積電,、ASML等眾多AI芯片產(chǎn)業(yè)鏈相關(guān)廠(chǎng)商業(yè)績(jī)和股價(jià)的大漲。
但是,,如果DeepSeek的僅利用非常低的算力和成本就能夠?qū)崿F(xiàn)高級(jí)的AI能力的模式被普遍認(rèn)可,,那么可能將會(huì)引發(fā)對(duì)于現(xiàn)有的依賴(lài)于堆芯片算力的AI發(fā)展模式的“革命”。
一位Meta工程師公開(kāi)表示,,其內(nèi)部正因DeepSeek進(jìn)入“恐慌模式”,。
Scale AI創(chuàng)始人Alexander Wang也表示,,DeepSeek是“中國(guó)科技界帶給美國(guó)的苦澀教訓(xùn)”,證明“低成本,、高效率”的研發(fā)模式可能顛覆硅谷巨頭的高投入路徑,。社交平臺(tái)認(rèn)證為“風(fēng)險(xiǎn)投資人”的ShortBear評(píng)論稱(chēng),“DeepSeek的興起對(duì)那些商業(yè)模式為銷(xiāo)售大量GPU(英偉達(dá))或購(gòu)買(mǎi)大量GPU(OpenAI,、微軟,、谷歌)的公司都形成了挑戰(zhàn)?!?/p>
因此,,我們可以看到,,在美股1月27日的交易當(dāng)中,,英偉達(dá)、臺(tái)積電,、博通,、ASML等AI芯片產(chǎn)業(yè)鏈上的巨頭們的股價(jià)都出現(xiàn)了大幅的下跌。
不過(guò),,對(duì)于此番DeepSeek所引發(fā)的對(duì)AI芯片產(chǎn)業(yè)鏈企業(yè)價(jià)值重估的恐慌,,也有分析師認(rèn)為這是一個(gè)很好的投資機(jī)會(huì),因?yàn)榧词箤?duì)于AI芯片需求暫時(shí)減少,,但是對(duì)于AI芯片需求依然會(huì)存在,,該市場(chǎng)也依然會(huì)由英偉達(dá)占據(jù)領(lǐng)導(dǎo)地位。
投行韋德布什資深股票分析師Daniel Ives在最新的研報(bào)中稱(chēng),,DeepSeek使用英偉達(dá)性能較弱的芯片構(gòu)建了足以媲美OpenAI的ChatGPT和Meta的Llama 3.1的大模型,,因此引起了美國(guó)科技股的波動(dòng)?!暗覀冋J(rèn)為,,這是另一個(gè)黃金買(mǎi)入機(jī)會(huì),而不是恐慌的時(shí)候,。全球只有英偉達(dá)推出自主,、并用于機(jī)器人和更廣泛AI用例的芯片。DeepSeek的大模型雖然留下了深刻的印象,,但不足被視作威脅,。為消費(fèi)者使用推出具有競(jìng)爭(zhēng)力的LLM模型是一回事,但推出更廣泛的AI基礎(chǔ)設(shè)施又是另一回事,?!盌aniel Ives說(shuō)道。
英偉達(dá)也對(duì)此回應(yīng)稱(chēng):“DeepSeek是一項(xiàng)卓越的人工智能進(jìn)展,,也是測(cè)試時(shí)擴(kuò)展的絕佳范例,。DeepSeek的研究展示了如何運(yùn)用該技術(shù),,借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力,創(chuàng)建新模型,。推理過(guò)程需要大量英偉達(dá)GPU和高性能網(wǎng)絡(luò),。如今我們有三條擴(kuò)展定律:持續(xù)適用的預(yù)訓(xùn)練和后訓(xùn)練定律,以及新的測(cè)試時(shí)擴(kuò)展定律,?!?/p>
需要指出的是,目前中國(guó)正面臨美國(guó)持續(xù)升級(jí)的對(duì)華AI芯片及先進(jìn)半導(dǎo)體設(shè)備出口管制政策,,這也使得中國(guó)難以獲取外部先進(jìn)的AI芯片,,也難以依靠?jī)?nèi)部制造先進(jìn)的AI芯片,因此這也迫使DeepSeek另辟蹊徑,,拋棄常規(guī)的依賴(lài)于堆算力的技術(shù)發(fā)展路線(xiàn),,并獲得了成功,打破了美國(guó)對(duì)于中國(guó)AI的封鎖,。
面壁智能首席科學(xué)家劉知遠(yuǎn)在朋友圈發(fā)文稱(chēng),,“DeepSeek最近出圈,特別好地證明了我們的競(jìng)爭(zhēng)優(yōu)勢(shì)所在,,就是通過(guò)有限資源的極致高效利用,,實(shí)現(xiàn)以少勝多。2024年很多人來(lái)問(wèn)我,,中國(guó)跟美國(guó)的AI差距是擴(kuò)大了還是縮小了,,我說(shuō)明顯縮小了,但能感受到大部分人還不太信服,,現(xiàn)在DeepSeek等用實(shí)例讓大家看到了這點(diǎn),,非常贊?!?/p>
“AGI新技術(shù)還在加速演進(jìn),,未來(lái)發(fā)展路徑還不明確。我們?nèi)栽谧汾s的階段,,已經(jīng)不是望塵莫及,,但也只能說(shuō)尚可望其項(xiàng)背,在別人已經(jīng)探索出的路上跟隨快跑還是相對(duì)容易的,。接下來(lái)我們要獨(dú)立面對(duì)一團(tuán)未來(lái)迷霧,,如何先人一步探出新路,是更加困難和挑戰(zhàn)的事,,需要我們更加百倍投入,、百倍努力。”劉知遠(yuǎn)說(shuō),。
當(dāng)然,,DeepSeek的成功并不是閉門(mén)造車(chē)的結(jié)果,而是博采眾長(zhǎng),,吸取了眾多前人的經(jīng)驗(yàn)(比如開(kāi)源的PyTorch和Llama),,這也是為什么DeepSeek的大模型也采用了開(kāi)源(open-source)的模式。
圖靈獎(jiǎng)得主,、主導(dǎo)Meta AI研究的首席科學(xué)家Yann LeCun就指出,,DeepSeek 成功的最大收獲,是AI開(kāi)源的價(jià)值使任何人都能受益,。
“對(duì)那些看到DeepSeek表現(xiàn)并認(rèn)為‘中國(guó)在AI領(lǐng)域正超越美國(guó)’的人而言,,你的解讀錯(cuò)了,正確解讀應(yīng)是‘開(kāi)源模型正超越專(zhuān)有模型’,。DeepSeek 從開(kāi)放研究和開(kāi)源獲益良多(如同PyTorch和Llama),,他們提出新想法,并從其他人的工作基礎(chǔ)加以建構(gòu),。他們發(fā)布新的模型并開(kāi)源,,所以每個(gè)人都能從中受益,,這就是開(kāi)放研究和開(kāi)源的力量,。”Yann LeCun說(shuō)道,。