天美传媒伦理片,51吃瓜爆料黑料网

爆火的月之暗面國產(chǎn)大模型Kimi實測

公司為宕機致歉

日期： 2024-03-22

來源：第一財經(jīng)

關(guān)鍵詞： 月之暗面 Kimi 國產(chǎn)大模型

是中國版ChatGPT的討論從未消失,，在一眾“大哥”面前，一家創(chuàng)業(yè)公司被視為最有力的挑戰(zhàn)者,，旗下名為“Kimi”的應(yīng)用甚至成為了資本市場的新寵,。

站在Kimi背后的是一家叫做月之暗面的公司,，該公司3月18日宣布，Kimi 智能助手在長上下文窗口技術(shù)上再次取得突破,，無損上下文長度提升了一個數(shù)量級到200萬字,。而在此前,，GPT-4Turbo-128k公布的數(shù)字約10萬漢字，Claude3200k上下文約16萬漢字,。

長上下文意味著什么,？實際能力如何？第一財經(jīng)記者征求了業(yè)內(nèi)人士的意見并實測了Kimi和通義千問等國產(chǎn)大模型產(chǎn)品,。

Kimi為“宕機”致歉

21日下午,，月之暗面旗下大模型應(yīng)用kimi的APP和小程序均無法正常使用。此前,，月之暗面發(fā)布情況說明：從2024.3.209:30:00開始,，觀測到Kimi的系統(tǒng)流量持續(xù)異常增高，流量增加的趨勢遠超對資源的預(yù)期規(guī)劃,。這導(dǎo)致了從2024.3.2010:00:00開始,，有較多的SaaS客戶持續(xù)的體驗到429:engine is overloaded的異常問題，并對此表示深表抱歉,。

在一個Kimi團隊與用戶溝通的群里,，Kimi方面人員表示，“Kimi從昨天開始用戶量增速很快,，工程師已經(jīng)緊急擴容了幾次,，還在實施更多應(yīng)急措施?！盞imi訪問量的激增讓這家公司的網(wǎng)絡(luò)一度陷入癱瘓,。

公開資料顯示，月之暗面由90后楊植麟創(chuàng)立,，成立于2023年3月1日,，目前已完成三筆融資。今年2月,，該公司完成一筆大額融資,，以15億美元投前估值完成超10億美元B輪，阿里領(lǐng)投,，礪思資本,、小紅書跟投，投后估值約25億美元,，是國內(nèi)最主要的大模型獨角獸之一,。

長文本無損壓縮是上述公司瞄準的一個方向。據(jù)楊植麟介紹,，長文本作為公司“登月”的第一步,，是新的計算機內(nèi)存，很本質(zhì),，個性化并非通過微調(diào)實現(xiàn),，上下文定義了個性化過程,。楊植麟還認為，大模型“馬拉松剛開始,，接下來會有更多差異化”,。

在20萬漢字的基礎(chǔ)上，Kimi又將上下文長度提升至200萬,。關(guān)于長度提升后有何變化,，21日，月之暗面相關(guān)負責(zé)人告訴第一財經(jīng)記者,，這會進一步幫助打開對AI應(yīng)用場景的想象力,，包括完整代碼庫分析理解、可自主幫人類完成多步驟復(fù)雜任務(wù)的智能體Agent,、不會遺忘關(guān)鍵信息的終身助理,、真正統(tǒng)一架構(gòu)的多模態(tài)模型等。

“簡單來說,，文本長度長就可以跟AI一直對話,，AI不會‘遺忘’之前的對話內(nèi)容，還能有比較好的理解,。同時,，一個項目代碼可達幾百萬行，如果大模型支持的文本長度不夠長,，就沒法理解并輔助工作?！庇蠭T人員向記者解釋,。

就“長文本是否是未來競爭的一個差異化方向，抑或大模型廠商都在共同追逐的目標,，長文本意味著什么,？”的問題，一名大廠大模型研究人員告訴記者,，目前判斷一個大模型是否強大,，還是基于指定評估數(shù)據(jù)集和用戶日常聊天體驗，但文本長度普遍有限,，這限制了商業(yè)價值,。在實際應(yīng)用中，很多時候需要考慮的是需處理的巨大信息量,。如果大模型能解決長文本問題,，潛在價值是巨大的，例如投喂財務(wù)數(shù)據(jù)輸出完整財報,、投喂大量病例情況讓大模型幫助解決醫(yī)學(xué)問題,。

“但值得注意的是,，長文本擴展并不一定意味著實際效果足夠好，還需要有足夠理解能力以及對人類指令的遵循能力,，文本之外,，圖像及文本大模型有更多token需要處理，需要足夠長的上下文能力支持,。除文本的長上下文外,，要實現(xiàn)AGI（通用人工智能）還需要有同時處理時空物多維度信息的能力?！鄙鲜鲅芯繂T說,。

而對于目前“與哪些上市公司展開合作”的問題，月之暗面并沒有正面回復(fù),。該公司負責(zé)人對記者表示,，其開放平臺是面向所有開發(fā)者和企業(yè)用戶開放的，任何合規(guī)的開發(fā)者和企業(yè)都可以將 Kimi 智能助手背后的同款大模型API接入到自己的產(chǎn)品或服務(wù)中,，基于 Kimi 大模型卓越的長文本處理和指令遵循能力,，升級或打造新的產(chǎn)品或服務(wù)。

國內(nèi)大模型哪家強,？

國內(nèi)大模型發(fā)展至今,，不少應(yīng)用已經(jīng)逐步走入C端，但國產(chǎn)大模型理解能力如何,？能理解長文本并給出高質(zhì)量回答嗎,？第一財經(jīng)記者今日實測了包括Kimi、智譜清言,、通義千問等國內(nèi)幾大主流大模型產(chǎn)品,。

在評測后，記者發(fā)現(xiàn),，一些大模型還不支持長文本輸入或不支持較大的文檔上傳,，Kimi、通義千問在解讀財報,、研報,、論文方面的能力較好，但Kimi有時會因“高峰時段忙碌而暫不回復(fù)”,，智譜清言則犯過將非上市公司列入股票行列的錯誤,，文心一言對諸如選股、找最新報告的要求有時不直接回應(yīng)且出現(xiàn)過核心信息遺漏問題,。

為測試對較長且較專業(yè)文本的理解和信息提取能力,，記者還實測了Kimi和其他國內(nèi)大模型在提取論文和研報信息的能力。

近日騰訊與清華大學(xué),、香港科技大學(xué)聯(lián)合發(fā)布了一個圖生視頻模型,，記者將該模型相關(guān)英文論文交給Kimi和通義千問,、文心一言、智譜清言和訊飛星火,，要求分析核心內(nèi)容和論文實現(xiàn)方法,，Kimi和通義千問都給出詳細解答。其中,，Kimi點明論文貢獻,、相關(guān)模型的框架和實現(xiàn)的關(guān)鍵步驟，關(guān)鍵詞匯還附帶英文名詞標注,，通義千問除了實現(xiàn)方法外,，還解答了實驗方面研究者如何進行評估。此外,，將論文發(fā)給訊飛星火app后,，訊飛星火給出較短的文檔摘要，但不如Kimi和通義千問詳細清晰,，且訊飛星火對記者的提問表示“在文檔中沒有找到與提問相關(guān)的內(nèi)容”,，訊飛星火網(wǎng)頁端對20M以上文檔上傳則有限制。

此外,，智譜清言限制上傳文件大小,，記者希望上傳的論文超過10M限制，記者復(fù)制論文內(nèi)容至對話框,，但很快也超過限制字數(shù),，無法發(fā)出文字與AI對話。文心一言同樣限制文檔大小且限制對話框文字長度,，導(dǎo)致無法對文檔進行分析,。

對于哪個國產(chǎn)大模型能讀懂研報并給出投資建議？記者將兩份不同券商發(fā)布的關(guān)于人形機器人行業(yè)的研報交給Kimi,、通義千問、訊飛星火,、文心一言,、智譜清言，其中一份長達50頁,，記者要求大模型分析哪些機器人股票比較有潛力,，并要求挑出兩只可考慮買的股票。

測試結(jié)果顯示,，Kimi和訊飛星火均給出10家有潛力的個股并分析原因,，記者追問“如果要挑兩只股票買，哪兩只比較好”,，Kimi和訊飛星火給出了兩只個股并解釋原因,，同時提醒股票投資風(fēng)險或建議咨詢財務(wù)顧問意見,。通義千問則按產(chǎn)業(yè)鏈不同環(huán)節(jié)分列20余只有較高投資潛力的個股并解釋原因，根據(jù)研報資料挑選出兩只股票,，同樣給出投資風(fēng)險提示并建議尋求專業(yè)投資顧問的意見,。值得注意的是，通義千問和Kimi挑出的兩只股票中,，有一只是相同的,，Kimi和訊飛星火挑選出的兩只股票也有一只是相同的。

即便是給出了風(fēng)險提示,，但這樣的結(jié)果也讓部分券商分析師感到不安,。“如果將概念股的信息通過某些渠道加大投喂力度,，這是否會引起搜索結(jié)果的導(dǎo)向出現(xiàn)偏差,，引發(fā)較高的投資風(fēng)險，目前不得而知,?！蹦撤治鰩熣f。

從記者評測的結(jié)果看,，智譜清言給出5只潛力比較大的個股中,，其列出的公司中有一家并未上市。文心一言則表示,，產(chǎn)業(yè)鏈一些環(huán)節(jié)的公司具有潛力,，但沒有列出具體個股并逐個說明原因，且未直接回復(fù)“買哪兩只股票好”的問題,，而是列出通用的選股策略,。

在財報解讀方面，第一財經(jīng)記者將B站2023年財報PDF文檔（700kb）上傳至大模型對話窗口,，并讓AI幫忙解讀財報的核心內(nèi)容,。隨后，Kimi分段給出了財務(wù)摘要數(shù)據(jù)和管理層評論,，列出了凈營業(yè)額,、廣告業(yè)務(wù)收入等主要財務(wù)數(shù)據(jù)；智譜給出了一段財務(wù)數(shù)據(jù)內(nèi)容,，且是原文繁體字,，沒有轉(zhuǎn)成簡體中文，而其他家都給出簡體中文的回復(fù),；通義千問則分段給出了財務(wù)數(shù)據(jù),、業(yè)務(wù)數(shù)據(jù)、業(yè)務(wù)亮點與戰(zhàn)略執(zhí)行、成本與開支控制等內(nèi)容,，從財報內(nèi)容解讀的全面性和有用性方面來說,，較為突出；文心一言給出了不同業(yè)務(wù)的營收數(shù)據(jù),，但核心信息凈虧損有遺漏,，其他大模型沒有出現(xiàn)這個遺漏。

記者隨后試圖同時上傳2022年與2023年兩份年報讓AI對比,，智譜清言,、文心一言僅支持上傳一份文檔，Kimi試了幾次都顯示輸出失敗,，表示“和Kimi聊的人太多,，Kimi有點累了”；通義千問給出了兩份年報的核心變化,，提到了關(guān)鍵的日活破億,、毛利率提升、成本結(jié)構(gòu)改善以及虧損收窄,，表現(xiàn)較為突出,。

翻譯場景上，記者以前段時間Sora的技術(shù)文檔為例,，其中涉及不少技術(shù)名詞,，讓AI進行翻譯。記者先直接發(fā)送網(wǎng)頁鏈接讓AI翻譯,，Kimi仍然輸出失敗,，通義千問和文心一言不支持網(wǎng)頁翻譯；智譜支持網(wǎng)頁翻譯,，但只翻譯了部分核心內(nèi)容,，記者進一步要求其翻譯全文，AI回復(fù)稱“由于版權(quán)和長度限制,，無法提供完整的翻譯”,。

隨后記者復(fù)制了部分關(guān)鍵內(nèi)容考驗各家大模型的翻譯能力，從輸出結(jié)果看,，對于大模型訓(xùn)練（training）,、擴散模型（diffusionmodels）、LLM,、patch這些專業(yè)名詞，相比翻譯器來說,，各個大模型都表現(xiàn)得更加智能,，但從閱讀流暢性、智能分段這種指標來說，智譜略微勝出,。

如果要輔助工作學(xué)習(xí),，這些大模型能起到多大作用？為測試這個能力,，記者向Kimi,、通義千問、文心一言提出“查詢關(guān)于深度學(xué)習(xí)的最新研究報告”的要求,，結(jié)果顯示,，Kimi能給出較好回復(fù)，但還不是非?！靶隆?，其他兩個模型未給出對應(yīng)內(nèi)容。Kimi提供的具體報告內(nèi)容鏈接中,，三篇中的兩篇來自2022年——一則來自知乎,，一則來自新華網(wǎng)，還有另一篇來自《計算機應(yīng)用研究》,，未有明確時間標注,。此外，通義千問回復(fù)“作為離線助手,，無法實時查詢互聯(lián)網(wǎng)上的最新深度學(xué)習(xí)研究報告”,，并給出幾項學(xué)術(shù)期刊、學(xué)術(shù)會議推薦,。文心一言直接從引言,、算法創(chuàng)新、模型優(yōu)化,、應(yīng)用場景拓展,、市場與產(chǎn)業(yè)分析等角度給出歸納，但并不符合“最新研報”的訴求,。

涉及日常生活的建議,，Kimi、通義千問和文心一言給出答案的差距則不太大,。記者提出“一位30歲,、60KG、165cm的女性想要達到健身目標,，該如何進行鍛煉計劃制定”的問題,，Kimi、通義千問,、文心一言均從目標,、鍛煉計劃,、飲食、休息等幾方面給出全方位建議,。

能趕上GPT4嗎,？

Kimi“引爆”概念股，一定程度上顯現(xiàn)資本市場對國產(chǎn)大模型能力躍進的期待,。此外,，近期國產(chǎn)大模型密集發(fā)布，廠商最頻繁使用的一個詞匯是“逼近”,，強調(diào)自身技術(shù)實力“逼近GPT4”,。資本市場聞風(fēng)而動、大模型密集發(fā)布背后,，國產(chǎn)大模型能趕上GPT4了嗎,？

一位人工智能行業(yè)人士對記者表示，由于目前大模型企業(yè)之間并無明確的對比項目,，大多通過打榜的形式來佐證自身實力,，因此無法通過嚴謹?shù)牡谌綌?shù)據(jù)來區(qū)分廠商之間的技術(shù)差距，但可以明確的是,，自從OpenAI將GPT4閉源后,，國內(nèi)廠商與其差距目前仍較大。

多名業(yè)內(nèi)人士也提到過國內(nèi)廠商與硅谷廠商之間的差距,。智象未來創(chuàng)始人兼CEO,、加拿大工程院外籍院士梅濤表示，從通用大模型的角度來說,，中國廠商與硅谷廠商之間的差距有被拉大的風(fēng)險,，原因包括人才密度問題、資源問題,。2023年,，中國初創(chuàng)公司做通用大模型的公司用一千張卡的資源來對標ChatGPT3.5，今年則用萬張卡級別資源對標ChatGPT4,，而硅谷目前已經(jīng)考慮十萬級甚至百萬級的卡做對應(yīng)的事情,，對比缺口比較大。

相對來講,，梅濤認為多模態(tài)生成式領(lǐng)域的對比差距相對好一點,，不論是Sora還是Midjourney，這個領(lǐng)域生成式模型基本上參數(shù)都在百億級規(guī)模左右,，該規(guī)模搭配千張卡左右的資源,，創(chuàng)業(yè)公司通過早期融資還是可以實現(xiàn)的。對這個差距沒有那么大的領(lǐng)域,，梅濤認為中國企業(yè)應(yīng)優(yōu)先考慮的是如何在產(chǎn)業(yè)化方面做好產(chǎn)品迭代以及商業(yè)化,，這些角度中國廠商很有可能比國外企業(yè)更快更敏捷,。

瀾舟科技創(chuàng)始人兼CEO周明認為，目前中國在大模型算法上原創(chuàng)技術(shù)能力并不差,，但在頂層設(shè)計上可以跟美國學(xué)習(xí)，或比美國做得更好,。周明認為國內(nèi)缺乏一個國家機制或聯(lián)盟體來定義一個大模型未來發(fā)展的必要趨勢,。這個問題一旦解決，中國的人才便可以快速攻關(guān),，雖然算力不足的問題尚存在,，但通過算法或應(yīng)用發(fā)力，可以彌補算力不足的問題,。

此外,，周明認為國內(nèi)大模型企業(yè)要跟國家的發(fā)展大趨勢配合，而非一味去與美國相關(guān)企業(yè)看齊,。他稱,，很多國內(nèi)大模型企業(yè)只知與美國企業(yè)看齊，亦步亦趨,，后者提出一個技術(shù)點,，國內(nèi)便想要跟上或進行改良。更合適的動作應(yīng)從綜合趨勢上進行推進,，最為重要的是應(yīng)用驅(qū)動,。中國大模型相關(guān)企業(yè)與美國企業(yè)相比，在應(yīng)用場景等方面雖然沒有大的優(yōu)勢,，但也不占劣勢,。如果在場景和應(yīng)用角度去反向驅(qū)動各個應(yīng)用，推動國家經(jīng)濟和生產(chǎn)力各個方面提升,，中國基礎(chǔ)創(chuàng)新能力有可能在下一輪 AI 創(chuàng)新中引領(lǐng)國際潮流,。

談及近一年人工智能領(lǐng)域的動態(tài)，中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟理事長,，原小米集團副總裁崔寶秋是興奮的,，他稱，看好大數(shù)據(jù)和深度學(xué)習(xí)帶來新一代AI技術(shù)的快速發(fā)展,。從時間線上來看,，一年多前大模型的發(fā)布仍存在“胡說八道”的問題，讓人感覺很不靠譜,。但在2023年,，崔寶秋去到美國，接觸大模型最新技術(shù)前沿,，令他感受到新的時代到來,，雖然大模型技術(shù)目前是美國引領(lǐng),，但中國企業(yè)也在快速跟進。

梅濤近一年也在頻繁往返中國與美國硅谷,，在他看來,，最新的體感就是中美生態(tài)確實不太一樣，例如在投融資方面,，不管是融資還是公司的估值方面,，中美企業(yè)之間的差距是巨大的，特別是融資的環(huán)境,，希望今年有所改變,。

另外，雖說2024年是創(chuàng)新元年,，但就遍地是黃金嗎,？周明認為不是，國內(nèi)大模型領(lǐng)域很多地方都沒有開拓出來,，比如大模型如何結(jié)合最后一公里,、大模型的商業(yè)模式是什么、如何加強交付能力,、提高產(chǎn)品的標準化,，這些才剛剛開始，方興未艾,。

雜志訂閱.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外,，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,，請及時通過電子郵件或電話通知我們,，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話：010-82306118,；郵箱：[email protected]。

爆火的月之暗面國產(chǎn)大模型Kimi實測

日期： 2024-03-22

來源：第一財經(jīng)

相關(guān)內(nèi)容