《電子技術(shù)應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 英偉達發(fā)布6.3萬億Token大型AI訓練數(shù)據(jù)庫Nemotron-CC

英偉達發(fā)布6.3萬億Token大型AI訓練數(shù)據(jù)庫Nemotron-CC

2025-01-14
來源:IT之家
關(guān)鍵詞: 英偉達 AI Nemotron-CC

1 月 13 日消息,,據(jù)英偉達官方博客,,英偉達宣布推出一款名為 Nemotron-CC 的大型英文 AI 訓練數(shù)據(jù)庫,,總計包含 6.3 萬億個 Token,,其中 1.9 萬億為合成數(shù)據(jù)。英偉達聲稱該訓練數(shù)據(jù)庫可以幫助為學術(shù)界和企業(yè)界進一步推動大語言模型的訓練過程,。

2.jpg

目前,,業(yè)界各類 AI 模型的具體性能主要取決于相應模型的訓練數(shù)據(jù)。然而現(xiàn)有公開數(shù)據(jù)庫在規(guī)模和質(zhì)量上往往存在局限性,,英偉達稱 Nemotron-CC 的出現(xiàn)正是為了解決這一瓶頸,,該訓練數(shù)據(jù)庫 6.3 萬億 Token 的規(guī)模內(nèi)含大量經(jīng)過驗證的高質(zhì)量數(shù)據(jù),號稱是 " 訓練大型語言模型的理想素材 ",。

數(shù)據(jù)來源方面,,Nemotron-CC 基于 Common Crawl 網(wǎng)站數(shù)據(jù)構(gòu)建,并在經(jīng)過嚴格的數(shù)據(jù)處理流程后,,提取而成高質(zhì)量子集 Nemotron-CC-HQ。

在性能方面,,英偉達稱與目前業(yè)界領(lǐng)先的公開英文訓練數(shù)據(jù)庫 DCLM(Deep Common Crawl Language Model)相比,,使用 Nemotron-CC-HQ 訓練的模型在 MMLU(Massive Multitask Language Understanding)基準測試中的分數(shù)提高了 5.6 分。

進一步測試顯示,,使用 Nemotron-CC 訓練的 80 億參數(shù)模型在 MMLU 基準測試中分數(shù)提升 5 分,,在 ARC-Challenge 基準測試中提升 3.1 分,并在 10 項不同任務的平均表現(xiàn)中提高 0.5 分,,超越了基于 Llama 3 訓練數(shù)據(jù)集開發(fā)的 Llama 3.1 8B 模型,。

3.jpg

英偉達官方表示,Nemotron-CC 的開發(fā)過程中使用了模型分類器,、合成數(shù)據(jù)重述(Rephrasing)等技術(shù),,最大限度地保證了數(shù)據(jù)的高質(zhì)量和多樣性。同時他們還針對特定高質(zhì)量數(shù)據(jù)降低了傳統(tǒng)的啟發(fā)式過濾器處理權(quán)重,從而進一步提高了數(shù)據(jù)庫高質(zhì)量 Token 的數(shù)量,,并避免對模型精確度造成損害,。

英偉達已將 Nemotron-CC 訓練數(shù)據(jù)庫已在 Common Crawl 網(wǎng)站上公開(點此訪問),英偉達稱相關(guān)文檔文件將在稍晚時候于該公司的 GitHub 頁中公布,。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]