1 月 9 日消息,,據(jù) TechCrunch 報(bào)道,,馬斯克與其他人工智能專家一致認(rèn)為,,現(xiàn)實(shí)世界中用于訓(xùn)練 AI 模型的數(shù)據(jù)幾乎已經(jīng)耗盡,。
在周三晚間與 Stagwell 董事會(huì)主席馬克?佩恩的直播對(duì)話中,,馬斯克表示:“我們現(xiàn)在基本上已經(jīng)消耗掉了所有人類知識(shí)的積累…… 用于人工智能訓(xùn)練的數(shù)據(jù),。這個(gè)現(xiàn)象基本上是去年發(fā)生的,?!?/p>
馬斯克此番言論與前 OpenAI 首席科學(xué)家伊利亞?蘇茨克弗(Ilya Sutskever)在去年 12 月的 NeurIPS 會(huì)議上的觀點(diǎn)相似,。蘇茨克弗曾指出,,AI 行業(yè)已經(jīng)達(dá)到了所謂的“數(shù)據(jù)峰值”,并預(yù)測(cè)未來(lái)缺乏足夠的訓(xùn)練數(shù)據(jù),,將迫使 AI 模型的開發(fā)方式發(fā)生改變,。
馬斯克認(rèn)為,合成數(shù)據(jù)(IT之家注:即人工智能模型自我生成的數(shù)據(jù))是未來(lái)的解決方案,?!把a(bǔ)充現(xiàn)實(shí)世界數(shù)據(jù)的唯一途徑是通過(guò)合成數(shù)據(jù),也就是讓 AI 自己生成訓(xùn)練數(shù)據(jù),。AI 會(huì)進(jìn)行自我評(píng)估,,并通過(guò)這一自我學(xué)習(xí)的過(guò)程不斷優(yōu)化自己?!?/p>
目前,,許多科技公司,包括微軟,、Meta,、OpenAI 和 Anthropic 等,已經(jīng)開始使用合成數(shù)據(jù)來(lái)訓(xùn)練他們的主力 AI 模型,。據(jù) Gartner 估計(jì),,到 2024 年,用于人工智能和數(shù)據(jù)分析項(xiàng)目的 60% 數(shù)據(jù)將是通過(guò)合成方式生成的,。
使用合成數(shù)據(jù)的一個(gè)顯著優(yōu)勢(shì)是降低成本,。人工智能初創(chuàng)公司 Writer 表示,,其 Palmyra X 004 模型幾乎完全依賴合成數(shù)據(jù)進(jìn)行開發(fā),開發(fā)成本僅為 70 萬(wàn)美元,,而一個(gè)規(guī)模相似的 OpenAI 模型的開發(fā)成本大約為 460 萬(wàn)美元,。
然而,合成數(shù)據(jù)也存在一定的風(fēng)險(xiǎn),。研究表明,,合成數(shù)據(jù)可能會(huì)導(dǎo)致模型性能下降,輸出結(jié)果不僅缺乏創(chuàng)新性,,而且可能變得更加偏頗,,最終嚴(yán)重影響其功能性。因?yàn)槟P褪峭ㄟ^(guò)自己生成合成數(shù)據(jù)進(jìn)行訓(xùn)練的,,如果這些數(shù)據(jù)本身帶有偏見或局限性,,那么最終模型的輸出也會(huì)受到這些因素的影響。