7月17日消息,,據(jù)媒體報道,,包括NVIDIA,、蘋果、Salesforce和Anthropic在內(nèi)的多家科技巨頭,,被曝光涉嫌違規(guī)使用數(shù)據(jù),用于訓(xùn)練其AI模型。
這些公司被發(fā)現(xiàn)使用了超過173536個YouTube視頻的字幕數(shù)據(jù),,而這些數(shù)據(jù)的獲取并未得到視頻創(chuàng)作者的許可,。
這些公司所使用的數(shù)據(jù)集名為“YouTube Subtitles”,由非營利組織EleutherAI創(chuàng)建,,該數(shù)據(jù)集包含了來自超過48000個頻道的視頻文本,。
其中不乏知名教育機構(gòu)和媒體公司的內(nèi)容,例如可汗學(xué)院,、麻省理工學(xué)院,、哈佛大學(xué)等,此外,,一些廣受歡迎的YouTube創(chuàng)作者,,如MrBeast等的視頻也被包括在內(nèi)。
此前,,EleutherAI發(fā)布了名為“Pile”的數(shù)據(jù)匯編,,其中的大部分?jǐn)?shù)據(jù)集都是對公眾開放的,包括YouTube Subtitles,。
不過值得注意的是,,蘋果在使用Pile數(shù)據(jù)集訓(xùn)練OpenELM模型時,并未直接下載數(shù)據(jù),,因此在技術(shù)層面上,,是EleutherAI違反了YouTube的使用條款。
YouTube明確禁止未經(jīng)授權(quán)從平臺獲取素材,,同時這些數(shù)據(jù)不僅用于訓(xùn)練AI,,還可能涉及到版權(quán)和隱私問題。
創(chuàng)作者們也對此表示震驚和不滿,,因為他們并未被告知自己的作品被用于商業(yè)目的,,更遑論從中獲得任何補償。