《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > Open AI頻陷非法數(shù)據(jù)收集爭議

Open AI頻陷非法數(shù)據(jù)收集爭議

用公共視頻網(wǎng)站數(shù)據(jù)訓(xùn)練大模型
2024-03-21
來源:環(huán)球網(wǎng)資訊

“有許多專家相信,Open AI公司在使用公共視頻網(wǎng)站的數(shù)據(jù)訓(xùn)練其大模型?!泵绹吧虡I(yè)內(nèi)幕”網(wǎng)站18日刊文稱,,這家業(yè)界領(lǐng)先的人工智能(AI)初創(chuàng)企業(yè)獲取數(shù)據(jù)的方式正在引發(fā)爭議,。不只是Open AI,近期美國多個頭部科技企業(yè)遭遇類似爭議,。訓(xùn)練人工智能大模型的數(shù)據(jù)來源是否合法?如何界定企業(yè)使用公眾數(shù)據(jù)的邊界,?都成為未來各國完善人工智能法規(guī)需要認真考慮的問題,。

Open AI遭遇質(zhì)疑

“商業(yè)內(nèi)幕”網(wǎng)的文章以O(shè)pen AI公司旗下大火的人工智能視頻創(chuàng)作工具Sora為例稱,,Sora的訓(xùn)練依賴海量數(shù)據(jù),這些數(shù)據(jù)很可能搜刮自谷歌旗下的YouTube視頻網(wǎng)站,,而這已經(jīng)幾乎是公開的秘密,。事實上,,YouTube官方一直禁止使用自動化工具批量下載網(wǎng)站視頻的做法,,也禁止下載YouTube視頻用于商業(yè)目的,并采取限流等措施應(yīng)對工具刮削,。文章稱,目前尚不清楚Open AI是用了什么樣的技術(shù)手段繞過YouTube的攔截,。

1.jpg

美國《華爾街日報》近期采訪Open AI首席技術(shù)官米拉·穆拉蒂,,在被問及公司使用什么數(shù)據(jù)訓(xùn)練Sora時,她回應(yīng)稱“使用的是公開和被許可數(shù)據(jù)”,。但被問及其中是否包括YouTube視頻內(nèi)容時,她表示“對此并不確定”。

中關(guān)村信息消費聯(lián)盟理事長項立剛20日告訴《環(huán)球時報》記者,,人工智能大模型分為通用大模型和垂直(行業(yè))大模型。Open AI做的是通用大模型,,會在YouTube等公共平臺上爬取數(shù)據(jù),。圖片和視頻的版權(quán)往往較文字更為明確,更容易引發(fā)爭議,。“比如,,我拍的視頻,、圖片就是我所創(chuàng)作的內(nèi)容,,但被整合到人工智能大模型里后,,就成為后者的內(nèi)容,。這里面有很多法律問題是需要解決的,。”

當(dāng)前,,人工智能賽道在全球持續(xù)火熱,,眾多初創(chuàng)公司爭先恐后地收集高質(zhì)量的數(shù)據(jù)訓(xùn)練人工智能大模型?!吧虡I(yè)內(nèi)幕”網(wǎng)援引熟悉Open AI運營的人士的話稱,該公司指派了一個“秘密團隊”來獲取訓(xùn)練數(shù)據(jù),,公司內(nèi)部也不會深究數(shù)據(jù)來源?;ヂ?lián)網(wǎng)界的各大玩家似乎達成某種“共識”——只要自身能抓取到別人的數(shù)據(jù),,也就默許其他玩家采取相同的做法,。

在一些人看來,這樣的“共識”是狂飆突進中的人工智能產(chǎn)業(yè)需要留意的一大隱患?!吧虡I(yè)內(nèi)幕”網(wǎng)的報道認為,,生成式人工智能的快速興起掀起了一場世界范圍內(nèi)的技術(shù)競賽,在這個新領(lǐng)域中,,什么是合法的,,什么是合乎道德的,,目前尚缺乏明確而成熟的規(guī)則。

“混亂”中推動監(jiān)管措施變革

“商業(yè)內(nèi)幕”網(wǎng)稱,,人們對復(fù)雜的生成式人工智能系統(tǒng)給公眾帶來的潛在危害有很多擔(dān)憂,公眾對這些人工智能大模型從何處獲取數(shù)據(jù),、如何使用數(shù)據(jù)以及在涉及敏感信息時是否采取保護措施知之甚少,,科技公司不僅沒有告訴公眾太多信息,,甚至連自身都無法將這一過程徹底解釋清楚,。

一段時間以來,,美國多家業(yè)內(nèi)頭部企業(yè)因人工智能訓(xùn)練數(shù)據(jù)來源而陷入侵權(quán)糾紛,甚至吃到官司,。本月初,,3名作家在美國加州對英偉達公司發(fā)起集體訴訟,,指控該公司的NeMo AI平臺使用盜版文學(xué)網(wǎng)站素材訓(xùn)練人工智能的自然語言撰寫技能,。早前,,包括《冰與火之歌》作者在內(nèi)的18名作家起訴Open AI侵權(quán);《紐約時報》起訴Open AI和微軟非法使用其內(nèi)容,;在2023年,就有許多設(shè)計師起訴人工智能繪畫軟件Midjourney和Stability AI未經(jīng)許可使用其版權(quán)作品訓(xùn)練人工智能繪圖工具。美國娛樂游戲網(wǎng)站IGN評價上述官司稱,,這些案例或成為推動監(jiān)管措施變革的關(guān)鍵。

面對外界越來越頻繁的質(zhì)疑,,一些巨頭對訓(xùn)練人工智能所用的海量數(shù)據(jù)來源諱莫如深,。去年年底,兩名美國議員提出一項《人工智能基礎(chǔ)模型透明法案》,,要求所有人工智能基礎(chǔ)模型都必須披露訓(xùn)練數(shù)據(jù)來源,、獲取數(shù)據(jù)的方式以及使用的算法等。但這項法案何時能成為正式立法不得而知,。

多國法規(guī)有待檢驗

中國經(jīng)濟學(xué)者盤和林告訴《環(huán)球時報》記者,對于獲取訓(xùn)練人工智能大模型的數(shù)據(jù),,各國法規(guī)尚有分歧,,甚至是一片空白。有些國家的法規(guī)更加傾向于信息公開,,有些國家的法規(guī)更加傾向于信息安全,。共識在于,選取數(shù)據(jù)不能涉及個人隱私數(shù)據(jù),。如果企業(yè)爬取公共數(shù)據(jù),,需對數(shù)據(jù)進行處理以達到脫敏脫密,。

項立剛告訴記者,,中國去年在人工智能大模型的管理方面出臺了相關(guān)的條例,。至于涉及知識產(chǎn)權(quán)的管理,需要在未來隨著人工智能產(chǎn)品的完善和技術(shù)的發(fā)展進一步制定相關(guān)的法律和法規(guī),。

在管理人工智能訓(xùn)練數(shù)據(jù)來源方面,,歐洲步子邁得較大。瑞士《一瞥報》19日稱,,人們已經(jīng)意識到,會有犯罪者通過網(wǎng)絡(luò)數(shù)據(jù)進行非法AI創(chuàng)作,,甚至還會出現(xiàn)勒索事件。歐洲議會13日以壓倒性票數(shù)通過《人工智能法案》,。該法案為人工智能技術(shù)設(shè)置嚴格的規(guī)則,,旨在確保人工智能的使用不會侵犯人的基本權(quán)利,,如隱私、數(shù)據(jù)保護和非歧視等,。歐盟官員將其稱為“世界上第一部針對可信人工智能的全面、具有約束力的法規(guī)”,。

盤和林表示,,與美國不同,中國主流人工智能大模型多基于企業(yè)內(nèi)部數(shù)據(jù)進行訓(xùn)練,。美國是判例法國家,經(jīng)紀商可能從數(shù)據(jù)平臺購買數(shù)據(jù),,更多的則是從互聯(lián)網(wǎng)公開數(shù)據(jù)中爬取有用數(shù)據(jù),。包括社交媒體的所有資料。繼而對數(shù)據(jù)進行預(yù)標(biāo)注和加工處理,?!吧虡I(yè)內(nèi)幕”網(wǎng)認為,,谷歌,、Open AI和一些科技公司認為,,在當(dāng)前的“共識”下,即使使用受版權(quán)保護的內(nèi)容進行人工智能模型訓(xùn)練是合法的,,但這樣的訴求也有待得到監(jiān)管機構(gòu)或法庭的檢驗,。


雜志訂閱.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected],。