Open AI頻陷非法數(shù)據(jù)收集爭(zhēng)議-AET-電子技術(shù)應(yīng)用

Open AI頻陷非法數(shù)據(jù)收集爭(zhēng)議

用公共視頻網(wǎng)站數(shù)據(jù)訓(xùn)練大模型

日期： 2024-03-21

來(lái)源：環(huán)球網(wǎng)資訊

關(guān)鍵詞： OpenAI 大模型人工智能數(shù)據(jù)安全

“有許多專家相信，Open AI公司在使用公共視頻網(wǎng)站的數(shù)據(jù)訓(xùn)練其大模型。”美國(guó)“商業(yè)內(nèi)幕”網(wǎng)站18日刊文稱，這家業(yè)界領(lǐng)先的人工智能（AI）初創(chuàng)企業(yè)獲取數(shù)據(jù)的方式正在引發(fā)爭(zhēng)議。不只是Open AI，近期美國(guó)多個(gè)頭部科技企業(yè)遭遇類似爭(zhēng)議。訓(xùn)練人工智能大模型的數(shù)據(jù)來(lái)源是否合法？如何界定企業(yè)使用公眾數(shù)據(jù)的邊界？都成為未來(lái)各國(guó)完善人工智能法規(guī)需要認(rèn)真考慮的問(wèn)題。

Open AI遭遇質(zhì)疑

“商業(yè)內(nèi)幕”網(wǎng)的文章以O(shè)pen AI公司旗下大火的人工智能視頻創(chuàng)作工具Sora為例稱，Sora的訓(xùn)練依賴海量數(shù)據(jù)，這些數(shù)據(jù)很可能搜刮自谷歌旗下的YouTube視頻網(wǎng)站，而這已經(jīng)幾乎是公開的秘密。事實(shí)上，YouTube官方一直禁止使用自動(dòng)化工具批量下載網(wǎng)站視頻的做法，也禁止下載YouTube視頻用于商業(yè)目的，并采取限流等措施應(yīng)對(duì)工具刮削。文章稱，目前尚不清楚Open AI是用了什么樣的技術(shù)手段繞過(guò)YouTube的攔截。

美國(guó)《華爾街日?qǐng)?bào)》近期采訪Open AI首席技術(shù)官米拉·穆拉蒂，在被問(wèn)及公司使用什么數(shù)據(jù)訓(xùn)練Sora時(shí)，她回應(yīng)稱“使用的是公開和被許可數(shù)據(jù)”。但被問(wèn)及其中是否包括YouTube視頻內(nèi)容時(shí)，她表示“對(duì)此并不確定”。

中關(guān)村信息消費(fèi)聯(lián)盟理事長(zhǎng)項(xiàng)立剛20日告訴《環(huán)球時(shí)報(bào)》記者，人工智能大模型分為通用大模型和垂直（行業(yè)）大模型。Open AI做的是通用大模型，會(huì)在YouTube等公共平臺(tái)上爬取數(shù)據(jù)。圖片和視頻的版權(quán)往往較文字更為明確，更容易引發(fā)爭(zhēng)議。“比如，我拍的視頻、圖片就是我所創(chuàng)作的內(nèi)容，但被整合到人工智能大模型里后，就成為后者的內(nèi)容。這里面有很多法律問(wèn)題是需要解決的。”

當(dāng)前，人工智能賽道在全球持續(xù)火熱，眾多初創(chuàng)公司爭(zhēng)先恐后地收集高質(zhì)量的數(shù)據(jù)訓(xùn)練人工智能大模型。“商業(yè)內(nèi)幕”網(wǎng)援引熟悉Open AI運(yùn)營(yíng)的人士的話稱，該公司指派了一個(gè)“秘密團(tuán)隊(duì)”來(lái)獲取訓(xùn)練數(shù)據(jù)，公司內(nèi)部也不會(huì)深究數(shù)據(jù)來(lái)源。互聯(lián)網(wǎng)界的各大玩家似乎達(dá)成某種“共識(shí)”——只要自身能抓取到別人的數(shù)據(jù)，也就默許其他玩家采取相同的做法。

在一些人看來(lái)，這樣的“共識(shí)”是狂飆突進(jìn)中的人工智能產(chǎn)業(yè)需要留意的一大隱患。“商業(yè)內(nèi)幕”網(wǎng)的報(bào)道認(rèn)為，生成式人工智能的快速興起掀起了一場(chǎng)世界范圍內(nèi)的技術(shù)競(jìng)賽，在這個(gè)新領(lǐng)域中，什么是合法的，什么是合乎道德的，目前尚缺乏明確而成熟的規(guī)則。

“混亂”中推動(dòng)監(jiān)管措施變革

“商業(yè)內(nèi)幕”網(wǎng)稱，人們對(duì)復(fù)雜的生成式人工智能系統(tǒng)給公眾帶來(lái)的潛在危害有很多擔(dān)憂，公眾對(duì)這些人工智能大模型從何處獲取數(shù)據(jù)、如何使用數(shù)據(jù)以及在涉及敏感信息時(shí)是否采取保護(hù)措施知之甚少，科技公司不僅沒(méi)有告訴公眾太多信息，甚至連自身都無(wú)法將這一過(guò)程徹底解釋清楚。

一段時(shí)間以來(lái)，美國(guó)多家業(yè)內(nèi)頭部企業(yè)因人工智能訓(xùn)練數(shù)據(jù)來(lái)源而陷入侵權(quán)糾紛，甚至吃到官司。本月初，3名作家在美國(guó)加州對(duì)英偉達(dá)公司發(fā)起集體訴訟，指控該公司的NeMo AI平臺(tái)使用盜版文學(xué)網(wǎng)站素材訓(xùn)練人工智能的自然語(yǔ)言撰寫技能。早前，包括《冰與火之歌》作者在內(nèi)的18名作家起訴Open AI侵權(quán)；《紐約時(shí)報(bào)》起訴Open AI和微軟非法使用其內(nèi)容；在2023年，就有許多設(shè)計(jì)師起訴人工智能繪畫軟件Midjourney和Stability AI未經(jīng)許可使用其版權(quán)作品訓(xùn)練人工智能繪圖工具。美國(guó)娛樂(lè)游戲網(wǎng)站IGN評(píng)價(jià)上述官司稱，這些案例或成為推動(dòng)監(jiān)管措施變革的關(guān)鍵。

面對(duì)外界越來(lái)越頻繁的質(zhì)疑，一些巨頭對(duì)訓(xùn)練人工智能所用的海量數(shù)據(jù)來(lái)源諱莫如深。去年年底，兩名美國(guó)議員提出一項(xiàng)《人工智能基礎(chǔ)模型透明法案》，要求所有人工智能基礎(chǔ)模型都必須披露訓(xùn)練數(shù)據(jù)來(lái)源、獲取數(shù)據(jù)的方式以及使用的算法等。但這項(xiàng)法案何時(shí)能成為正式立法不得而知。

多國(guó)法規(guī)有待檢驗(yàn)

中國(guó)經(jīng)濟(jì)學(xué)者盤和林告訴《環(huán)球時(shí)報(bào)》記者，對(duì)于獲取訓(xùn)練人工智能大模型的數(shù)據(jù)，各國(guó)法規(guī)尚有分歧，甚至是一片空白。有些國(guó)家的法規(guī)更加傾向于信息公開，有些國(guó)家的法規(guī)更加傾向于信息安全。共識(shí)在于，選取數(shù)據(jù)不能涉及個(gè)人隱私數(shù)據(jù)。如果企業(yè)爬取公共數(shù)據(jù)，需對(duì)數(shù)據(jù)進(jìn)行處理以達(dá)到脫敏脫密。

項(xiàng)立剛告訴記者，中國(guó)去年在人工智能大模型的管理方面出臺(tái)了相關(guān)的條例。至于涉及知識(shí)產(chǎn)權(quán)的管理，需要在未來(lái)隨著人工智能產(chǎn)品的完善和技術(shù)的發(fā)展進(jìn)一步制定相關(guān)的法律和法規(guī)。

在管理人工智能訓(xùn)練數(shù)據(jù)來(lái)源方面，歐洲步子邁得較大。瑞士《一瞥報(bào)》19日稱，人們已經(jīng)意識(shí)到，會(huì)有犯罪者通過(guò)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行非法AI創(chuàng)作，甚至還會(huì)出現(xiàn)勒索事件。歐洲議會(huì)13日以壓倒性票數(shù)通過(guò)《人工智能法案》。該法案為人工智能技術(shù)設(shè)置嚴(yán)格的規(guī)則，旨在確保人工智能的使用不會(huì)侵犯人的基本權(quán)利，如隱私、數(shù)據(jù)保護(hù)和非歧視等。歐盟官員將其稱為“世界上第一部針對(duì)可信人工智能的全面、具有約束力的法規(guī)”。

盤和林表示，與美國(guó)不同，中國(guó)主流人工智能大模型多基于企業(yè)內(nèi)部數(shù)據(jù)進(jìn)行訓(xùn)練。美國(guó)是判例法國(guó)家，經(jīng)紀(jì)商可能從數(shù)據(jù)平臺(tái)購(gòu)買數(shù)據(jù)，更多的則是從互聯(lián)網(wǎng)公開數(shù)據(jù)中爬取有用數(shù)據(jù)。包括社交媒體的所有資料。繼而對(duì)數(shù)據(jù)進(jìn)行預(yù)標(biāo)注和加工處理。“商業(yè)內(nèi)幕”網(wǎng)認(rèn)為，谷歌、Open AI和一些科技公司認(rèn)為，在當(dāng)前的“共識(shí)”下，即使使用受版權(quán)保護(hù)的內(nèi)容進(jìn)行人工智能模型訓(xùn)練是合法的，但這樣的訴求也有待得到監(jiān)管機(jī)構(gòu)或法庭的檢驗(yàn)。

雜志訂閱.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

Open AI頻陷非法數(shù)據(jù)收集爭(zhēng)議

日期： 2024-03-21

來(lái)源：環(huán)球網(wǎng)資訊

相關(guān)內(nèi)容