《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 從“深度偽造”到“深度合成”:AI為啥需要一次“正名”?

從“深度偽造”到“深度合成”:AI為啥需要一次“正名”,?

2020-06-08
來源:與非網

在世人對 AI 的“邪惡性”進行攻詰的浪潮中,AI 造假,,可能已經是現(xiàn)在排首位的理由了。

 

自從 2017 年 Deepfake(深度偽造)橫空出世以后,,人們驚呼原來 AI 在造假方面簡直天賦異稟,。此后“AI 生成內容”技術,特別是 GAN 算法的突飛猛進更加印證了這一事實,。不僅僅是 AI 換臉,,還有 AI 自動生成文本、語音,、圖像,、視頻等等一切數(shù)字內容。

 

除了 AI 換臉帶來的色情視頻泛濫之外,,人們更進一步擔心 AI 生成內容技術在隱私侵犯,、威脅信息安全,、操縱政治選舉等方面帶來全新挑戰(zhàn),。

 

人們往往會假設,如果任由 AI 生成的內容在互聯(lián)網中蔓延,,將會更進一步沖毀互聯(lián)網世界的真實性邊界,。

 

forward (20).jpg



(被 AI 造假的扎克伯格“諷刺”自己的 Facebook 平臺)

 

Deepfake 之后,真相何在,?

 

如果哪些是真,,哪些是假,普通人都難以分辨的時候,,那么組成社會基石的真相和信任將就此坍塌,,但我們似乎還沒有做好活在“無信任社會”的準備吧。

 

德國哲學家康德在《實踐理性批判》中論證“人為什么不能說謊”的法則,,揭示了“無信任社會”的悖論和荒謬,。假如“人人可以說謊”是一條社會的通行法則,那么,,每個人都不會再信任另一個人說的話,,這樣說話人的謊言也就不會得逞。說謊而無人相信,就陷入了自相矛盾的境地,,反之“人人不能說謊”,,才應該是正常社會的通行法則。

 

這就是說,,只有在默認“人人應該誠實”的信任社會里,,說謊者才可以通過成功騙到他人獲利,也會因為謊言被戳穿而信譽破產,。而在“無信任社會”中,,信息的真假判斷都難以進行,那只能默認一切都為“假”,,才會不至于上當受騙,。但是相應的代價是信任全無,合作難以達成,,交流也不再可能,,最終將會是社會的分崩離析。

 

當然這只是理論上面最極端的演繹?,F(xiàn)實世界永遠會在理論世界之下形成巨大的灰色空間,,人性的基石仍將亙古不變,技術的演進也會一往無前,,而人性的弱點就會在這兩者的撕扯的張力中一直暴露無遺,。每一代的新人類除了持續(xù)的學習、進化,,以適應技術加速帶來的全新挑戰(zhàn),,似乎也沒有什么更好的辦法。

 

回到“Deepfake”為代表的“AI 生成內容”技術來說,,它既不會成為將我們的社會拖向“無信任”的深淵,,也不會讓我們的人性變得更好或更壞一點。在一個即將到來的“虛實相容,、真假不分”的后真相世界當中,,只會讓適應這一變化的我們變得更加復雜和反脆弱。

 

所以,。這一略帶“貶義”的 Deepfake(深度偽造)的技術名詞,,需要被我們重新塑造為一個技術中性詞匯——Deep Synthesis(深度合成)。

 

為“深度合成”正名:AI 的技術中性

 

 

科技的每一次突破,,都可能帶來意想不到的“副產品”,。

 

就如同愛因斯坦發(fā)現(xiàn)了質能方程式之后,即使再不情愿,,他也無法阻止原子彈的出現(xiàn)和使用,。就在 Deepfake 這個“妖孽”在美國新聞網站 Reddit 被放出來之后,,AI 的領軍人物 Yann LeCun 也在 Twitter 上深深反省:

 

“說真的,,要是當初知道卷積神經網絡(CNN)會催生 Deepfake,,我們還要不要發(fā)表它?”

 

forward (19).jpg


 

隨即 LeCun 自己就回答了這個問題,。LeCun 表示,,即使不是我們首先公開發(fā)表,CNN 也會由其他人或機構發(fā)明出來,。而在 2002 年當時被公布出來以后,,人們也不知道如何來利用它。換句話說,,CNN 的價值要在技術人員的不斷探索下才能挖掘出來,。

 

現(xiàn)在 CNN 正在被開發(fā)出各種各樣的應用,既對世界有很多正向的積極影響,,比如醫(yī)療診斷,、自動駕駛、內容過濾以及安全監(jiān)控等等,,也可能引起一些負面的效果,,比如侵犯隱私、造假詐騙,、偏見歧視等等,,好壞參半,可以各打五十大板,。

 

簡單來說,,就是 AI 無罪,問題還是出在使用 AI 技術的人類身上,。

 

以 Deepfake 技術所引發(fā)的 AI 換臉的色情視頻泛濫來說,,AI 技術被應用于色情產業(yè)幾乎是一件“必然如此”的過程。一方面,,現(xiàn)代色情產業(yè)一直都是最新科學技術應用的急先鋒,另一方面,,AI 在圖像內容生成技術的發(fā)展正好迎來了突破臨界點,。最后一步就只剩下這個叫“Deepfakes”的用戶最后的“靈機一動”了。

 

實際上,,Deepfake 為“AI 內容生成”技術的普及起到了推波助瀾的作用,,但同時也帶來難以抹去的污名化影響。而鑒于“AI 內容生成”技術的發(fā)展早已超出 AI 換臉的范疇,,技術商業(yè)領域正在試圖用“深度合成”來為這一技術正名,。

 

首先,Deepfake(深度偽造)一詞明顯以偏概全,其僅僅是“AI 換臉”技術的早期代表,,不足以包含所有的“AI 生成內容”的技術,。用 Deep Synthesis(深度合成)可以更好地泛指所有 AI 生成算法和涵蓋自動生成圖像、視頻,、語音,、文本、音樂等內容的合成技術,。

 

其次,,Deepfake 尚未得到技術社區(qū)的廣泛認可,只是被媒體大眾叫順嘴了而已,。況且 Deepfake 自帶的“腹黑”體質,,對于 AI 技術的應用推廣會帶來直接的負面影響。

 

“深度合成”這個更為中性的技術名稱,,將會代替 Deepfake 來行使 AI 內容發(fā)展的應盡之責,。那么,“深度合成”該如何撐起這重任呢,?

 

“深度合成”的底氣:技術加速和商業(yè)落地

 

 

“深度合成”技術,,其實就是借助可以自主學習的深度學習算法模型來實現(xiàn)的,其主要使用的的兩個技術就是“自動編碼器”人工神經網絡和 “生成對抗網絡”(GAN)的人工神經網絡組成,。前者用于訓練數(shù)據(jù)的合成,,后者由生成器和鑒別器組成,一個用來進行新數(shù)據(jù)的生成和一個用來對其進行鑒別,,經過二者無數(shù)次的對抗,,最終生成出“以假亂真”的合成數(shù)據(jù),其中就包括 Deepfake 所創(chuàng)造出來的換臉視頻,。

 

forward (18).jpg



(GAN 相關論文的發(fā)表情況)

 

從 2014 年,,GAN 提出一直到今天,已經經歷了從 CGAN,、BigGAN ,、StyleGAN 等多個版本更新,其中每年的相關研究論文也在加速增長,,可見學界對于 GAN 算法的重視和發(fā)展前景的看好,。

 

forward (17).jpg


(BigGAN 生成的包含各種類別的高清晰圖片)

 

與此相應的,就是圖像生成質量的突飛猛進,,其中不僅可以實現(xiàn)人臉的合成,,也能更一步實現(xiàn)圖像疊加融合,或者直接生成全新的高清圖片,,以致于人眼根本難以分辨真假,。

 

比如,,去年 MIT 和 IBM 沃森聯(lián)合實驗室發(fā)布的一個基于 GAN 的 AI 藝術畫師,就可以學習文藝復興時期的畫家的繪畫風格,,直接將現(xiàn)代人類的照片變成文藝復興時期的畫作,。

 

forward (16).jpg

 

其中的技術優(yōu)勢在于,GAN 神經網絡會根據(jù)自己學到的技巧為畫面重新構圖,,也就是它是畫出新的圖片,,而不是利用風格遷移的方式,改變原圖的色彩,。

 

其實,,深度合成技術已經可以走得更遠。除了單一的圖像,、音頻合成之外,,多維度的內容合成已經是一個趨勢,這樣可以將語音識別,、人臉識別,、唇形搜索等結合起來,進行人臉語音的合成,,從而可以讓一個人自然流利地說出自己從未說過的話,。

 

forward (15).jpg

 

此外,人臉合成之外,,全身合成,、3D 合成虛擬人技術也成為當前的應用熱點。剛剛過去的兩會期間,,搜狗聯(lián)合新華社推出上崗的全球首個 3D 版 AI 合成主播,,就已經可以在文本實時驅動面部表情和唇形,肢體動作,、超寫實細節(jié)呈現(xiàn)上面做到比擬真人的動態(tài)效果,。

 

在“深度合成”技術的商業(yè)化方面,已經有眾多行業(yè)和企業(yè)看到其應用場景和廣闊市場,。目前,,“深度合成”已經在影視娛樂、社交通訊等多個行業(yè)的場景中開始發(fā)揮作用,。

 

比如,,在影視劇制作中,最直接的幫助就是提升音視頻制作的效率,,拓展創(chuàng)作想象空間;一些特殊情況下,,還可以通過合成技術為影視劇的失聲的演員進行聲音合成,,為已過世的演員進行“數(shù)字復活”,;甚至直接創(chuàng)造虛擬數(shù)字人來進行影視劇集的制作。

 

在娛樂應用體驗上面,,最基本的臉部特效應用,、換臉視頻、動圖,,都已經多次在我們的生活中出現(xiàn),;虛擬偶像、虛擬主播,、虛擬客服也隨著深度合成技術的成熟而變得越逼真和可信,。

 

在社交通訊上面,與其擔心深度合成技術會暴露個人隱私,,不如可以讓深度合成技術幫我們在社交網絡中建立自己的“數(shù)字分身”,,就如同《頭號玩家》里面每個人創(chuàng)建的虛擬形象一樣,成為自己在網絡世界的通行證,。

 

此外,,像電商營銷、教育藝術,、醫(yī)療科研等領域,,深度合成技術帶來的仿真數(shù)據(jù)和虛擬化內容都可以為這些產業(yè)帶來新的應用場景或者直接推動該領域的技術進步。

 

顯然,,深度合成技術的這些正向價值正在為其換來更有底氣的話語權和發(fā)展前景,。但是這個一出現(xiàn)就飽受人類質疑和恐懼的 AI 技術,仍然值得我們認真對待其應用邊界和規(guī)則,。

 

“深度合成”的治理:如何鎖住“虛假內容”的惡龍

 

 

正如一切獲得都必須付出代價一般,,我們如果想要享受深度合成技術帶來我們的一切生活便利和精神享受,同時就必須承受其帶來的將數(shù)字世界全面虛擬化的代價,。

 

深度合成技術所帶來的“虛假內容”的社會風險將長期存在,。首先,深度合成的開源技術和軟件,,讓普通人們偽造,、操縱音視頻的門檻大幅降低;其次,,這些虛假音視頻內容足以以假亂真地騙過大多數(shù)“不明真相”的群眾,;最后,這些帶有明顯色情,、危言聳聽或侵犯隱私的信息又足以吸引人,,只要從源頭傳出,就會進行源源不斷的擴散,。

 

除了少數(shù)能夠辨別真?zhèn)蔚膶I(yè)人士,,大多數(shù)人都難以分辨和抵制這些假信息的誘惑,。深度合成的技術濫用風險,需要得到來自法律,、技術,、行業(yè)、民眾等多方面的制約,。

 

第一,,法律層面。對 AI 深度合成內容的用途,、標記,、使用范圍以及濫用技術的處罰,都應該進行深入研究,,并出臺相應的規(guī)定,,為深度合成的合法使用提供依據(jù)。

 

第二,,技術層面,。與深度合成技術同步進化的內容鑒別技術和溯源追蹤技術也應該得到重視。針對合成內容的有效鑒別與標記,,才能從源頭來識別合成內容,,以防止負面的虛假內容的擴散。

 

第三,,行業(yè)層面,。深度合成技術離不開行業(yè)自律,合成內容技術提供者和平臺要承諾在合成內容之上必須做出標記,,或者提供有效的檢測和標注工具,,來保證合成內容被清晰識別出來。

 

最后,,民眾層面,。相比較于權威機構或者主流精英人群對合成內容泛濫的擔憂,廣大民眾反而可能是這波“虛擬化”浪潮最主要的支持者,,甚至是虛假信息的推波助瀾者,。

 

在我們即將全面迎來數(shù)字化世界的今天,培養(yǎng)合格“數(shù)字素養(yǎng)”應該要成為一件從小就抓起的公民必修課,。但這門課教什么,、怎么上,仍然需要在深度合成技術發(fā)展的路上慢慢探索,。

 

正如沒有任何一個技術是我們在做好準備之后才出現(xiàn),,AI 技術也是如此。

 

從一開始,我們就把 AI 技術出發(fā)點定義為,,盡可能地學習和模仿人類的能力,,以致于最終能夠代替人類行駛那些繁重,、重復甚至極高難度的任務,。

 

而深度合成技術不正是這一目標的實現(xiàn)過程。我們既然選擇喚醒 AI 這條巨龍,,就不能再“葉公好龍”地擔心 AI 越來越像人類這件事情,。

 

最后,反過來看我們人類這個物種,,一方面我們有極致的智慧去探索世界的因果規(guī)律,,始終去探索那個“真相”;一方面我們又抱著極大熱情來發(fā)明各種工具,,來承擔人類的各種工作,。

 

這兩種能力也直接促成了我們今天的工業(yè)世界,以及未來要進入的數(shù)字虛擬世界,。

 

樂觀來說,,我們不僅不用太過擔心“后真相時代”的來臨,甚至于,,我們還會很快適應這個徹底“虛擬化”的美麗新世界,。

 

對于絕大多數(shù)人來說,追求真相,,遠遠沒有追求舒適更具吸引力,。

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,,并不代表本網站贊同其觀點,。轉載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。