近兩年,區(qū)塊鏈概念成為全社會(huì)的熱點(diǎn)話題,但大部分人更多關(guān)注的是比特幣、以太坊等加密數(shù)字貨幣,,忽視了區(qū)塊鏈技術(shù)本身,。而區(qū)塊鏈技術(shù),,離不開數(shù)學(xué)。
12月17日-18日,,區(qū)塊鏈數(shù)學(xué)科學(xué)會(huì)議在北京召開,。本次會(huì)議為數(shù)學(xué)家、密碼學(xué)家,、計(jì)算機(jī)學(xué)家,、經(jīng)濟(jì)學(xué)家等各領(lǐng)域?qū)<姨峁┮粋€(gè)學(xué)術(shù)交流平臺(tái),希望在初期階段,,專注于探索拆解現(xiàn)有的區(qū)塊鏈數(shù)學(xué)的范式,,組合區(qū)塊鏈技術(shù)的數(shù)學(xué)工具,并且通過類比,、分析,、歸納等方式,提出“區(qū)塊鏈數(shù)學(xué)猜想”,。
計(jì)算科學(xué)家,、中科院院士張鈸在題為“走向可解釋與魯棒的人工智能”的演講中表示:
“當(dāng)前人工智能方法存在局限性,只能在具有充分知識(shí)或數(shù)據(jù),、穩(wěn)定性,、完全信息、靜態(tài),、特定領(lǐng)域與單任務(wù)的場(chǎng)景下適用,。數(shù)據(jù)驅(qū)動(dòng)的本質(zhì)缺陷在于只能學(xué)習(xí)重復(fù)出現(xiàn)的片段,不能學(xué)習(xí)具有語義的特征,。因此,后深度學(xué)習(xí)時(shí)代將知識(shí)驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)結(jié)合,,走向真正的人工智能,。”
大家好,,我今天演講的主題是“走向可解釋與魯棒的人工智能”,。我非常的贊成需要不同學(xué)科的碰撞,才能產(chǎn)生新的成果,。1956年,,人工智能(Artificial Intelligence)誕生于美國,被定義為“研究與設(shè)計(jì)智能體(Intelligent Agents)”,。
這個(gè)定義中,,用了研究和設(shè)計(jì)兩個(gè)詞來形容這個(gè)領(lǐng)域,,就說明這個(gè)領(lǐng)域既是科學(xué)也是工程。所以,,人工智能不僅要關(guān)注科學(xué)的部分,,也要關(guān)注技術(shù)和應(yīng)用的部分。另外就是智能體,,或被稱為“智能機(jī)器”,,智能機(jī)器指的是能夠感知環(huán)境,經(jīng)思考后采取行動(dòng)使成功機(jī)會(huì)最大化的系統(tǒng),。但是人工智能很難說是一個(gè)機(jī)器,,也很難說它是一個(gè)系統(tǒng),所以特別發(fā)明了一個(gè)詞叫Agent,,我這里的翻譯是叫做智能體,。
人工智能就做三件事:感知、思考決策和動(dòng)作,。第一件事兒就是要模擬人類的理性行為,,就是中間那部分,內(nèi)容理性行為,,我們要用計(jì)算機(jī)來模擬它,。另外就是感性、感知,,聽覺,、視覺等等,最后是動(dòng)作,。
人工智能的現(xiàn)狀和符號(hào)模型
我們可以把人工智能分成兩個(gè)階段:1956年至2000年,,傳統(tǒng)AI的階段;2000年至2015年,,深度學(xué)習(xí)的階段,。
首先在人工智能建立初始,就對(duì)人類的智能行為提出一個(gè)模型,,這個(gè)模型叫做基于知識(shí)和經(jīng)驗(yàn)的物理符號(hào)推理模型,。也就是說,當(dāng)時(shí)認(rèn)為人類的說話認(rèn)知包括了感性和理性都可以用這個(gè)模型來模擬,,目前看來事實(shí)證明,,這種模擬只能模擬理性行為,理性行為就利用基于知識(shí)和經(jīng)驗(yàn)的推理模型來構(gòu)造,。
人的理性行為基礎(chǔ)是兩個(gè):知識(shí),、經(jīng)驗(yàn)和推理能力。如果能夠把人類的知識(shí)和經(jīng)驗(yàn)放在計(jì)算機(jī)的知識(shí)庫里面,,我們能把推理能力表現(xiàn)在它的推理機(jī)制里面,,我們就可以做出來模仿人類理性行為的系統(tǒng)或者是人工智能系統(tǒng),。
大家看起來很簡(jiǎn)單,如果我們能夠把醫(yī)生看病的知識(shí)和臨床經(jīng)驗(yàn)放在知識(shí)庫里面,,把診斷的過程變成一個(gè)推理過程,,放在機(jī)制里面,這個(gè)系統(tǒng)就能看病,,確實(shí)在70,、80年代的時(shí)候,美國,、中國都做過類似的醫(yī)療診斷系統(tǒng),,用的就是它。
但是,,這里要說一點(diǎn),,這些知識(shí)和經(jīng)驗(yàn)都是通過人工編制,輸入到計(jì)算機(jī)里面去,,這是它嚴(yán)重的問題,。
另外也是當(dāng)時(shí)提出來的另外一個(gè)模型,所謂大家現(xiàn)在講的人工神經(jīng)網(wǎng)絡(luò),、機(jī)器學(xué)習(xí)也好,,就是這個(gè)模型。這個(gè)模型是用來模仿人的感知的,。大家想想,,感性的知識(shí)來自何處?不是來自于知識(shí),,不是人家教你的,,來自于觀察。所以,,把人類通過觀察學(xué)習(xí)的這種過程用一個(gè)神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)來模仿,,現(xiàn)在所有的圖象識(shí)別、語音識(shí)別都是用的這個(gè)模型,。
傳統(tǒng)模型的優(yōu)缺點(diǎn)
這里的問題在于,,特征的輸入是人工輸入的,人工選擇的特征輸入,,這個(gè)是傳統(tǒng)人工智能的一個(gè)最大的缺陷,所以后來為什么會(huì)出現(xiàn)人工智能的冬天,。就是因?yàn)橛萌斯さ姆椒▉磔斎胩卣鱽碇v這是很困難的,,有的時(shí)候還做不到。比如說人類的知識(shí)和經(jīng)驗(yàn)?zāi)銦o法描述,,所以這就使得人工智能很難做出來一個(gè)實(shí)用的系統(tǒng),,后來就變成大家對(duì)它不寄予很大的希望,,只能在玩具世界或者是在實(shí)驗(yàn)室里做一點(diǎn)兒系統(tǒng),做出來的實(shí)用系統(tǒng)是很難的,。
當(dāng)時(shí)美國為了做一個(gè)醫(yī)療診斷系統(tǒng),,結(jié)果花了六年的時(shí)間才把專家的知識(shí)放到計(jì)算機(jī)里面去,而且這個(gè)系統(tǒng)后來還沒有用上,。
這個(gè)系統(tǒng)的優(yōu)點(diǎn)就是說它跟人類的系統(tǒng)是一樣的,,所以可理解、可解釋,,而且魯棒性也比較強(qiáng),。缺點(diǎn)就是剛才說的手邊知識(shí),需要來自專家的知識(shí),,是昂貴的,、難以推廣的。
深度學(xué)習(xí)時(shí)代
這個(gè)事情有重要的變化,,就是深度學(xué)習(xí),。這個(gè)深度學(xué)習(xí)大家知道,實(shí)際上只是把神經(jīng)網(wǎng)絡(luò)這個(gè)層次增加了,,原來只有1層,,變成2層以上,把機(jī)器學(xué)習(xí)起了一個(gè)根本性的改變,,這個(gè)是大家沒想到的,、出乎大家意料的。這個(gè)根本性的改變?cè)谟谳斎氩恍枰斯みx擇特征,,而是原始數(shù)據(jù),。
這是什么意思呢?你用這個(gè)工具的時(shí)候,,不需要專業(yè)知識(shí),,過去要搞人臉識(shí)別,你必須要搞清楚人臉識(shí)別是根據(jù)什么特征來識(shí)別的,。因此,,做過十年人臉識(shí)別的人跟剛剛進(jìn)入做人臉識(shí)別的人,他的經(jīng)驗(yàn)要多得多,,你沒有這方面的經(jīng)驗(yàn),,你要從頭做起。
但是現(xiàn)在不一樣了,,你做了十年的人臉識(shí)別跟剛剛進(jìn)去的人臉識(shí)別,,大家是一個(gè)起跑線上的,因?yàn)橹灰阌袛?shù)據(jù),,我就不知道他是什么特征,,機(jī)器自動(dòng)學(xué)習(xí),。所以,這個(gè)問題就變成了深度學(xué)習(xí)完全改變?cè)瓉砟P偷男再|(zhì),,變成了一個(gè)通用的工具,,它通用,就等于說人臉識(shí)別學(xué)人臉識(shí)別,,你做大數(shù)據(jù)的學(xué)金融,,只要把原始數(shù)據(jù)輸進(jìn)去就可以了,不需要太多金融的知識(shí),。
所以,,人工神經(jīng)網(wǎng)絡(luò)的性質(zhì)發(fā)生了變化,從單純的函數(shù)映射到表示學(xué)習(xí),,就自動(dòng)學(xué)習(xí)表示方法,。這就是我們現(xiàn)在深度學(xué)習(xí)廣泛傳播大量應(yīng)用的一個(gè)重要原因,誰拿去都可以用,。但是這個(gè)問題大概三,、四年前大家也發(fā)現(xiàn)了,大家以為是很完美的工具,,其實(shí)現(xiàn)在發(fā)現(xiàn)這是一個(gè)非常不完美的工具,。
自然語音識(shí)別模型
深度學(xué)習(xí)的影響有大?我們?cè)瓉砀阏Z音識(shí)別的時(shí)候,,必須人工選擇特征,,這個(gè)特征一經(jīng)過處理以后非常復(fù)雜,用的模型是這個(gè)模型,,用的特征是倒拼圖推進(jìn),,一會(huì)兒要把語音變成拼圖,拼圖又返回去積分,,后來都不知道變成什么樣子了?,F(xiàn)在不一樣了,有了深度學(xué)習(xí),,原始的拼圖,、原始的波形,輸進(jìn)去就可以了,。
這個(gè)改變是非常本質(zhì)的,,就是說2001年用這種模型,以前用這種模型,,基本上只能達(dá)到80%,,幾乎不能用,現(xiàn)在已經(jīng)變成了商品,所有的商品都是用的深度模型,,識(shí)別率是一般的95%或者是更高,有的還可以新增,,比人類的還好一點(diǎn)兒,。這個(gè)問題就是一步的變化,從原來的模型變成一個(gè)深度模型,,把層數(shù)增加,。
當(dāng)前人工智能方法的局限性
當(dāng)前人工智能方法的局限性在于只適用于以下場(chǎng)景:
具有充分知識(shí)(能清楚表述的問題)或數(shù)據(jù) ·確定性 ·完全信息 ·靜態(tài)(按確定規(guī)則演化) ·特定領(lǐng)域(領(lǐng)域邊界清晰)與單任務(wù)
這些不用解釋了,大家一看就明白,,我只解釋一個(gè)完全信息,。大家看一下,現(xiàn)在AlphaGo,,過去的深藍(lán),,為什么做得這么成功?就是因?yàn)檫@個(gè)棋是完全信息博弈,,如果是完全信息的話,,對(duì)于計(jì)算機(jī)來講是極為容易的,絕對(duì)是會(huì)超過人類的,。所以,,圍棋、象棋最終機(jī)器是會(huì)超過人類的,,只是時(shí)間問題,。
但是如果你這個(gè)變成不完全信息,比如說像牌類,,現(xiàn)在不管是四人橋牌也好,,四人麻將也好,計(jì)算機(jī)根本不是人類的對(duì)手,,原因就在于不完全信息,。對(duì)決策也是一樣,如果你的決策是完全信息決策,,是完全信息決策,,機(jī)器絕對(duì)會(huì)超過人。但是如果你是不完全信息決策,,那計(jì)算機(jī)跟人類相比還差得遠(yuǎn),。但是很不幸,所有的決策場(chǎng)景都是不完全信息,,實(shí)際的決策場(chǎng)景都是人的,。
這里還有確定性、靜態(tài)演化、特定領(lǐng)域,、限定領(lǐng)域,,如果領(lǐng)域不限定,那這個(gè)是不行的,。
基于深度學(xué)習(xí)的識(shí)別系統(tǒng)與人類感知
還應(yīng)該看到應(yīng)用深度學(xué)習(xí)或者是大數(shù)據(jù)建立系統(tǒng),,有非常大的缺點(diǎn),跟人類的認(rèn)知完全不是一碼事,。
這里面的例子很多,,就是我題目里面講的兩個(gè)缺點(diǎn):不可解釋性(最大的缺點(diǎn))和魯棒性很差,非常脆弱,。
犯大錯(cuò)與不可解釋性
我舉一個(gè)很簡(jiǎn)單的例子,。物體識(shí)別系統(tǒng),你可以做得識(shí)別率甚至超過人,,計(jì)算機(jī)目前來講在給定的圖像架構(gòu)下,,它的識(shí)別率是可以超過人的。就是這樣的系統(tǒng),,你給它一個(gè)噪聲,,可以識(shí)別成為知更鳥。你再隨便給它一個(gè)噪聲,,你可以制造一個(gè)噪聲,,讓它識(shí)別為獵豹。
換句話說,,這個(gè)系統(tǒng)我們所謂的模式識(shí)別系統(tǒng),,不是人類的感知,只是一個(gè)機(jī)械的分類器,,它能夠把知更鳥和獵豹區(qū)分開來,,但是它絕對(duì)不認(rèn)識(shí)什么是獵豹,什么是知更鳥,。也就是說它只達(dá)到了低等動(dòng)物的水平,,而不是人類的水平。
魯棒性差
這個(gè)是我們的博士生做的,,這個(gè)是阿爾卑斯山,,計(jì)算機(jī)看起來是阿爾卑斯山,人看起來也是阿爾卑斯山,。
我們只要給它一點(diǎn)點(diǎn)噪聲,,這張圖的阿爾卑斯山和這張圖的唯一區(qū)別,就是噪聲多一點(diǎn)兒,,人類看起來當(dāng)然是阿爾卑斯山,,計(jì)算機(jī)看起來是一條狗,,而且我們可以讓它的自信度達(dá)到99.99%,它99.99%的把握認(rèn)為它是一條狗,。
數(shù)據(jù)驅(qū)動(dòng)的本質(zhì)缺陷是只能學(xué)習(xí)重復(fù)出現(xiàn)的片段,,不能學(xué)習(xí)具有語義的特征。這就是今天大家在大量討論的人工智能的安全性問題,,聯(lián)合國也要討論這個(gè)問題,,這個(gè)是由這個(gè)引起的,不是說要做出來人工智能超過人,,這是有危險(xiǎn)的。不是,,這個(gè)危險(xiǎn)在于系統(tǒng)極端的脆弱性,。
所以,你無論說什么樣的系統(tǒng),,用這種辦法做出來,,就非常容易被攻擊。正是大家利用這個(gè)攻擊的手段,,現(xiàn)在造成了各種各樣的很多人工智能系統(tǒng)癱瘓,。不僅僅使你癱瘓,現(xiàn)在還有一種攻擊方法,,能讓你去干別的事,。所以,這就是人工智能的危險(xiǎn)性,,是在這里,。
這個(gè)問題的嚴(yán)重性還在于,實(shí)際上這個(gè)是它的本質(zhì)引起的,,不是因?yàn)槲覀兙幊虥]編好或者是我們沒考慮到,,不是的,是完全由本質(zhì)引起的,,就是深度學(xué)習(xí),、大數(shù)據(jù)。
我們要知道,,我們現(xiàn)在講的大數(shù)據(jù)和以前說的大數(shù)據(jù)不是一碼事,,我們現(xiàn)在指的大數(shù)據(jù)是網(wǎng)絡(luò)上那些低質(zhì)量的大量數(shù)據(jù),這叫做深數(shù)據(jù),,這才是我們關(guān)注的,。網(wǎng)絡(luò)上的數(shù)據(jù)盡管非常多,但是大量是低質(zhì)量的,,造謠,、造假,有很多的。你用一個(gè)質(zhì)量很低的數(shù)據(jù),,用概率統(tǒng)計(jì)方法來學(xué)習(xí),,能學(xué)出什么東西來呢?只能學(xué)出那些重復(fù)出現(xiàn)的片斷,,不可能學(xué)出來有語義特征的部分,。
這是跟人類完全不一樣的結(jié)果。人類怎么認(rèn)識(shí)牛和馬呢,?他能夠看到它的馬頭,、馬尾巴、軀干,,計(jì)算機(jī)看不到,,只能看到那些非常低層次的紋理、線條,,用這個(gè)來區(qū)別普通物體,。
我們看一下這個(gè),深度學(xué)習(xí)學(xué)出來的都是這個(gè),,利用這個(gè)來區(qū)別什么是牛,、什么是馬。這種情況如果用到?jīng)Q策是絕對(duì)不允許的,,我們用到模式識(shí)別還馬馬虎虎,。也就是說它跟人類的不同在什么地方呢?人類也許把騾看成驢,,但是計(jì)算機(jī)完全可以把看成一頭驢,,也就是它會(huì)犯原則性的語義上的大錯(cuò),人類不會(huì),。
所以,,這個(gè)對(duì)于決策來講是不可以用的,但是模式識(shí)別是可以用的,,你把模式識(shí)別也是一個(gè)錯(cuò),,看騾看成驢也是一個(gè)錯(cuò),不分錯(cuò)的大小,。
這個(gè)問題怎么辦,?這個(gè)現(xiàn)在實(shí)際上有很多的問題:
醫(yī)學(xué)圖像識(shí)別:現(xiàn)在大家做醫(yī)療診斷,做了很多的圖像識(shí)別,,而且識(shí)別率可以達(dá)到醫(yī)生的水平,,這確實(shí)如此但是醫(yī)生不敢用,你說他有癌癥,,你搞不清楚它根據(jù)什么說他是癌癥這叫不可解釋性,,你做得再好他也沒法用,。
語音識(shí)別:我們現(xiàn)在說是超過人,那是在非常限制的條件下,,你的語音必須沒有任何的噪聲,,所有的語音識(shí)別你必須對(duì)著話筒講,如果我離遠(yuǎn)一點(diǎn)講,,識(shí)別率就非常低,,不允許有任何的干擾,也就是說它非常的脆弱,。 我們現(xiàn)在先看一下,,數(shù)據(jù)驅(qū)動(dòng)非常大的好處,他是用的向量,,所有的數(shù)學(xué)工具都可以用上,,過去的人工智能為什么不行呢?數(shù)學(xué)用不上,,是用符合來表示,你用邏輯推理這套東西,,你的數(shù)學(xué)工具非常有限,。
兩個(gè)基本模型
大家看到的深度學(xué)習(xí)全是數(shù)學(xué),所以大家的辦法很簡(jiǎn)單,,這個(gè)就是很大的問題了,,我們?nèi)绾谓鉀Q一個(gè)可解釋性,就是要把這兩個(gè)結(jié)合起來,,知識(shí)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)結(jié)合起來,。
文本語言是這么處理的,圖像語音是那樣處理的,,現(xiàn)在的辦法很簡(jiǎn)單,,語義的向量空間,把符號(hào)變成向量,,把特征變成語義,。所有的數(shù)學(xué)工具全能用上,怎么辦呢,?如何把符號(hào)變成向量,。
后深度學(xué)習(xí)時(shí)代
這樣,我們就可以建立一個(gè)統(tǒng)一的理論用數(shù)學(xué)來處理它,,所以我覺得現(xiàn)在人工智能才有資格說你是一門科學(xué),,我過去一致認(rèn)為,人工智能不是一個(gè)科學(xué),。我圖像跟語言文在一個(gè)空間里面了,,這也符合人類,。
就全變成數(shù)學(xué)問題了,因?yàn)檫@個(gè)沒有解釋,,現(xiàn)在就搞了各種各樣的優(yōu)化方法來做,,我們說機(jī)器翻譯也完全可以利用這個(gè)做,過去的機(jī)器翻譯全是不用數(shù)學(xué)的,,現(xiàn)在全是數(shù)學(xué),,全是優(yōu)化方法來做,這也是我們研究院里面做的工作,。
但是大家也看到了,,總體來講,效果有提高,,提高不多全世界都是這樣,,也就是說這個(gè)工作有大量的工作需要做,另外一個(gè)辦法就是符號(hào),。但是,,我們需要把大量的數(shù)據(jù)換進(jìn)去,沃森就是做的這個(gè)工作,。
最關(guān)鍵的問題是兩條,,如果可以解決的話我們也可以用這個(gè)模型來解決,就是要向數(shù)學(xué)學(xué)習(xí)的方法,。
我認(rèn)為從人工智能的角度來講,,這個(gè)系統(tǒng)做得最好,大家看到好的AlphaGo什么的,,其實(shí)AlphaGo并沒有它好,。它用了資源就這些,非常多,,有原始感,,文學(xué)作品都是沒有經(jīng)過加工的,這是他的系統(tǒng),。
從特征空間往一個(gè)空間去這個(gè)要學(xué)習(xí)人類,,人類同樣用神經(jīng)網(wǎng)絡(luò)做出來能學(xué)到語義,計(jì)算機(jī)學(xué)不到語義,,原因是缺少這些,,因?yàn)槿斯ど窠?jīng)網(wǎng)絡(luò)太簡(jiǎn)單了,所以這里面必須把神經(jīng)網(wǎng)絡(luò)的東西加進(jìn)去,,這個(gè)是我們也做的一些工作,,加上去以后就可以學(xué)到含有語義的東西。
我們可以看一下,,最終走向真正的人工智能必須得有嘗試,,沒有嘗試這個(gè)系統(tǒng)實(shí)際上都是你告訴他的,,對(duì)一個(gè)對(duì)話系統(tǒng)來講,對(duì)機(jī)器來講,,它只能回答你告訴他的,,現(xiàn)在好一點(diǎn),你沒有直接告訴他,,他利用推理可以由原來的知識(shí)里面推出新的結(jié)論,,這個(gè)沃森能做到,但是做到的很有限,,比人類還差得很多,。
我們剛剛講過,人類理性智能一個(gè)最重要的表現(xiàn)就是你的推理能力,,你的判斷能力,,除掉你的知識(shí)和經(jīng)驗(yàn)之外。美國人花了很大的功夫去做這個(gè)事兒,,我們國家上次在知識(shí)圖譜會(huì)上就強(qiáng)調(diào),,我們也必須做,你想中國人工智能要走到世界的前面,,或者說跟上人家,,你不做這些工作可能是不行的。
我們利用嘗試進(jìn)行對(duì)話等等,,就可以解決詞匯里面沒有的詞,計(jì)算機(jī)可以通過里面的知識(shí)來判斷這個(gè)詞大概是什么意思,。