看到“雙節(jié)”期間中國有 5.5 億人出行的新聞,我不由得虎軀一震,。想到了人會多,但沒想到會這么多,!看來大家都充滿了探索欲,希望在難得的假期去往自己熟悉或未知的地方,。
就算你選擇了“家里蹲”,也一定會通過網(wǎng)上沖浪,、閱讀游戲等方式,來探索自己的內(nèi)心世界,。
探索是人類的本能,從嬰兒時期開始,,好奇心就驅(qū)動著我們?nèi)ヌ剿鞑⒗斫庾约核诘氖澜纾?AI 的成長則離不開對人類的觀察與模仿,,其中,就包括探索的能力,。
這種能力被算法掌握之后,出現(xiàn)了阿爾法狗打敗人類棋圣,,也出現(xiàn)了 OpenAIFive--在電子游戲領域完虐人類玩家。不過即便如此,,人類的探索能力依然令最高級的 AI 都望塵莫及,。
比如嬰兒可以從爬行和探索中學會認知三維空間,,而一些計算機視覺還總被曝出被平面照片所欺騙過去的新聞,,上馬更高性能的 3D 視覺算法則需要耗費巨大的算力資源,,從這個角度看,人腦無疑在效果和效率上都碾壓了 AI,。
那么,,能不能引入兒童的學習能力,來實現(xiàn)更聰明的 AI 呢,?這個猜測,,就像是“把愛因斯坦的大腦給我我也能拿諾貝爾獎”一樣,是一個有點鐵憨憨,,又有點重要的問題。
5 歲小孩碾壓 AI,,“玩”就夠了
大家不妨在假期做一個生活觀察,,看看小孩子們是如何探索世界的,?
如果一個玩具看起來有很多玩法,但他們不知道哪一個是正確的,,小孩子們會進行假設驅(qū)動的探索,,如果“假設”失敗了,他們就會轉(zhuǎn)向新的玩具,。
有研究顯示,,一個 11 個月大的嬰兒,在看到許多違反物理定律的現(xiàn)象時,,會忍不住對其進行更多的探索,,甚至會做出一些違規(guī)行為來實踐自己的假設。
比如看到一輛漂浮在空中的汽車,,有點顛覆以往的認知了,,你會怎么做?嬰兒會選擇將玩具砰地扔到桌子上,,想知道這種“不合常理”的情況是怎么出現(xiàn)的(所以阻止熊孩子弄壞你手辦的唯一辦法,,就是根本不要讓他們看到它們)。
這種“不見黃河心不死”式的自由探索,,有時會令家長和大人們不堪其擾,,但抽象化的“假設”能夠讓人類做出大量預測,,想象出許多新的可能性,,不僅是一種極為有意義的學習方式,,更是人類創(chuàng)造力的由來,。
不過就像小王子覺得枯燥的大人們看不到“蟒蛇肚子里的大象”一樣,,令人遺憾的是,這種探索能力是幼兒的專長,,大部分情況下只存在在 5 歲以前,,這也讓他們成為宇宙中最好的學習者,。
既然兒童行為如此有參考意義,,科學家們自然也想得到,。事實上,兒童發(fā)展學對 AI 的進展起到了重要的方向牽引作用,。
科學家們曾將好奇心引入神經(jīng)網(wǎng)絡,,打造了深度增強學習,通過獎勵反饋來鼓勵智能體(agent)主動探索和理解環(huán)境,,更新模型參數(shù),。這讓 AI 能夠自主獲得技能,在電子游戲等需要通用智能的復雜場景中能夠做出自己的決策,,而不是人類預先通過龐大的標注數(shù)據(jù)集給定答案,。
其他類型的兒童行為亦有價值,。前面提到的“不見黃河心不死”的探索,,就被化作深度優(yōu)先搜索策略,,DeepMind 和加州大學伯克利分校的研究人員,,開發(fā)了一個 3D 導航和解謎環(huán)境。智能體(agent)沿著特定路徑進行探索,,如果遇到死胡同,,那就回去找到下一條沒有探索過的道路,,繼續(xù)前進,。
聽起來是不是很像小孩子走迷宮的游戲?這能讓智能體接觸到各種各樣的經(jīng)驗,,在信息較少的環(huán)境中工作;減少對數(shù)據(jù)量的依存,,改變目前算力資源緊張的局面,,讓許多小數(shù)據(jù),、少樣本的領域(如金融、醫(yī)療)也能實現(xiàn)智能化,。
將兒童探索行為應用于 AI,,一切都能變得更好,理想層面上確實如此,,但現(xiàn)實總喜歡跟科學家們開玩笑,,也算是給人類保留了一個“殺手锏”吧,。
AI 能力暴漲的當下,,人類為什么還能穩(wěn)坐智慧王座,?
需要注意的是,這些類似兒童探索的策略,,通常更多被用在訓練期間提高代理人的經(jīng)驗值,而不是在決策時支持快速學習和探索,。用人話說就是“懂得了許多道理,卻不一定能過好這一生”,,因為一到關鍵選擇時刻就會掉鏈子。
就拿前面提到的深度優(yōu)先搜索(DFS)來說,科學家們發(fā)現(xiàn),,如果讓孩子們自由探索,,那么他們與智能體按 DFS 做出的行動有 90%的相似,,而以目標為導向(找到橡皮糖)來探索的話,,有 96%的路線都是相似的。但不同的是,,探索越多的孩子,,最后能花費更少的時間完成任務,智能體卻相反,。
如果智能體發(fā)現(xiàn)一個地方很有趣(能得到獎勵),,就會一直重新訪問該區(qū)域,直到它終于終于終于覺得那里不再有趣了,,這會導致其概括性不佳(無法形成最佳策略),。
其中的差別就在于,孩子不是被動地孤立學習或由目標驅(qū)動,,而是在不斷實驗和收集信息,,將自己的認知和經(jīng)驗與獲得的信息結合起來,編織出一個豐富的世界模型,。而即使最復雜的機器探索方法,,也只能為特定的目標服務,一時半會還無法完美匹配這個充滿了各種“意外”的真實世界,。
為什么有了一定的探索能力,,AI 智能體的表現(xiàn)還是不盡如人意呢?
首當其沖就是實驗室與現(xiàn)實環(huán)境的巨大不同,。
深度強化學習過去都是“機上談兵”,,不是跟人類在二維游戲里 PK,就是數(shù)字網(wǎng)格里下棋,,而兒童的探索則是發(fā)生在信息豐富的三維現(xiàn)實世界之中,,許多潛在因素很難被應用到實驗中。
這也是為什么,,當今最強大的 AI 智能機器人也達不到一個僅小學畢業(yè)的優(yōu)秀人類服務員的工作能力,,能像他們一樣快速適應環(huán)境、完成各種復雜任務,。
此外,兒童的發(fā)展心理學研究很難在 AI 產(chǎn)業(yè)鏈中形成“閉環(huán)”。要真正激發(fā) AI 生長出服務現(xiàn)實的能力,,不僅要構建出具有更強探索能力的智能體,,還要繼續(xù)學習人類的認知能力,推進人工智能自身的理論創(chuàng)新和軟硬件升級(比如搭建三維訓練環(huán)境),,這一系列鏈式突破,,才能最終將技術構想轉(zhuǎn)化為現(xiàn)實生產(chǎn)力?!按罅Τ銎孥E”的深度學習,,其高光時刻就是這么來的。
沿著這個方向,,我們可以進一步了解,,怎樣才能彌合智能體與人類之間的差距。
下一代 AI,,逐漸浮出迷霧的真實未來
在過去的數(shù)年里,,深度學習做到了傳統(tǒng)算法所無法企及的進度,催生了大量的工業(yè)界應用,,但其實,,現(xiàn)在的深度學習還是很傻--舉個例子,大部分人都可以通過幾十個小時的學習學會開小汽車,,而完全自動的 L5 級無人汽車至今還是個遙遠的夢,。
圖靈獎得主 Geoffrey Hinton 就一直非常渴望找到一種新的實現(xiàn)深度網(wǎng)絡的方法,,認為目前(最廣泛的反向傳播算法)根本不是大腦的工作機制,。
另一位圖靈獎得主 Yann Lecun,就認為在某些游戲中,,需要大量增加模型訓練時間才能達到或超過專業(yè)人類玩家的水平,。
通過兒童的學習模式,發(fā)現(xiàn)當前最優(yōu)秀的 AI 也比不上 5 歲小孩的智力,,或許我們可以回答“下一代 AI 應該是什么樣”,,這個神經(jīng)網(wǎng)絡最重要的未解難題之一。
至少要有兩重升級:
1. 有意識,。目前公認文字表達能力最高,、模型最為龐大的 GPT-3 也曾被專家吐槽是“無腦作業(yè)”,其實并不真正理解自己寫出的句子,。而具有自主探索,、決策、推理能力的 AI,,可以理解自己周圍的環(huán)境,,才是真正的人工智能,。
2. 能效比。為什么即使存在缺陷,,依然沒有妨礙深度學習帶領 AI 進來發(fā)展熱潮呢,?核心原因就在于深度神經(jīng)網(wǎng)絡大幅度降低了全社會處理、挖掘,、應用大數(shù)據(jù)的成本,。相對人腦而言,現(xiàn)有的計算硬件功耗都很高,,不斷提升 AI 性價比,,是避免再次陷入寒冬的唯一方法,也在呼喚更高級的算法,。
這兩個基本難題,,只能交給科學家和工程師們在針尖上做大文章了。對于我們普通人來說,,保有一顆如兒童般對世界的好奇心,,觸碰充滿各種信息的大自然,由此得來的系統(tǒng)認知與思維能力,,或許才是機器永遠無法企及,,且彌足珍貴的。