從自動駕駛,、無人機(jī),到監(jiān)控安防,,視覺 AI 技術(shù)的突破為人們生活帶來了巨大改變,在許多領(lǐng)域迎來爆發(fā)式發(fā)展,,僅在國內(nèi)就涌現(xiàn)商湯,、云從、曠視和依圖等四大視覺 AI 獨(dú)角獸,。但若真要論能為使用者帶來多大改變,,恐怕很少有比得上這一項(xiàng),那就是用視覺 AI 來打造盲人的眼睛,。
無障礙人工智能成顯學(xué),,各大科技巨頭亦相繼致力投入
AI for Accessibility、無障礙人工智能近來已在國際間成為一項(xiàng)顯學(xué),。如何將發(fā)展迅速的人工智能技術(shù),,用來改善全世界約 10 億殘疾人士的生活,也是各大科技巨頭致力投入的方向之一,。
以視障者來說,,近日 Instagram 就新增一項(xiàng)輔助功能,用 AI 自動辨識照片內(nèi)容并以語音告知用戶,。臉書 Messenger 也有無障礙機(jī)器人(Accessibility Bot),,協(xié)助盲人辨識臉書朋友,甚至是朋友的臉部表情,。華為 Mate 20 Pro 也有一個(gè)應(yīng)用程序 Facing Emotions,,可以將七種最普遍的情緒轉(zhuǎn)化為相應(yīng)的聲音,可以大幅提升盲人與其他人的實(shí)時(shí)互動交流,。
影像視覺 AI 并不是新的概念,,其背后技術(shù)主要包含機(jī)器學(xué)習(xí)、深度學(xué)習(xí),,再加上 3D 臉部辨識等,。尤其是深度學(xué)習(xí)算法運(yùn)用在訓(xùn)練 AI 來協(xié)助盲人辨識物體,可以發(fā)揮非常大的用處,。
比方說,,如果我們想要設(shè)計(jì)一個(gè) AI 協(xié)助盲人分辨不同面額的紙鈔。做法就是將一張 10 元紙鈔,通過各種不同角度,,包含正面,、反面、整張,、邊角,、其中每一小片圖案,都展示給 AI 看,,讓它學(xué)習(xí)什么是一張 10 元紙鈔,。通過大量反覆學(xué)習(xí)后,視障者只要能讓手機(jī)鏡頭看到 10 元紙鈔的一小角,,AI 就能將它分辨出來,。
“這些小事,會讓你很確實(shí)地感覺到自己的獨(dú)立性,。希望隨著人工智能的進(jìn)展,,可以讓我們更容易感受環(huán)境,協(xié)助我們完成更多日常事務(wù)”,,微軟視覺輔助應(yīng)用程序 Seeing AI 的項(xiàng)目主管,、同時(shí)自身也是視障者的 Saqib Shaikh,近日接受專訪時(shí)這樣對 DT 君說,。
圖|微軟技術(shù)負(fù)責(zé)人( Tech Lead)Saqib Shaikh (來源:微軟)
Saqib Shaikh 在 7 歲時(shí)失去視力,,此前不久,他才剛剛得到人生中的第一臺電腦,。
所幸這并不是他與計(jì)算機(jī)科學(xué)之間的句點(diǎn)
而后他就讀視障學(xué)生小學(xué),,一位老師看出了他的潛力,鼓勵(lì)他開始學(xué)習(xí)打字,。此后他一路進(jìn)入大學(xué),,主修計(jì)算機(jī)科學(xué),以班上頂尖的成績畢業(yè),,并取得人工智能碩士學(xué)位,。而后,他又加入微軟的人工智能團(tuán)隊(duì),,并在大約 3 年前通過微軟內(nèi)部的黑客松競賽,,以 Seeing AI 這個(gè)項(xiàng)目脫穎而出,獲得資源將之打造為實(shí)際產(chǎn)品,,現(xiàn)在已可在美國地區(qū)免費(fèi)下載,。
Seeing AI 用視覺 AI 幫助視障者“聽懂”世界
Seeing AI 這個(gè)是一款結(jié)合圖像辨識、語音說明及人性化使用介面的應(yīng)用程序,,可以用手機(jī)上的攝像頭識別所有圖像,,包含通過掃描條形碼來識別產(chǎn)品、辨識身旁其他人的年齡,性別和面部表情,,還可以描述它在圖片中看到的內(nèi)容,,并閱讀出菜單和文件。
同時(shí),,這款應(yīng)用程序也可以結(jié)合智能眼鏡,,更好地協(xié)助用戶了解所處的周遭環(huán)境。
圖|Seeing AI 是一款結(jié)合圖像辨識,、語音說明及人性化使用介面的應(yīng)用程序(來源:微軟)
Saqib Shaikh 指出,近年深度學(xué)習(xí)技術(shù)的成熟,,是 Seeing AI 可以真正發(fā)揮用處的主要關(guān)鍵,。通過深度學(xué)習(xí)訓(xùn)練,向系統(tǒng)展示大量照片,,并教導(dǎo)它們照片中的內(nèi)容,,AI 可以真正有效辨識出現(xiàn)實(shí)生活環(huán)境中的各種物體與人物。
但是,,要落實(shí)到讓 AI 有效協(xié)助視障者在生活中能真正用上,,還必須歸功于近年硬件技術(shù)的發(fā)展,在軟,、硬件配合之下,,讓視覺 AI 技術(shù)實(shí)用價(jià)值大大提升。尤其是邊緣運(yùn)算風(fēng)潮興起,,視覺信息可以在裝置終端就能完成運(yùn)算,,才能對使用者提供實(shí)時(shí)反饋,讓盲人能夠即時(shí)對互動對象做出適合的反應(yīng),。
實(shí)時(shí)反饋絕對是關(guān)鍵,。Saqib Shaikh 說,想像一個(gè)情境,,當(dāng)你在一個(gè)會議上進(jìn)行簡報(bào),。因?yàn)檫@是一個(gè)正式場合,因此所有人,,包含旁邊的同事,、上級主管,都只是安靜聽你說話,,不會任意發(fā)出聲音,。所以在你說話的同時(shí),若無法用眼睛去觀察聽眾,,你對于他們的反應(yīng)是毫無頭緒的,,你甚至不知道應(yīng)不應(yīng)該繼續(xù)說下去,還是暫停下來詢問聽眾的想法。
這時(shí)候,,如果有一個(gè) AI 可以幫你辨識聽眾的反應(yīng),,實(shí)時(shí)反饋你他們是不是看起來滿意、尤其是還能辨認(rèn)出特定人士,,比方說直屬主管的表情和動作如何,,這樣一個(gè)人工智能,將能夠大大地讓盲人突破限制,,改善他們在日常工作中表現(xiàn),。
非監(jiān)督學(xué)習(xí)是視覺AI 下一步突破關(guān)鍵
今日我們所談的視覺 AI,其實(shí)多半仍局限于靜態(tài)圖像,、單一圖像,,但 Saqib Shaikh 想像中的 Seeing AI 2.0,將可以解讀一系列的圖像,、可以掌握使用者的偏好
“就像當(dāng)我與妻子一起在街上走路時(shí),,她會告訴我有什么我沒看過的新東西、有什么有趣的事物,。比方說,,她會告訴我我們很喜歡的一間咖啡店關(guān)門了?!盨aqib Shaikh 說,,“一個(gè)真正的人可以了解什么是你會感興趣、什么是你會覺得重要的事物,?!?/p>
而 AI 若要能夠做到這一點(diǎn),就不能只是一次辨識單一圖像,,而是還要能綜合理解背后的情境,,甚至是接續(xù)出現(xiàn)的新的信息。Saqib Shaikh 分析,,這意味著后續(xù) Seeing AI 必須運(yùn)用更多非監(jiān)督學(xué)習(xí)的技術(shù)來訓(xùn)練 AI,,進(jìn)一步拓展 AI 對多變場景復(fù)雜信息的處理能力。
其實(shí),,Saqib Shaikh 早在求學(xué)期間意識到,,為了讓身為盲人的自己表現(xiàn)更好,他必須做很多額外的努力來改變他所處的生活環(huán)境,,包括不只是自己看書,、而是要雇請其他人為他朗讀教科書的內(nèi)容等,才能讓自己與其他正常人站在更接近一點(diǎn)的比較基準(zhǔn)上,。
當(dāng)時(shí)就有個(gè)朋友建議過他,,與其只用嘴巴說要改變生活環(huán)境,,不如實(shí)際做點(diǎn)什么真正的改變。這讓他早就思考過,,從某種角度來講,,殘疾者本人其實(shí)就是最好的創(chuàng)新者。因?yàn)?,他們比任何人都了解殘疾者最迫切的需求是什么,?愿意做什么嘗試?可以如何改變,?
然而,,在 Saqib Shaikh 進(jìn)入微軟工作的近乎前 10 年,他并未在工作上試圖突出任何作為一個(gè)盲人的特殊能力,。相反的,,他讓自己就像一名正常的工程師一樣,絕大多數(shù)時(shí)間都投入內(nèi)部的主流專案,,如 Cortana 等。
?。▉碓矗何④洠?/p>
“我想,,起初我是想證明自己可以成為一個(gè)主流的工程師”,Saqib Shaikh 說,,而轉(zhuǎn)捩點(diǎn)是出現(xiàn)在他于微軟工作的第10年,。“工作滿 10 年后,,我覺得我已經(jīng)達(dá)到了目標(biāo),,證明了自己的能力,所以我可以開始運(yùn)用自己的專業(yè)去幫助其他人,?!?/p>
現(xiàn)在,他終于決定投入自己真正想做的事情,,也就是用 AI 來改善殘疾人士的生活環(huán)境,。就像他所說的,“我可以選擇用這一種與我自己最相關(guān)的方式,,從個(gè)人經(jīng)驗(yàn)來理解許多盲人的問題,,并且用自己的專業(yè)來提供協(xié)助?!?/p>