相信在人們的印象里,AI都是一個屬于“大多數(shù)”的技術(shù)門類,。
所謂大多數(shù),,第一意味著相關(guān)數(shù)據(jù)量大、便于累積,,適用于AI對海量數(shù)據(jù)極度依賴的特性;第二意味著應(yīng)用場景廣泛、便于變現(xiàn)回收成本,,適用于AI研發(fā)的高門檻投入。
目前我們身邊常常出現(xiàn)的人臉識別,、語音交互等等,,其實都符合以上這些特征。不過這并不意味著,,屬于“少數(shù)派”的AI是一片空白,。
在“全球無障礙宣傳日”這個特別的日子,我們不如把目光投向于那些能夠消弭“少數(shù)與多數(shù)”區(qū)別的技術(shù)發(fā)展,,例如服務(wù)于聽障人群的手語識別,,就是一個典型的例子。
你我不懂的手語,,
為什么AI也很難讀懂,?
手語是用手勢比量動作,根據(jù)手勢的變化模擬形象或者音節(jié)以構(gòu)成的一定意思或詞語,是聽障人群獨有的一種溝通方式,。但這種溝通方式雖然能讓聽障人士之間彼此溝通,,或讓理解手語的普通人與之溝通,但仍然不能滿足聽障人士與普羅大眾之間的交流需求,。
這便意味著在一些社會公共空間之中,,例如政務(wù)場景或服務(wù)業(yè)場景,聽障人士可能都會遇到一些不便,。
而AI,,恰好成為了一種解決方案。
我們在一些軟件中,,已經(jīng)開始應(yīng)用到了AI的手勢識別能力,,像是拍照時“比心”來觸發(fā)一些AR特效。將這種對于手勢的捕捉,,和手勢語義對應(yīng)起來,,不就能實現(xiàn)對于手語的翻譯和生成了嗎?
這一邏輯是正確的,,可從邏輯正確到應(yīng)用可行,,卻還隔著一段不短的路程。
首先,,手語的表達(dá)有一定的特殊性,,想進(jìn)行捕捉并不容易。
我們知道在“比劃手勢”這種行為上,,本來就不存在絕對的精準(zhǔn)度,,加之一些手語詞匯的表達(dá)非常接近,而且手語表達(dá)通常是以句子為單位,,詞與詞之前不會有明顯的間隙,。以往手勢識別中利用前置攝像頭捕捉的方式,基本是不可行的,。
于是很多科技和團隊給出的解決方案是加以外設(shè),例如中科大和微軟推出了基于Kinect的手語翻譯系統(tǒng),,加州大學(xué)曾經(jīng)推出過的手語識別手套等等就是這樣,。可這些外設(shè)要么便攜程度低,,要么造價昂貴,,推廣起來有很大的困難。
同時,,手語表達(dá)同樣也有國別性和地域性,,在模型通用性上存在著困難。
手語中有“文法手語”和“自然手語”兩個概念,文法手語既是通用的普通話,,至于自然手語則如同方言一般,,在國別、地方甚至城市之間都有著不小的差異,。這也造成了手語數(shù)據(jù)收集,、標(biāo)注會是一項成本高、工作量大的事情,。
例如亞馬遜曾經(jīng)提出過,,對智能音箱Alex進(jìn)行改造可以使其翻譯出一些簡單的信號??墒且驗槿狈Υ笠?guī)模的訓(xùn)練數(shù)據(jù)集,,目前這一功能只能識別出一些簡單的美國手語,停留在實驗室階段,。
手語破題沒有秘法:
騰訊優(yōu)圖的平權(quán)精神
雖然探索艱難,,但科技企業(yè)們還是不斷在手語AI上取得成果。
例如騰訊優(yōu)圖實驗室在今天推出聯(lián)合深圳市信息無障礙研究會發(fā)布的“優(yōu)圖AI手語翻譯機”,,就在手語AI的應(yīng)用上邁出了跨越性的一步,。
優(yōu)圖AI手語翻譯機的突破性意味存在于兩方面,一方面是手語AI本身技術(shù)的進(jìn)展,,另一方面是應(yīng)用場景的突破,。
在手語AI技術(shù)本身上,可以分為識別模型和數(shù)據(jù)集兩個解決路徑,。在數(shù)據(jù)集上,,優(yōu)圖通過和社會相關(guān)機構(gòu)以及聽障人士的接觸自建了手語識別數(shù)據(jù)集,目前這一數(shù)據(jù)集已經(jīng)實現(xiàn)了近千句日常表達(dá)和900個常用詞匯的覆蓋,,是當(dāng)前規(guī)模最大的中文手語識別數(shù)據(jù)集,。而且這一數(shù)據(jù)集針對手語表達(dá)的地方性差異,做出了表達(dá)習(xí)慣和速度上的多樣性拓展,。
至于識別模型上,,優(yōu)圖也提出了一些更新的算法搭建概念,例如通過2D卷積神經(jīng)網(wǎng)絡(luò)和3D卷積神經(jīng)網(wǎng)絡(luò)分別提取手勢中靜態(tài)和動態(tài)的信息,,經(jīng)由綜合處理來提升視頻識別效果,,徹底擺脫其他傳感器的桎梏。同時針對手語表達(dá)的整句化的現(xiàn)象,,優(yōu)圖在視頻幀的最后加入了詞級信息挖掘,,對特征提取器提出的信息進(jìn)行核驗,進(jìn)一步去確定手勢對詞語表達(dá)邊界,,除了提升識別精準(zhǔn)度以外,,還能提升對自然手語中地域表達(dá)的總結(jié)能力,。在此基礎(chǔ)上,優(yōu)圖還在算法模型中引入了上下文理解能力,,以便于面對更加復(fù)雜的手語識別翻譯需求,。
不過技術(shù)雖然得以提升,應(yīng)用場景端仍然會受到一些限制,。
由于高精度算法對于算力的要求較高,,目前優(yōu)圖AI手語翻譯機還需要依賴于高性能計算機的后臺運算;且因為通過圖像視頻進(jìn)行識別,,對于復(fù)雜場景的辨識度還不高,,因此優(yōu)圖AI手語翻譯機的應(yīng)用規(guī)劃,是應(yīng)用于探索在機場,、高鐵,、民政等公共服務(wù)場所之中,來彌補由于手語的低普及程度,,聽障人士在這些場所里遇到的交流障礙,,以技術(shù)協(xié)助共建一個信息無障礙的城市。
其實我們不難發(fā)現(xiàn),,優(yōu)圖實驗室的優(yōu)圖AI手語翻譯機雖然在手語翻譯準(zhǔn)確率上大大提高,,也為AI手語翻譯找到了可行的應(yīng)用方案,可如果將技術(shù)拆分來看就能發(fā)現(xiàn),,優(yōu)圖AI手語翻譯機技術(shù)突破原因,,并不是在某項基礎(chǔ)科學(xué)上突然取得了什么驚人的突破,而是在研發(fā)和數(shù)據(jù)累積上一貫長期的投入,,才能解脫于以往手語語料庫匱乏的困境,,在算法上不斷迭代。
換句話說,,騰訊在“少數(shù)派”的AI技術(shù)中投入了幾乎與“大多數(shù)”AI技術(shù)相匹配的精力與財力,。對于AI產(chǎn)業(yè)來說,這無疑是一種平權(quán)精神,。
從以人為本到科技向善:
我們?yōu)楹我獙夹g(shù)洋流的
引導(dǎo)更加主動,?
騰訊這種看似“逆勢而行”的做法,其實也是AI產(chǎn)業(yè)中一種隱隱冒出勢頭的洋流方向,。
幾天以前,,在福州的數(shù)字中國峰會上,馬化騰首次提到了“科技向善”這一概念,,提出“我們希望‘科技向善’成為未來騰訊愿景與使命的一部分。我們相信,,科技能夠造福人類,;人類應(yīng)該善用科技,,避免濫用,杜絕惡用,;科技應(yīng)該努力去解決自身發(fā)展帶來的社會問題,。”
無獨有偶,,李飛飛在回歸斯坦福后,,就著手創(chuàng)辦了HAI研究所(以人為本斯坦福人工智能研究所),并在今年開始擔(dān)任所長,。HAI的研究目標(biāo),,就是推動AI技術(shù)向造福人類的方向發(fā)展,預(yù)測AI對人類生活的切實影響,。
科技巨頭和學(xué)界旗幟都將目光投向了同一方向,,是因為人們已經(jīng)開始逐漸發(fā)現(xiàn)AI、5G,、產(chǎn)業(yè)數(shù)字化等等技術(shù)力量的勢頭之強,,已經(jīng)到了不得不對其加以引導(dǎo)甚至約束的地步。
如同上文所說,,科技企業(yè)在這一波技術(shù)發(fā)展的過程中,,起到了很大的促進(jìn)作用,而逐利自然是企業(yè)的本能和天性,,因此企業(yè)會率先投身于那些滿足大多數(shù)人,、應(yīng)用場景廣泛、研發(fā)成本相對低的技術(shù),。
這種行為本身無可厚非,,但AI等等新技術(shù)帶來的效率提升實在過于顯著,是否會會對那些暫時無法接入新技術(shù)的領(lǐng)域和群體進(jìn)行擠壓甚至邊緣化,,是很多人都在思考的一個問題,。
例如隨著英漢日法俄等等主流語種的機器翻譯能力不斷增強,那些語料庫不充足,、應(yīng)用人數(shù)更少的小語種是否會因為得不到技術(shù)賦能,,而被進(jìn)一步地邊緣化?
同樣的,,當(dāng)公共事務(wù)辦理越來越多的被語音交互,、圖像識別等等AI技術(shù)替代,聽障,、視障群體在獲取服務(wù)時會不會遇到更多麻煩,?
類似的情況其實已經(jīng)發(fā)生:2018年年底,聯(lián)合國發(fā)布了對英國政府?dāng)?shù)字化成果的報告,,結(jié)果是數(shù)據(jù)顯示在英格蘭,,自2010年以來無家可歸者增加了60%,,保障住房的等待名單上有120萬人,用來救濟窮人的食品銀行需求量增長了近四倍——因為很多貧困人群并不知道如何在互聯(lián)網(wǎng)上申請貧困補助,,甚至家里都沒辦法連接互聯(lián)網(wǎng),,最終只能在貧困中越陷越深。
很多時候,,即使是無惡意的技術(shù),,也可能會出現(xiàn)無法預(yù)測走向。我們對于科技向善的引導(dǎo),,或許應(yīng)該更主動一些,。
結(jié)束語
最后,我們不如來看看這樣一組數(shù)字:
據(jù)2017年北京聽力協(xié)會預(yù)估數(shù)據(jù),,我國聽障人群數(shù)量約達(dá)到7200萬,。在全球范圍內(nèi),世界衛(wèi)生組織發(fā)布的最新數(shù)據(jù)顯示,,全世界有共計約4.66億人患有殘疾性聽力損失,。
——你看,這世界上所謂“大多數(shù)”和“少數(shù)派”本來就是一個相對性的概念,,并不存在黑白鮮明的區(qū)隔,。尤其對于AI這種善于模仿人類能力的技術(shù)來說,它的存在本可以推倒阻礙各個群體溝通交流的空氣壁,,而不是讓這種趨勢愈演愈烈,。我們關(guān)于利用技術(shù)搭建美好世界的目標(biāo),既然可以不拋下任何一個人,,就不該拋下任何一個人,。