圖像,、語(yǔ)音成為近兩年最熱門(mén)的概念,所謂娛樂(lè)驅(qū)動(dòng)市場(chǎng),,市場(chǎng)驅(qū)動(dòng)技術(shù)發(fā)展,。在多元化的互聯(lián)網(wǎng)圈里“好玩”才能紅,而圖像與音像也從過(guò)去的美化處理往更高深的技術(shù)領(lǐng)域前進(jìn),,在2016年,,智能的語(yǔ)音識(shí)別和圖像識(shí)別將走進(jìn)普通人的生活中,它們會(huì)有哪些展望和動(dòng)作呢?讓我們所見(jiàn)所聽(tīng)的世界將變得生動(dòng)起來(lái),。
語(yǔ)音識(shí)別
語(yǔ)音識(shí)別技術(shù)雖然起源于1952年,,但真正進(jìn)入消費(fèi)市場(chǎng)已經(jīng)是上世紀(jì)90年代的事了,。目前語(yǔ)音識(shí)別有兩大發(fā)展方向,一個(gè)是純機(jī)械指令,,基于產(chǎn)品定位而設(shè)計(jì)命令詞組,作為高效的輔助工具存在;一個(gè)是智能化理解語(yǔ)境,,與人進(jìn)行互動(dòng)交流,,并承擔(dān)部分處理工作。后者可能是語(yǔ)音識(shí)別未來(lái)的發(fā)展方向,,但實(shí)際應(yīng)用中兩者并不沖突,。簡(jiǎn)單精準(zhǔn)的機(jī)械指令讓工作更為純粹,沒(méi)必要做多余的計(jì)算動(dòng)作,。而很多智能設(shè)備將語(yǔ)音作為“解放雙手”的第三類(lèi)互動(dòng)形態(tài),,就需要對(duì)人的語(yǔ)境進(jìn)行“理解”,相信很多朋友都玩過(guò)siri,、GoogleNow,、Cortana,也同時(shí)體驗(yàn)過(guò)這些語(yǔ)音助手“會(huì)錯(cuò)意”的賣(mài)萌行為,。老羅在去年堅(jiān)果發(fā)布會(huì)上曾說(shuō)所有語(yǔ)音助手都是“偽”智能,,雖然有點(diǎn)以偏概全,但目前語(yǔ)音對(duì)語(yǔ)境的識(shí)別確實(shí)還不夠智能,,遠(yuǎn)不如機(jī)械指令效率,。不過(guò)這些問(wèn)題隨著深度學(xué)習(xí)等AI領(lǐng)域技術(shù)的崛起將逐漸克服。
圖像識(shí)別
圖像識(shí)別從以圖搜圖到明星,、物體識(shí)別,,再到場(chǎng)景識(shí)別,甚至現(xiàn)在延伸到了視頻領(lǐng)域,,給行業(yè)帶來(lái)了太多驚喜?,F(xiàn)在圖片內(nèi)容的價(jià)值已經(jīng)超越圖片本身,并且建立了從圖片到電商的商業(yè)模式,。圖像識(shí)別一般針對(duì)畫(huà)面中一個(gè)對(duì)象做識(shí)別,,比如大眾熟知的人臉、明星臉等識(shí)別技術(shù)已經(jīng)很成熟了,,基本識(shí)別率達(dá)到90%以上,。近年、服飾品牌的同款識(shí)別和風(fēng)景識(shí)別大行其道,,為旅游行業(yè)和服飾行業(yè)創(chuàng)造了商機(jī),。圖像識(shí)別在視頻領(lǐng)域涌現(xiàn)出強(qiáng)大的應(yīng)用前景,新興起的互動(dòng)視頻技術(shù)video++已經(jīng)實(shí)現(xiàn)視頻中的人臉和服飾同款的識(shí)別,,基于圖像識(shí)別技術(shù)發(fā)展視頻中的商業(yè)場(chǎng)景,。另外瞳孔識(shí)別的研究已經(jīng)提上日程,,不久的將來(lái),科幻片中所見(jiàn)即所得的情景不再是幻想,。
深度學(xué)習(xí)
沒(méi)有基礎(chǔ)的技術(shù)實(shí)力,,語(yǔ)音和圖像是好玩不起來(lái)的,而高級(jí)和低級(jí)的門(mén)檻就在深度學(xué)習(xí)的研究上,。國(guó)內(nèi)雖然起步較晚,,好歹在去年趕上了這波風(fēng)潮,包括圖像識(shí)別和語(yǔ)音識(shí)別在內(nèi),,還有自動(dòng)駕駛,、無(wú)人機(jī)、環(huán)境還原,、機(jī)器人等項(xiàng)目,,前段時(shí)間很火的谷歌AlphaGo在圍棋領(lǐng)域擊敗了歐洲二段冠軍,也是歸功于深度學(xué)習(xí)的算法支持,??梢哉f(shuō)跟用戶(hù)有交互行為的產(chǎn)品,都開(kāi)始進(jìn)行深度學(xué)習(xí)AI的研究了,。通過(guò)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí),,語(yǔ)音識(shí)別變得更聰明, 實(shí)現(xiàn)快速精準(zhǔn)的識(shí)別動(dòng)作以外,,還能對(duì)下一句的語(yǔ)境情緒進(jìn)行預(yù)測(cè),,模擬真人對(duì)話(huà)。另外,,語(yǔ)音識(shí)別大量運(yùn)用在翻譯市場(chǎng),,爭(zhēng)取未來(lái)十年內(nèi)在專(zhuān)業(yè)翻譯領(lǐng)域完全替代人類(lèi)。圖像識(shí)別過(guò)去大多是建庫(kù)識(shí)別,,深度學(xué)習(xí)釋放了圖像識(shí)別的識(shí)別領(lǐng)域,,把識(shí)別對(duì)象的年齡變化記憶下來(lái),實(shí)現(xiàn)動(dòng)態(tài),、多角度,、不同光照變化下的識(shí)別。
應(yīng)用領(lǐng)域
安防市場(chǎng)是要求語(yǔ)音和圖像識(shí)別技術(shù)雙高的行業(yè)之一,,未來(lái)將不局限在解鎖開(kāi)門(mén)等基礎(chǔ)功能,,運(yùn)用圖像識(shí)別技術(shù),實(shí)現(xiàn)對(duì)象動(dòng)作識(shí)別,,根據(jù)威脅等級(jí)進(jìn)行危險(xiǎn)性判斷,,提前發(fā)出警報(bào)或報(bào)警。語(yǔ)音識(shí)別的運(yùn)用領(lǐng)域?qū)⒊叨嘶l(fā)展,近年來(lái)語(yǔ)音識(shí)別速度屢創(chuàng)新高,,在翻譯市場(chǎng),、智能硬件助手、AI輔助,,行車(chē)幫助等等方面實(shí)現(xiàn)價(jià)值,。而娛樂(lè)領(lǐng)域的玩法變得多元化,像最近大熱的faceu,,運(yùn)用了臉部識(shí)別跟蹤技術(shù),,讓普通的自拍可以DIY。還有video++視頻開(kāi)放平臺(tái),,可以對(duì)視頻中的明星、衣服同款進(jìn)行識(shí)別搜索,,打開(kāi)了視頻到電商的入口,。乘著去年SaaS的風(fēng)口,國(guó)內(nèi)外陸續(xù)出現(xiàn)了語(yǔ)音識(shí)別,、圖像識(shí)別的技術(shù)開(kāi)放平臺(tái),,從專(zhuān)業(yè)到普通領(lǐng)域,語(yǔ)音識(shí)別和圖像識(shí)別將在2016年做到技術(shù)全覆蓋,。
大數(shù)據(jù)
數(shù)據(jù)收集是一個(gè)從被動(dòng)到主動(dòng)的過(guò)程,,語(yǔ)音識(shí)別從接受指令變成了對(duì)指令使用頻率的分析,進(jìn)而形成用戶(hù)的習(xí)慣圖表,。圖像識(shí)別亦然,,針對(duì)用戶(hù)的識(shí)別頻率,分析出用戶(hù)的興趣畫(huà)像,,這將給予廣告主帶來(lái)精準(zhǔn)廣告推送的商機(jī),。
結(jié)語(yǔ)
2016年將是“最好玩”的一年,語(yǔ)音識(shí)別和圖像識(shí)別讓我們跟智能設(shè)備之間的交互更自然,,基于大數(shù)據(jù)的技術(shù)支持,,讓識(shí)別變得主動(dòng)而聰明。語(yǔ)音識(shí)別和圖像識(shí)別將走進(jìn)普通人的世界,,讓我們的生活更生動(dòng),。