在這場(chǎng)語音 AI 的造芯之路上,,誰將 C 位出道?
- shenzhenware -
與中國(guó)的家庭不同,歐美國(guó)家對(duì)于隱私的問題格外的注重。
在剛剛結(jié)束的 IFA 展上,,我們也看到國(guó)外的許多廠商對(duì)于在家電設(shè)備上安裝智能語音助手并沒有那么感冒,畢竟通過互聯(lián)網(wǎng)廠商的系統(tǒng)連接云端服務(wù),,也就意味著設(shè)備要實(shí)時(shí)在線,,并且用戶數(shù)據(jù)要實(shí)時(shí)共享。同時(shí),,實(shí)時(shí)在線實(shí)時(shí)監(jiān)聽,,也就意味著更多的能耗,盡管對(duì)于消費(fèi)用戶來是微乎其微,,但系統(tǒng)要支持 7x24 小時(shí)的 Always On,,對(duì)于軟硬件性能都會(huì)有更高的要求。
但這并不意味著家電廠商對(duì)于語音交互方式的排斥,。相反,,在原有的觸控或按鍵等交互方式的基礎(chǔ)上,在設(shè)備本地增加基本的語音識(shí)別和控制功能,,在特定場(chǎng)景用戶需要的時(shí)候,,再提供恰到好處的服務(wù),這對(duì)于每隔一段時(shí)間都需要疊加新功能新概念的家電設(shè)備來說,,是錦上添花的事兒,。
有需求就有商機(jī),基于邊緣計(jì)算的離線語音,,逐漸興起,。
1. 離線語音,沒那么簡(jiǎn)單
離線語音解決的基本問題包括本地語音識(shí)別,、本地計(jì)算,、部分的數(shù)據(jù)訓(xùn)練。相應(yīng)的,,對(duì)于硬件的要求就是低功耗,、低成本、快速響應(yīng),。
Google 曾在 6 月開發(fā)者大會(huì)上,,推出了 Local Home SDK,其離線語音采用的是端云協(xié)同的方式,,具體做法是:通過 SDK 和 API 接口,,允許開發(fā)者在上面為智能設(shè)備建立新的附加執(zhí)行路徑,使得 Google 的智能音箱設(shè)備能以 JavaScript 腳本運(yùn)行這套協(xié)議和邏輯,,并通過局域網(wǎng)與設(shè)備實(shí)現(xiàn)通訊,、本地控制。而在本地執(zhí)行路徑失敗的情況下,云端將作為回退執(zhí)行路徑來處理指令,。
盡管 Google 有大批的開發(fā)者,,但這套 Local Home SDK 對(duì)于開發(fā)者的挑戰(zhàn)還是很大。已經(jīng)為上百種家電設(shè)備開發(fā)過離線語音的啟英泰倫的工程師,,從云到端的,,為我們分析了語音開發(fā)的難度。
云端語音開發(fā),,其核心是應(yīng)用各大云端平臺(tái)提供的接口,,通過調(diào)用服務(wù)完成語音識(shí)別功能。這需要工程師明白接口調(diào)用及服務(wù)的要求,,也需要熟悉各種操作系統(tǒng),。同時(shí),云端語音最終需要終端提供待識(shí)別的語音數(shù)據(jù),,也需要工程師了解語音采集的過程和降噪技術(shù),才能做成性能出眾的產(chǎn)品,,這本身就有難度,。
而對(duì)于終端語音開發(fā),雖然有廠家提供了如黑盒子一樣的離線語音技術(shù),,做成類似 Google Local Home SDK 發(fā)布,,但最終也需要工程師會(huì)編程,懂硬件結(jié)構(gòu),,懂麥克風(fēng)和語音采集降噪的技術(shù),,這些都有不小的挑戰(zhàn)。
特別的,,語音交互類的設(shè)備本身在產(chǎn)品形態(tài)上差異化很大,,使用場(chǎng)景也呈現(xiàn)出碎片化的特點(diǎn),要為用戶提供自然的本地語音交互體驗(yàn),,就要對(duì)不同的產(chǎn)品做出不同的語音控制命令,,這些都需要通過修改代碼實(shí)現(xiàn),工作量可想而知,。再進(jìn)一步的讓設(shè)備達(dá)到用戶所需要的「極致」體驗(yàn),,還要做效果調(diào)優(yōu)的工作,這就需要熟練的工程師,??偠灾怯胁簧匍_發(fā)門檻和開發(fā)成本的,。
2. 芯片設(shè)計(jì),,沒那么簡(jiǎn)單
其實(shí)像 Google 這樣在離線語音交互方向上探索的算法公司有很多,為了讓算法更好的支持終端,他們正在掀起一輪「造芯」運(yùn)動(dòng),。
將算法集成在芯片中,,用芯片實(shí)現(xiàn)其算法的商業(yè)價(jià)值,在產(chǎn)業(yè)上游卡位,,閑暇之余再發(fā)幾款終端消費(fèi)硬件獲得市場(chǎng)關(guān)注,。不得不說,這樣的戰(zhàn)略規(guī)劃可謂是相當(dāng)帥氣,,尤其是在 5G+IoT 的黎明到來之際,,市場(chǎng)前景一片大好。
這也凸顯了算法公司對(duì)于自身優(yōu)勢(shì)和短板的認(rèn)識(shí),。展開來說,,他們對(duì)于語音識(shí)別、語義理解,、知識(shí)圖譜,、數(shù)據(jù)訓(xùn)練等軟件和算法的理解更強(qiáng),但因?yàn)檐浖I(yè)務(wù)本身太「輕」,,在商業(yè)上很難實(shí)現(xiàn)快速落地,,因此他們向「云端芯」一體化方向發(fā)展,將業(yè)務(wù)延伸到芯片甚至硬件,。
但算法公司做芯片,,普遍面臨的挑戰(zhàn)是:龐大的數(shù)據(jù)和運(yùn)算量導(dǎo)致成本和功耗都非常大,將數(shù)十個(gè)中央處理器才能運(yùn)算的數(shù)據(jù)通過一個(gè)端上的一顆小小的芯片完成(通常是基于通用芯片的智能語音控制模組),,技術(shù)上還存在難度,。具體體現(xiàn)在:
首先,芯片設(shè)計(jì)周期長(zhǎng),,從預(yù)研到進(jìn)入銷售期再到盈利,,少說也要兩三年,因此必須做到提前卡位,。
其次,,芯片設(shè)計(jì)不同于軟件,可以通過快速迭代逐漸優(yōu)化,。芯片設(shè)計(jì)最重要的就是產(chǎn)品定義,,如果一開始定義不好,等設(shè)計(jì)完成后發(fā)現(xiàn)缺乏競(jìng)爭(zhēng)力再改,,就算是老羅這樣的外行拿著互聯(lián)網(wǎng)思維那一套跟你拍桌子,,也是無濟(jì)于事。
再次,,語音 AI 芯片的集成化和工程化要求很高,,開發(fā)難度在前面我們已經(jīng)論述,。
最后,眾所周知,,芯片必須依賴大規(guī)模出貨才能賺到錢,,這也就決定了語音 AI 芯片必須下沉到智能家居、小家電,、兒童故事機(jī)等出貨量較大的設(shè)備市場(chǎng),,才能實(shí)現(xiàn)高凈值。而與這些設(shè)備商打交道,,明顯的,,芯片商比算法商更深諳其道。
3. 芯片公司,,是怎么做的,?
那么離線語音這件事兒,如果芯片公司自己做會(huì)怎樣,?
我們舉個(gè)例子,,看一下在語音 AI 芯片領(lǐng)域展露頭角的啟英泰倫的造芯歷程。
早在 2015 年,,行業(yè)內(nèi)關(guān)于本地端邊緣計(jì)算的概念還沒有興起,,擁有 16 年芯片研發(fā)經(jīng)驗(yàn)、雙棲「家電+芯片」多年,、曾是原海信信芯技術(shù)副總、長(zhǎng)虹 IC 部門總經(jīng)理的何云鵬,,在成都高新區(qū)成立啟英泰倫,,專門從事基于深度學(xué)習(xí)的語音識(shí)別芯片及配套算法引擎的研發(fā)。啟英泰倫在 2016 年推出了首款支持深度神經(jīng)網(wǎng)絡(luò)的人工智能語音芯片 CI1006,,次年開始量產(chǎn),。
在芯片設(shè)計(jì)方面,CI1006 采用的是可以實(shí)現(xiàn)更好的能耗比的 ASIC 架構(gòu),。而行業(yè)里的采用 FPGA 架構(gòu)的芯片公司,,如 Quicklogic,其低功耗多核語音芯片的成本就非常高,,這對(duì)于很多出貨量大,、對(duì)成本斤斤計(jì)較的設(shè)備商,是「不劃算」的,。
同時(shí),,ASIC 架構(gòu)主要瞄準(zhǔn)消費(fèi)電子產(chǎn)品,晶體管會(huì)根據(jù)算法定制,,因此不會(huì)出現(xiàn)冗余,,計(jì)算效率高,性能高,功耗低,。
總而言之,,「ASIC 架構(gòu)更像是工廠開模,雖然前期開發(fā)時(shí)間長(zhǎng),,上市相對(duì)比較慢,,但非常適合量產(chǎn)。一旦量鋪開了,,均價(jià)也會(huì)快速降下來,。」何云鵬說,。
而在算法方面,,啟英泰倫則是結(jié)合芯片定制,功耗可控點(diǎn)更高,。比如針對(duì)竊聽安全風(fēng)險(xiǎn)的問題,,啟英泰倫的做法是這樣的:利用近數(shù)據(jù)端的邊緣結(jié)點(diǎn),直接對(duì)數(shù)據(jù)源進(jìn)行處理,,實(shí)現(xiàn)對(duì)一些敏感數(shù)據(jù)的保護(hù)與隔離,;端節(jié)點(diǎn)可以僅接收來自云計(jì)算中心的請(qǐng)求,并將處理結(jié)果反饋給云端,。
啟英泰倫的語音芯片內(nèi)置了自主研發(fā)的腦神經(jīng)網(wǎng)絡(luò)處理器 BNPU,,支持本地大詞匯量的語音識(shí)別。通常本地語音識(shí)別詞匯量非常小,,本地?cái)?shù)據(jù)訓(xùn)練受限,,而 CI1006 可以有效的解決本地語音識(shí)別和控制。
4. 設(shè)備商,,應(yīng)該如何選擇,?
何云鵬幫我們分析了家電廠商的一般做法和存在的問題:通常情況下,如果一家廠商想要給自己的產(chǎn)品增加語音控制功能,,就要去找軟件算法商,、芯片公司、方案商,,甚至是聲學(xué)方面的硬件商,。前期調(diào)研周期長(zhǎng)不說,資源即使強(qiáng)大,,也只能成功對(duì)接到幾十家的有效支持,。這種模式無法支持家電廠商全系大規(guī)模智能化的市場(chǎng)需求。
而家電廠商如果通過算法商基于普通芯片定制開發(fā)語音識(shí)別模組,,那么算法商需要從芯片原廠選定芯片,,將云端算法移植到芯片上,,并進(jìn)行調(diào)試。然后還需要底層硬件開發(fā)公司將整體方案做成模組板卡,,提供給家電廠商,。這種實(shí)現(xiàn)方式鏈條環(huán)節(jié)多,周期長(zhǎng),,家電廠商還要支付額外的開發(fā)費(fèi)用和授權(quán)費(fèi)用,,這對(duì)于苛求毛利率到分的設(shè)備商來說,是必須要考慮的現(xiàn)實(shí)問題,。
如何判斷語音 AI 芯片是否靠譜呢,?或許這里提煉的幾個(gè)特征,為家電和設(shè)備廠商們的評(píng)估提供了維度:
低成本,、低功耗,、低時(shí)延
云邊端一體化
芯片規(guī)格和制式可定制
9 月 19 日,啟英泰倫將在深圳舉辦主題為「聲無界·芯未來」的新品發(fā)布會(huì),,推出新一代語音芯片和語音 AI 開發(fā)平臺(tái),,旨在進(jìn)一步降低產(chǎn)品智能化開發(fā)和成本門檻 ,助力終端設(shè)備商更高效率,、更低成本實(shí)現(xiàn)智能化?,F(xiàn)場(chǎng)將設(shè)立新技術(shù)體驗(yàn)及專屬洽談區(qū),期待行業(yè)精英參與,。