《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 3G 手機語音識別應(yīng)用中DSP的選擇策略
3G 手機語音識別應(yīng)用中DSP的選擇策略
摘要: 隨著DSP技術(shù)的進(jìn)步,,計算能力更強,、功耗更低和體積更小的DSP已經(jīng)出現(xiàn),使3G手機上植入更精確更復(fù)雜的自動語音識別(ASR)功能成為可能,。目前,,基本ASR應(yīng)用可以分成三大類:1. 語音-文本轉(zhuǎn)換(語音輸入),;2. 講者識別;3. 語音命令控制(語音控制),。
關(guān)鍵詞: 3G 手機 語音
Abstract:
Key words :

      隨著DSP技術(shù)的進(jìn)步,,計算能力更強、功耗更低和體積更小的DSP已經(jīng)出現(xiàn),,使3G" title="3G">3G手機" title="手機">手機上植入更精確更復(fù)雜的自動語音" title="語音">語音識別(ASR)功能成為可能,。目前,基本ASR應(yīng)用可以分成三大類:1. 語音-文本轉(zhuǎn)換(語音輸入),;2. 講者識別,;3. 語音命令控制(語音控制)。
  
  這三類功能包含了3G所需的眾多ASR性能,。語音-文本轉(zhuǎn)換的典型實例是語音撥號和電子郵件聽寫,。講者識別功能可以通過語音識別安全地讀出存儲器中的個人數(shù)據(jù),從而滿足信用卡定購和銀行服務(wù)等保密性高的應(yīng)用需要,。語音命令控制功能包括連接語音擴展標(biāo)記語言(VXML)網(wǎng)站內(nèi)容的語音接口,,它支持財經(jīng)服務(wù)與目錄助理等業(yè)務(wù)。目前VXML被用于規(guī)范網(wǎng)站內(nèi)容的語音標(biāo)簽,。

  語音識別的兩種方法

  3G手機的ASR應(yīng)用設(shè)計可分為兩類,,即以終端為中心和以客戶/服務(wù)器為中心的應(yīng)用。如圖1所示為以終端為中心的設(shè)計方法,,3G手機(終端)執(zhí)行整個語音識別過程并送出識別結(jié)果,。在圖2所示的客戶/服務(wù)器方法中,終端只是執(zhí)行預(yù)處理特征提取,,然后通過一個誤碼受保護(hù)的數(shù)據(jù)信道將這些參數(shù)發(fā)送給中心服務(wù)器,,中心服務(wù)器最終完成語音識別。如果采用以客戶/服務(wù)器為中心的設(shè)計方法,,3G手機應(yīng)使用數(shù)據(jù)信道而非移動信道來將語音發(fā)送給服務(wù)器進(jìn)行識別,,因為移動信道所用的低速率語音編碼會嚴(yán)重影響語音識別的性能,。

  各種ASR系統(tǒng)的差異主要體現(xiàn)在詞匯量上。一個簡單的網(wǎng)絡(luò)設(shè)備可能只需要16字的詞庫就能實現(xiàn)所要求的語音識別功能,,而3G移動手機則需要更大的專業(yè)詞庫,。這些詞匯可以跟講者相關(guān)(訓(xùn)練語音識別設(shè)備使之熟悉用戶的聲音特征)或跟講者無關(guān)(語音識別設(shè)備可以識別任何人的聲音),DSP的計算負(fù)荷就隨著詞匯量和訓(xùn)練數(shù)據(jù)的增加而增大,。

  例如,,根據(jù)隱性馬爾可夫模型(HMM)可以分析一個典型的跟講者無關(guān)的100條命令識別的應(yīng)用實例。假設(shè)HMM模型從左到右沒有跳躍地順序擺放,,共有6個狀態(tài),、5個具有對角協(xié)方差的混合高斯分布,包含39個特征(13嘜-頻率對數(shù)系數(shù)或MFCC,,及其一階和二階差分),,具有16位精度,那么,,HMM聲學(xué)模型的大小就是100×5×5×(39+2)×2=240kB,。

  為了實現(xiàn)輸入語音樣本差分、窗口截獲,、MFCC抽取,、概率計算和維特比搜索等運算的實時性,典型情況下需要消耗DSP的1千萬個乘法-累加周期(MMAC),。對于連續(xù)語音識別來說,,上千個三音素模型和多種語法模型需要更多的存儲空間,也需要更快的DSP處理速度,。

  因此,,移動電話中ASR系統(tǒng)的成敗很大程度上取決于DSP的功能和設(shè)計。第三代系統(tǒng)本身就需要比第二代系統(tǒng)更強性能的DSP,,而增加ASR功能就對DSP提出了更高的要求,。從結(jié)構(gòu)角度看,,對DSP性能的要求是處理速度快,、功耗低和代碼密度高。

  采用高速DSP是關(guān)鍵

  由于系統(tǒng)要實時對語音進(jìn)行處理和取樣,,因此語音識別系統(tǒng)需要具有巨大的計算能力,。下面的數(shù)字和計算假設(shè)采用的是圍繞終端的設(shè)計方法。如果將DSP計算資源的20%分配給一個10MMAC的語音識別系統(tǒng)使用,,那么就需要一個具有50MMAC的DSP才能滿足這一功能需要,,并可提供足夠的空間執(zhí)行3G手機所需的其它DSP任務(wù),如處理軟貓,。如果采用較慢的DSP,,如25MMAC的DSP,,那么詞匯表中的命令數(shù)量就要減半,或減少HMM參數(shù),,這樣會降低整個系統(tǒng)性能,。

  DSP的速度決定了語音識別系統(tǒng)的復(fù)雜性和性能。舉例來說,,如果一個基本的跟講者無關(guān)的連續(xù)語音識別系統(tǒng)需要100MMAC,,DSP計算資源的50%用于滿足3G手機的其它DSP任務(wù)的需求,那么DSP的處理速度就需要達(dá)到200MMAC,。

 

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。