OMAP平臺(tái)為開(kāi)發(fā)個(gè)人手持設(shè)備的語(yǔ)音應(yīng)用提供完美的解決方案,。這種低功耗的OMAP架構(gòu)把用于語(yǔ)音的DSP信號(hào)處理功能與RISC處理器的通用系統(tǒng)性能融合在了一起,。設(shè)計(jì)了開(kāi)放式軟件架構(gòu),以鼓勵(lì)開(kāi)發(fā)語(yǔ)音引擎,、語(yǔ)音應(yīng)用和多媒體等補(bǔ)充應(yīng)用。包括語(yǔ)音識(shí)別器和原型應(yīng)用等開(kāi)發(fā)支持,,可幫助開(kāi)發(fā)商快速建立其自己的產(chǎn)品并縮短產(chǎn)品上市時(shí)間,。OMAP平臺(tái)可確保開(kāi)發(fā)商能夠通過(guò)輕松,、靈活添加語(yǔ)音應(yīng)用牢牢把握個(gè)人手持設(shè)備的增長(zhǎng)機(jī)遇。
語(yǔ)音技術(shù)的應(yīng)用正在不斷增加,,從而為應(yīng)用開(kāi)發(fā)商在手持設(shè)備,、移動(dòng)設(shè)備和無(wú)線個(gè)人設(shè)備中增加高價(jià)值的功能帶來(lái)了難得的機(jī)會(huì)。今天的個(gè)人手持設(shè)備語(yǔ)音大多時(shí)候僅僅局限于語(yǔ)音撥號(hào),,但是已經(jīng)出現(xiàn)了適用于更廣泛開(kāi)發(fā)語(yǔ)音識(shí)別和文本到語(yǔ)音應(yīng)用的技術(shù),。打算增加語(yǔ)音功能的開(kāi)發(fā)商需要熟知語(yǔ)音技術(shù)的方方面面。這些問(wèn)題不但包括處理和內(nèi)存要求,,而且還包括特定的平臺(tái)架構(gòu)和支持如何促進(jìn)開(kāi)發(fā)過(guò)程并縮短上市時(shí)間,。
利用語(yǔ)音應(yīng)用增值可帶來(lái)豐厚的潛在利益。根據(jù)各種市場(chǎng)研究公司的估計(jì),,未來(lái)兩年個(gè)人手持設(shè)備的綜合年增長(zhǎng)率預(yù)計(jì)能達(dá)到 20%,,到2004年全球的總設(shè)備交貨量將達(dá)到7億件。為了利用增值語(yǔ)音應(yīng)用敲開(kāi)這個(gè)巨大的市場(chǎng),,開(kāi)發(fā)商必須求助于能夠給他們帶來(lái)高性能,、低功耗的底層技術(shù)以及能夠幫助他們迅速推出新產(chǎn)品的支持。
語(yǔ)音功能為用戶(hù)提供自然的輸入和輸出方式,,它比其他形式的I/O更安全,,尤其是當(dāng)用戶(hù)在開(kāi)車(chē)期間。在大多應(yīng)用中,,語(yǔ)音都是鍵盤(pán)和顯示器的理想補(bǔ)充,,而并不是它們的替代品。例如,,在非常嘈雜的環(huán)境中,,聽(tīng)和說(shuō)可能都不現(xiàn)實(shí),因此用戶(hù)可能就必須依賴(lài)鍵盤(pán)輸入和顯示閱讀,。類(lèi)似,,用戶(hù)通常喜歡用鍵盤(pán)輸入某些東西,如:PIN號(hào)碼和密碼,,而不愿意大聲說(shuō)出來(lái)讓別人也聽(tīng)到,。
語(yǔ)音撥號(hào)是當(dāng)今個(gè)人無(wú)線設(shè)備中最常用的語(yǔ)音技術(shù)。語(yǔ)音撥號(hào)通常無(wú)需手和耳朵即可打電話,,這是在開(kāi)車(chē)時(shí)尤為重要的功能,。語(yǔ)音撥號(hào)包括名字撥號(hào),即按通訊簿上的名字打電話,,另外還包括號(hào)碼撥號(hào),,即說(shuō)出電話號(hào)碼。如圖1所示,其他潛在的語(yǔ)音應(yīng)用包括:
1.語(yǔ)音電子郵件?D?D 包括瀏覽郵箱,、利用語(yǔ)音輸入寫(xiě)電子郵件以及收聽(tīng)電子郵件的讀出,。
2.信息檢索?D?D股票價(jià)格、標(biāo)題新聞,、航班信息,、天氣預(yù)報(bào)等都可通過(guò)語(yǔ)音從互聯(lián)網(wǎng)收聽(tīng)。例如,,用戶(hù)不用先進(jìn)入某個(gè)網(wǎng)址并輸入股票名字或者瀏覽預(yù)定義的列表,,便可以命令:"我的股票報(bào)價(jià),德州儀器,。"
3.個(gè)人信息管理?D?D允許用戶(hù)通過(guò)語(yǔ)音指定預(yù)約,、查看日歷、添加聯(lián)絡(luò)信息等等,。
4.語(yǔ)音瀏覽?D?D利用語(yǔ)音程序菜單,,用戶(hù)可以在網(wǎng)上沖浪、添加語(yǔ)音收藏夾并收聽(tīng)網(wǎng)頁(yè)內(nèi)容的讀出,。
5.語(yǔ)音導(dǎo)航?D?D在自動(dòng)和眼不夠用的條件下獲取導(dǎo)航的完全語(yǔ)音輸入/輸出駕駛系統(tǒng),。
|
語(yǔ)音技術(shù)問(wèn)題
語(yǔ)音系統(tǒng)必須滿(mǎn)足某些基本使用要求。很顯然,,語(yǔ)音輸出必須清晰,,使用戶(hù)能夠聽(tīng)懂。在給定應(yīng)用用途中,,ASR還必須支持自然語(yǔ)音,。何為自然可謂變化無(wú)常,包括從逐字發(fā)出的簡(jiǎn)單名字和指令,、到說(shuō)出大量詞匯的連續(xù)語(yǔ)句,。另外,各人的自然語(yǔ)音以及發(fā)音方式也不同,,因此系統(tǒng)應(yīng)該能夠靈活接受不同說(shuō)話人說(shuō)話,。識(shí)別引擎必須準(zhǔn)確,否則用戶(hù)不會(huì)使用這種技術(shù),。
語(yǔ)音的系統(tǒng)要求是需要進(jìn)行大量處理,有可能包含巨大的內(nèi)存,,這取決于所支持的詞庫(kù),。就基于服務(wù)器的應(yīng)用而言,無(wú)線帶寬的使用會(huì)有所增加,。這些因素也會(huì)影響其他系統(tǒng)考慮,。應(yīng)用的MIPS和傳輸要求越高,給定系統(tǒng)的功耗就越高,因此會(huì)縮短電池壽命或?qū)е赂l繁的充電,。當(dāng)應(yīng)用需要采用處理器外置存儲(chǔ)器時(shí),,響應(yīng)時(shí)間也有可能增加。
某些應(yīng)用權(quán)衡考慮有助于通過(guò)放棄手持設(shè)備不必要的功能來(lái)降低系統(tǒng)要求,。只識(shí)別少量詞語(yǔ),、分散語(yǔ)音的基于說(shuō)話人的系統(tǒng)會(huì)比識(shí)別大型詞庫(kù)、連續(xù)語(yǔ)音的基于說(shuō)話人的系統(tǒng)要求少很多的資源,。對(duì)其他語(yǔ)言的支持會(huì)增加處理要求并且使應(yīng)用所需要的內(nèi)存加倍,。抗噪音和抗干擾性是重要的特性,,但是會(huì)增加復(fù)雜性和內(nèi)存要求,。
很顯然,開(kāi)發(fā)商在增加說(shuō)話人依賴(lài)性,、連續(xù)語(yǔ)音,、詞庫(kù)規(guī)模和語(yǔ)言支持等功能時(shí)希望盡可能少地降低基本應(yīng)用的性能。有某些選項(xiàng)有助于減少語(yǔ)音技術(shù)中的性能降低,,如:分布式語(yǔ)音識(shí)別(DSR),。DSR把識(shí)別任務(wù)分割開(kāi),這樣手持設(shè)備可以把原始語(yǔ)音轉(zhuǎn)換成頻譜特性向量,,同時(shí)服務(wù)器執(zhí)行識(shí)別過(guò)程,。這種方法以及類(lèi)似的分布式TTS方法依賴(lài)于處理方法和傳輸協(xié)議的標(biāo)準(zhǔn)化。盡管這些技術(shù)頗有前途,,但是,,開(kāi)發(fā)商仍然面臨個(gè)人手持設(shè)備中語(yǔ)音應(yīng)用的有限資源。
因此,,為語(yǔ)音等高性能應(yīng)用選擇適當(dāng)?shù)钠脚_(tái)與精心設(shè)計(jì)應(yīng)用的功能同樣重要,。這種平臺(tái)必須具有強(qiáng)大的處理能力,同時(shí)可以實(shí)現(xiàn)高水平的功效,,不僅僅是在內(nèi)核操作中,,而且在處理內(nèi)存中也應(yīng)如此。應(yīng)該有足夠的MIPS來(lái)支持多媒體,、安全和其他補(bǔ)充應(yīng)用,。提供集成新算法能力的可編程性也很重要。最后,,這種平臺(tái)必須包含為支持模塊化應(yīng)用開(kāi)發(fā)所設(shè)計(jì)的軟件架構(gòu),,以幫助開(kāi)發(fā)商快速把產(chǎn)品推向市場(chǎng)。
OMAP技術(shù):卓越的語(yǔ)音平臺(tái)
TI的OMAP平臺(tái)為在個(gè)人手持設(shè)備中開(kāi)發(fā)語(yǔ)音應(yīng)用提供卓越的解決方案,。 OMAP1510和OMAP5910處理器的雙內(nèi)核架構(gòu)集成了高功效的TMS320C55x?數(shù)字信號(hào)處理器(DSP)和高性能ARM9RISC微處理器,。因此,這些OMAP處理器可提供語(yǔ)音所需要的算術(shù)集中的信號(hào)處理能力,同時(shí)還可提供系統(tǒng)層操作所需要的通用性能,。OMAP710處理器是高度集成的單芯片解決方案,,帶有用于無(wú)線通訊處理的、基于DSP的GSM/GPRS基帶,、以及可低功耗執(zhí)行多媒體應(yīng)用的專(zhuān)用TI增強(qiáng)ARM925處理器,。 OMAP1510、OMAP5910和OMAP710處理器可支持基于低端ARM的語(yǔ)音應(yīng)用,。它們還具有編碼兼容性,,從而使開(kāi)發(fā)商能夠把軟件應(yīng)用集成到針對(duì)不同市場(chǎng)的個(gè)人產(chǎn)品。OMAP1510和OMAP5910具有DSP處理能力,,可處理更集中的語(yǔ)音應(yīng)用,。
雙核硬件架構(gòu)
OMAP1510 和OMAP5910的雙核硬件平臺(tái)設(shè)計(jì)用于最大化系統(tǒng)性能和最小化功耗。在用于個(gè)人手持設(shè)備時(shí),,DSP和RISC內(nèi)核的結(jié)合給這些處理器提供了無(wú)與倫比的性能和功耗優(yōu)勢(shì),。RISC極其適合處理控制代碼,如:用戶(hù)界面,、OS和高級(jí)應(yīng)用,。另一方面,DSP更適合語(yǔ)音應(yīng)用所需要的實(shí)時(shí)信號(hào)處理功能,。
如圖2所示,,OMAP1510架構(gòu)包含用于兩個(gè)處理器的片上高速緩沖存儲(chǔ)器,可降低到外部存儲(chǔ)器的平均發(fā)送次數(shù),,同時(shí)消除不必要的外部存取的功耗,。兩個(gè)內(nèi)核的內(nèi)存管理單元(MMU)提供虛擬物理內(nèi)存轉(zhuǎn)換。低功耗操作模式可保存不使用或者很少使用處理器期間的能力,。
OMAP1510 架構(gòu)還包含兩個(gè)外部存儲(chǔ)器接口和單個(gè)內(nèi)存端口,。這三個(gè)存儲(chǔ)器接口彼此完全獨(dú)立,可同時(shí)從任何一個(gè)內(nèi)核或者從DMA單元進(jìn)行存取,。每個(gè)處理器都具有自己的外設(shè)接口,,其不但支持到外圍設(shè)備的直接連接同時(shí)還支持從處理器DMA單元的DMA連接。定時(shí)器,、通用I/O,、UART及監(jiān)視定時(shí)器等在內(nèi)的片上外設(shè)以及彩色 LCD控制器均支持OS一般的要求。
OMAP5910架構(gòu)不但提供了片上系統(tǒng)功能同時(shí)還帶有諸如192KbytesRAM,、USB1.1主機(jī)和客戶(hù)機(jī),、MMC/SD卡接口、多通道緩沖串口,、實(shí)時(shí)時(shí)鐘、GPIO及UART、LCD接口,、SPI,、uWire及i2s等在內(nèi)的外圍設(shè)備。與 OMAP1510類(lèi)似,,OMAP5910也包含內(nèi)置的處理器間通訊機(jī)制,,其提供與DSP連接的透明接口,以實(shí)現(xiàn)更輕松的代碼開(kāi)發(fā),。
|
為OMAP平臺(tái)設(shè)計(jì)語(yǔ)音應(yīng)用
在OMAP 開(kāi)發(fā)商網(wǎng)絡(luò)中,,TI正與多家正在開(kāi)發(fā)ASR、TTS,、DSR和語(yǔ)者驗(yàn)證等在內(nèi)的語(yǔ)音技術(shù)的主要第三方開(kāi)發(fā)商展開(kāi)合作,。這些公司在市場(chǎng)中都有自己獨(dú)到的優(yōu)勢(shì),而且他們還可以把這些優(yōu)勢(shì)帶給OMAP用戶(hù),。同時(shí),,TI內(nèi)部開(kāi)發(fā)了充分利用了OMAP平臺(tái)的雙內(nèi)核架構(gòu)優(yōu)勢(shì)的、專(zhuān)門(mén)用于小詞庫(kù)以及小型語(yǔ)音識(shí)別等的語(yǔ)音識(shí)別軟件,。TI嵌入式語(yǔ)音識(shí)別器(TIESR)可提供如下功能:與說(shuō)話人無(wú)關(guān)的指令以及控制功能與說(shuō)話人無(wú)關(guān)的連續(xù)數(shù)字識(shí)別與說(shuō)話人無(wú)關(guān)的連續(xù)語(yǔ)音識(shí)別與說(shuō)話人有關(guān)的名稱(chēng)撥號(hào),、指令以及控制動(dòng)態(tài)語(yǔ)法和詞匯功能,可提高語(yǔ)音瀏覽等應(yīng)用噪音環(huán)境中的抗擾性用于增強(qiáng)性能的可選說(shuō)話人適配功能,。
語(yǔ)音應(yīng)用示例
InfoPhone 是基于這種嵌入式架構(gòu)的語(yǔ)音應(yīng)用的一個(gè)典型示例,,它由TI開(kāi)發(fā),專(zhuān)門(mén)用于無(wú)線領(lǐng)域,。InfoPhone是一個(gè)可實(shí)現(xiàn)語(yǔ)音功能的Java應(yīng)用程序,,同時(shí)它還可實(shí)現(xiàn)有用信息的語(yǔ)音檢索。TI為InfoPhone開(kāi)發(fā)了三種原型的基于語(yǔ)音的信息服務(wù),,諸如為用戶(hù)提供股票報(bào)價(jià),、航班信息和天氣預(yù)報(bào)。每種服務(wù)都包含 50個(gè)詞語(yǔ)的詞庫(kù),,因?yàn)榫哂袆?dòng)態(tài)詞庫(kù)功能,,系統(tǒng)可以在詞庫(kù)間完美切換。應(yīng)用設(shè)計(jì)使鍵盤(pán)輸入在說(shuō)話期間一直保持有效狀態(tài),,從而在環(huán)境中斷或者用戶(hù)需要進(jìn)行私密輸入時(shí)提供靈活性,。圖3說(shuō)明InfoPhone示例中的語(yǔ)音識(shí)別架構(gòu)。
|