智能語音SoC模擬前端研究進(jìn)展-AET-電子技術(shù)應(yīng)用

智能語音SoC模擬前端研究進(jìn)展

2019年電子技術(shù)應(yīng)用第1期

陳鋮穎

廈門理工學(xué)院光電與通信工程學(xué)院，福建廈門361024

摘要： 在人工智能語音交互應(yīng)用中，語音SoC中的模擬前端電路承擔(dān)著將麥克風(fēng)輸出模擬信號數(shù)字化的重任，是語音模擬信號與數(shù)字處理單元的橋梁。由于復(fù)雜語音環(huán)境應(yīng)用、器件失配等非理想因素的影響，模擬前端的功能和動態(tài)性能受到極大限制。對語音SoC中的模擬前端電路進(jìn)行了分析，重點論述了目前模擬前端設(shè)計的結(jié)構(gòu)特點以及發(fā)展現(xiàn)狀，并對設(shè)計面臨的挑戰(zhàn)提出了研究思路，展望了發(fā)展趨勢。

關(guān)鍵詞： 人工智能語音模擬前端發(fā)展趨勢

中圖分類號： TN432
文獻(xiàn)標(biāo)識碼： A
DOI：10.16157/j.issn.0258-7998.182815
中文引用格式： 陳鋮穎. 智能語音SoC模擬前端研究進(jìn)展[J].電子技術(shù)應(yīng)用，2019，45(1)：1-4.
英文引用格式： Chen Chengying. Research progress of intelligent audio SoC analog front-end[J]. Application of Electronic Technique，2019，45(1)：1-4.

Research progress of intelligent audio SoC analog front-end

Chen Chengying

School of Opto-Electronic and Communication Engineering，Xiamen University of Technology，Xiamen 361024，China

Abstract： In the application of AI speech interaction, the analog front-end(AFE) circuit in audio SoC is responsible for digitalization of microphone analog output, and it is a bridge between the analog signal and the digital processing unit. The AFE function and dynamic performance are greatly limited due to the influence of complex audio environment application, the device mismatch and other non-ideal factors. The audio SoC AFE is analyzed in this paper, and the circuit characteristics and current development is discussed in detail. Finally the research route for design challenge is presented and development trend is prospected.

Key words : artificial intelligence；audio；analog front-end；develop trend

0 引言

在人工智能快速發(fā)展的今天，語音是人機(jī)交互應(yīng)用中最為直接的方式，越來越好的體驗感使語音交互逐漸成為“智能化”的重要標(biāo)志，并將更加廣泛地改變?nèi)藗兊纳罘绞健ＵZ音識別技術(shù)已得到較為深度的發(fā)展，如國外微軟、蘋果、谷歌等大公司，國內(nèi)的科大訊飛、思必馳等廠商都已研發(fā)出較為成功的語音識別新策略和新算法。但語音識別的重要前提是在智能語音SoC芯片前端能夠提供一個較為純凈的語音信號，才能使云端的語音識別軟件能夠高效完成處理和反饋。而截至目前，遠(yuǎn)距離采集、易受噪聲干擾、芯片信噪比受限等問題導(dǎo)致的識別率不高，仍嚴(yán)重制約著語音交互技術(shù)的普及。

在智能語音SoC中，模擬前端電路承擔(dān)著將麥克風(fēng)輸出模擬信號數(shù)字化的重任，是語音模擬信號與數(shù)字處理單元的橋梁，如圖1所示。模擬前端通常包括自動增益控制環(huán)路和模數(shù)轉(zhuǎn)換器兩部分，它們占據(jù)了5%～30%的芯片面積，同時消耗30%～50%整體芯片功耗。

模擬前端電路的動態(tài)范圍、信號帶寬、噪聲性能、信噪比等性能直接決定了智能語音SoC的整體性能。因此，低噪聲、高信噪比模擬前端電路就成為了學(xué)術(shù)界和工業(yè)界的研究熱點。

1 面臨的挑戰(zhàn)

在現(xiàn)有的模擬前端電路中，其性能提升的瓶頸主要體現(xiàn)在兩方面：(1)傳統(tǒng)的自動增益控制環(huán)路無論采用模擬或者數(shù)字的增益調(diào)節(jié)方式，都是基于單一信號的峰值檢測原理^[1-2]。而在實際應(yīng)用中，語音環(huán)境可能相當(dāng)復(fù)雜。尤其是在一些嘈雜的公共場合中，存在多種頻率信號混雜的情況。如果仍采用峰值信號調(diào)整方式，只能對其中某一頻率信號進(jìn)行判斷，無法實現(xiàn)整體上精準(zhǔn)的信號幅值提取與增益調(diào)整。(2)在智能語音控制中，便攜式或者穿戴式設(shè)備是重要的一類應(yīng)用，因此功耗是設(shè)計必須考慮的重要因素。為了進(jìn)行功耗優(yōu)化，模數(shù)轉(zhuǎn)換器通常采用多位量化的低階Sigma-Delta模數(shù)轉(zhuǎn)換器來實現(xiàn)穩(wěn)定的結(jié)構(gòu)和較高的信噪比輸出^[3]。但多位Sigma-Delta模數(shù)轉(zhuǎn)換器中多位反饋數(shù)模轉(zhuǎn)換器造成的電容陣列失配誤差，需要數(shù)據(jù)加權(quán)平均（Data Weight Averaging）算法來進(jìn)行均衡。傳統(tǒng)的DWA算法采用順序循環(huán)選擇電容單元的方式，可以將失配產(chǎn)生的隨機(jī)噪聲搬移至信號帶寬之外，但也會在帶內(nèi)產(chǎn)生與采樣頻率相關(guān)的雜波，導(dǎo)致信噪比提升有限。而改進(jìn)型DWA算法則致力于打破環(huán)形電容單元選擇規(guī)律與采樣頻率之間的關(guān)系，在搬移隨機(jī)噪聲的同時，壓制或者轉(zhuǎn)移帶內(nèi)雜波。雖然改進(jìn)型DWA取得了一定信噪比的增加，但本質(zhì)上仍是一種一階的誤差噪聲整形技術(shù)，無法取得信噪比本質(zhì)的提升。因此，綜上所述，在低電源電壓的先進(jìn)工藝中，完善復(fù)雜語音處理功能以及降低多位量化Sigma-Delta模數(shù)轉(zhuǎn)換器中的非線性效應(yīng)，最終提高整體電路的信噪比，是模擬前端設(shè)計中面臨的最大挑戰(zhàn)。

2 模擬前端結(jié)構(gòu)特點與發(fā)展現(xiàn)狀

目前在語音SoC模擬前端設(shè)計方面，主要有以下幾方面成果。

文獻(xiàn)[4]中模擬前端引入了峰值檢測的混合信號自動增益控制環(huán)路，來實現(xiàn)對麥克風(fēng)信號幅度的放大控制。放大后的信號通過三階離散Sigma-Delta模數(shù)轉(zhuǎn)換器實現(xiàn)與數(shù)字信號處理電路的通信。該模擬前端具有較低的功率耗散，但不足之處在于三階離散Sigma-Delta模數(shù)轉(zhuǎn)換器存在潛在的振蕩性問題，因此自動增益控制環(huán)路需要將麥克風(fēng)信號幅度控制在一個較小的范圍，這也影響了整體模擬前端的輸出信噪比。測試結(jié)果顯示該模擬前端的總諧波失真為69 dB，換算為信噪比不足60 dB，不能實現(xiàn)高質(zhì)量的語音信號處理。

文獻(xiàn)[5]利用亞閾值晶體管技術(shù)實現(xiàn)了一款對數(shù)增益的自動增益控制環(huán)路，并獲得了較好的功耗。雖然該電路可以有效控制語音信號的幅度范圍，但由于沒有集成模數(shù)轉(zhuǎn)換器，也無法實現(xiàn)與數(shù)字信號電路的單片集成。且亞閾值晶體管受工藝參數(shù)的影響較大，電路魯棒性差。

文獻(xiàn)[6]同樣采用亞閾值晶體管技術(shù)進(jìn)行模擬前端設(shè)計。自動增益控制環(huán)路采用模擬峰值檢測控制；為了節(jié)約功耗，離散Sigma-Delta模數(shù)轉(zhuǎn)換器設(shè)計為二階或三階可調(diào)，滿足不同頻率范圍語音信號的處理。該模擬前端雖然功耗極低，但自動增益控制環(huán)路不能實現(xiàn)線性的增益可調(diào)，而亞閾區(qū)晶體管先天的不穩(wěn)定性，使得該模擬前端僅具有學(xué)術(shù)價值，實用性較差。

文獻(xiàn)[7]的重點在于實現(xiàn)MEMS麥克風(fēng)與模擬前端界面的電路設(shè)計。此外，該電路通過調(diào)整四階連續(xù)時間Sigma-Delta模數(shù)轉(zhuǎn)換器中的跨導(dǎo)單元，可以實現(xiàn)Sigma-Delta模數(shù)轉(zhuǎn)換器的對于不同頻率信號的功耗可調(diào)，具有較低的模數(shù)轉(zhuǎn)換器功耗。但Sigma-Delta模數(shù)轉(zhuǎn)換器的信噪比有限，且文獻(xiàn)沒有對整體模擬前端電路的信噪比和功耗進(jìn)行優(yōu)化設(shè)計，因此整體性能略顯不足。

文獻(xiàn)[8]是一款完整的語音信號SoC模擬前端，集成的可變增益放大器和四階Sigma-Delta模數(shù)轉(zhuǎn)換器既實現(xiàn)了語音信號的完整通路，又在低電源電壓獲得了較好的信噪比輸出，使得與數(shù)字信號處理電路單片集成成為可能。但缺陷在于前端放大采用可變增益放大器模式，無法對信號進(jìn)行自適應(yīng)的動態(tài)調(diào)節(jié)，限制了該電路在實際中的應(yīng)用。同時四階Sigma-Delta模數(shù)轉(zhuǎn)換器受限于穩(wěn)定性設(shè)計，無法處理較大幅度的語音信號。

概括來說，現(xiàn)有自動增益控制環(huán)路的設(shè)計思路主要關(guān)注于電路實現(xiàn)和功耗優(yōu)化方面，而對整體模擬前端多頻率語音信號處理功能和信噪比提升方面并沒有提出相應(yīng)的策略。尤其是在目前應(yīng)用環(huán)境復(fù)雜，語音信號需要精準(zhǔn)處理的發(fā)展趨勢下，現(xiàn)有技術(shù)已無法進(jìn)行匹配。

而對于提升Sigma-Delta模數(shù)轉(zhuǎn)換器信噪比的DWA算法研究，已發(fā)布的研究成果如下。

文獻(xiàn)[9]首次揭示了數(shù)模轉(zhuǎn)換器輸入碼、電容單元總數(shù)與雜波頻率之間的函數(shù)關(guān)系。基于此，文獻(xiàn)提出了直流失調(diào)注入校正法與隨機(jī)DWA算法。直流失調(diào)注入法的核心思想是通過在數(shù)模轉(zhuǎn)換器輸入端輸入一個直流信號分量，降低數(shù)字碼中間值出現(xiàn)的概率，將二分之一采樣處的雜波頻譜搬移到帶外。該方法最大的問題在于只適用于輸入端只有交流小信號分量的應(yīng)用場景中，一旦輸入信號自身帶有直流分量，一方面容易造成輸出飽和，另一方面兩處直流分量疊加，也可能使得雜波頻譜出現(xiàn)在奈奎斯特采樣頻率之內(nèi)（即信號帶寬之內(nèi)），反而降低了帶內(nèi)信噪比；隨機(jī)DWA算法是對傳統(tǒng)DWA算法較為全面的一次改進(jìn)，它打破了順序循環(huán)選擇的內(nèi)在機(jī)制，任意選擇電容陣列中的某一電容單元作為數(shù)字碼起點，并按輸入碼選擇相應(yīng)的電容單元數(shù)目。每次都優(yōu)先選擇之前沒有選擇過的電容單元，直到所有電容單元都被選擇使用過，才開始重復(fù)選擇電容單元。這種機(jī)制有利于將總的隨機(jī)噪聲通過平均轉(zhuǎn)換為高斯白噪聲。但不足之處在于，該算法具有“太過隨意”的選擇，沒有統(tǒng)一的選擇法則。當(dāng)陣列中某些電容單元具有較大失配時，由于該電容單元被選擇的概率完全隨機(jī)，可能在信號帶內(nèi)引入低頻諧波頻譜，降低了輸出信噪比。

文獻(xiàn)[10]提出了一種雙循環(huán)移位DWA算法，如圖2所示。目的在于降低電容單元失配誤差和輸入信號之間的相關(guān)性，從而消除低頻雜波頻率信號。該算法設(shè)定一個“分裂”指針信號，將傳統(tǒng)的DWA輸出劃分為兩部分?jǐn)?shù)字碼，每隔256個周期分別進(jìn)行順時針和逆時針的電容單元選擇，最終將兩部分選擇單元合二為一，驅(qū)動數(shù)模轉(zhuǎn)換器。該算法雖然切斷了輸入信號和電容單元選擇的相關(guān)性，但本質(zhì)上仍是一階噪聲整形，對帶內(nèi)雜波的抑制效果較為有限。

在文獻(xiàn)[10]的基礎(chǔ)上，文獻(xiàn)[11]研究了一種改進(jìn)型的雙循環(huán)移位DWA算法。該策略的改進(jìn)之處在于首先設(shè)定一個指針pt(n)和一個內(nèi)在的計數(shù)器。當(dāng)數(shù)字碼小于電容陣列單位數(shù)目時，執(zhí)行傳統(tǒng)DWA算法模式；而當(dāng)數(shù)字碼溢出時，計數(shù)器同時過載，該算法將電容陣列分為兩個子陣列。當(dāng)數(shù)字碼為奇數(shù)或者偶數(shù)時，分別對電容單元進(jìn)行順時針或者逆時針方向選擇，最后仍然合二為一構(gòu)成一個完整的電容選擇陣列。其優(yōu)點在于一旦數(shù)字碼過載發(fā)生，即電容單元出現(xiàn)重復(fù)選擇時，破壞了失調(diào)誤差內(nèi)在的周期性，從而降低帶內(nèi)雜波。但該算法仍屬于一階噪聲整形范疇，整體抑制雜波性能比文獻(xiàn)[10]沒有實質(zhì)性的提升。

在文獻(xiàn)[12]中，同樣是在數(shù)字碼超出可備選的電容單元數(shù)目，即當(dāng)數(shù)字碼溢出時，設(shè)計者人為加入一個指針信號函數(shù)，改變了順序循環(huán)選擇的機(jī)制，形成一種“有章可循”的“跳躍”選擇方法，將帶內(nèi)的雜波頻譜轉(zhuǎn)為高斯白噪聲譜，并搬移到高頻處，其4 bit電容單元選擇機(jī)制如圖3所示。該算法實現(xiàn)較為簡單，與傳統(tǒng)DWA算法的區(qū)別只在于每次單位電容的選擇起點不同。其缺陷在于：當(dāng)陣列中某些電容單元失配較大時，該選擇機(jī)制沒有較好的選擇均衡性，可能出現(xiàn)這些電容單元選擇概率較大的情況，從而增加了帶內(nèi)噪底。

文獻(xiàn)[13]在文獻(xiàn)[9]的成果上進(jìn)行了一定程度的改進(jìn)，為了使得隨機(jī)DWA算法具有一定的設(shè)計規(guī)則，該算法在電路中加入了一個1 bit的隨機(jī)數(shù)發(fā)生器。通過隨機(jī)數(shù)發(fā)生器隨機(jī)地產(chǎn)生“0”和“1”編碼，順序或者跳躍一位來選擇電容單元，對雜波的抑制能力控制在6 dB范圍左右。算法如圖4所示。

國內(nèi)學(xué)術(shù)界對語音信號處理SoC的研究起步較晚，水平相對落后，研究的廣度與深度也遠(yuǎn)遠(yuǎn)滯后于國外同行。在模擬前端方面，僅有中科院電子學(xué)所設(shè)計了一款電源電壓1 V的峰值檢測低功耗自動增益控制環(huán)路，該電路基于0.13 μm CMOS工藝實現(xiàn)，電路整體功耗45 μW，且在600 mVp-p輸出擺幅時，總諧波失真達(dá)到0.3%^[14]。而在多位量化Sigma-Delta模數(shù)轉(zhuǎn)換器的DWA算法方面，也僅有西安電子科技大學(xué)在2015年發(fā)布過二階的研究成果^[20]。此外，復(fù)旦大學(xué)也在0.13 μm CMOS工藝平臺上完成了一款電源電壓1 V，信號帶寬20 kHz的連續(xù)時間Sigma-Delta模數(shù)轉(zhuǎn)換器，該模數(shù)轉(zhuǎn)換器采用4階單環(huán)單比特量化結(jié)構(gòu)，輸出信號噪聲失真比達(dá)到105.5 dB，功耗僅為110 μW^[15]。總的來看，國內(nèi)學(xué)術(shù)界還在對核心算法和獨立的電路模塊進(jìn)行探索和研究，仍沒有形成完整的聲音信號通路。

3 模擬前端發(fā)展趨勢

綜上所述，目前模擬前端的設(shè)計分別針對自動增益控制環(huán)路和多位量化Sigma-Delta模數(shù)轉(zhuǎn)換器的DWA算法主要有以下兩方面趨勢：

(1)在語音信號較為復(fù)雜的場合，麥克風(fēng)輸出的信號中含有多個頻率的正弦波，這些正弦波的幅度可能位于最佳接收范圍高閾值V_peak和低閾值V_act的任意區(qū)間，而傳統(tǒng)的峰值檢測算法只能處理其中某一頻率的信號。而目前根據(jù)多頻率語音信號峰值幅度分布的特點，可采用一種峰值統(tǒng)計判決算法，在固定的周期內(nèi)提取語音信號幅度的統(tǒng)計特性，確定大部分信號幅度所處區(qū)間，對它們進(jìn)行增益調(diào)整，從而實現(xiàn)對大多數(shù)信號幅度特定的精確控制，其原理如圖5所示。

(2)現(xiàn)有的DWA算法都是基于隨機(jī)DWA算法進(jìn)行改進(jìn)，無論是增加隨機(jī)數(shù)還是設(shè)定起點指針的函數(shù)，其目的都在于提供一種隨機(jī)但又相對“可控”的算法，將隨機(jī)噪聲引起的帶內(nèi)雜波壓制或者搬移至帶外。從總體來看，并沒有完全解決帶內(nèi)雜波頻率和數(shù)模轉(zhuǎn)換器輸入碼、電容單元總數(shù)之間關(guān)聯(lián)性的矛盾。這些算法為未來的改進(jìn)方向提供了一定思路，那就是在“有章可循”與“隨機(jī)化”之間謀求一種設(shè)計平衡，從而實現(xiàn)高階的噪聲整形，真正將隨機(jī)雜波進(jìn)行高斯白噪聲化。這種設(shè)計思路即為二階DWA算法，其原理在于首先通過隨機(jī)數(shù)發(fā)生器隨機(jī)地產(chǎn)生電容單元選擇起始點，之后根據(jù)上一回合選擇的電容單元，并結(jié)合本次輸入的數(shù)字碼，優(yōu)先選擇未使用過的電容單元；并在此過程中，設(shè)置寄存器指引電容單元的選擇方向；通過以上機(jī)制，就可以實現(xiàn)二階乃至高階的噪聲整形，從而獲得較好的帶內(nèi)噪底和雜波抑制能力以及輸出信噪比性能提高。

4 結(jié)論

在人工智能應(yīng)用中，圖像與語音是人機(jī)交互最為重要的兩種形式。而語音信號在處理過程中又具有數(shù)據(jù)量小、受環(huán)境影響程度低的特點，因此語音信號處理SoC必將成為人工智能芯片中的重要組成部分。而模擬前端又與語音信號SoC的信噪比、功耗以及處理功能息息相關(guān)。本文針對模擬前端中自動增益控制環(huán)路以及Sigma-Delta模數(shù)轉(zhuǎn)換器的關(guān)鍵技術(shù)進(jìn)行分析，總結(jié)了近年來的技術(shù)成果和不足，并討論了多頻率信號處理統(tǒng)計算法以及高階DWA算法的發(fā)展趨勢，為模擬前端乃至語音信號SoC的設(shè)計發(fā)展提供了思路和解決方案。

參考文獻(xiàn)

[1] WAKEMAN G，PREVES D A，SEVERIN W A.A 1.1-V 270-μA mixed-signal hearing aid chip[J].IEEE Journal of Solid-State Circuits，2002，37(12)：1670-1677.

[2] KIM S，LEE S J，CHO N，et al.A fully integrated digital hearing aid chip with human factors considerations[J].IEEE Journal of Solid-State Circuits，2008，43(1)：266-274.

[3] BAIRD R T，F(xiàn)IEZ T S.Linearity enhancement of multibit A/D and D/A converters using data weighted averaging[J].IEEE Transaction Circuits and System.II，1995，42：753-762.

[4] GATA D G，SJURSEN W，HOCHSCHILD J R，et al.A 1.1-V 270-μA mixed-signal hearing aid chip[J].IEEE Journal of Solid-State Circuits，2002，37(12)：1670-1677.

[5] SERRA-GRAELLS F，GOMEZ L，HUERTAS J L.A true-1-V 300-μW CMOS-subthres-hold log-domainhearing-aid-on-chip[J].IEEE Journal of Solid-State Circuits，2004，39(8)：1271-1281.

[6] KIM S，LEE J Y，SONG S J.An energy-efficient analog front-end circuit for a sub-1V digital hearing aid[J].IEEE Journal of Solid-State Circuit，2006，41(4)：876-882.

[7] DELIGOZ I，NAQVI S，COPANI T，et al.A MEMS-based power-scalable hearing aid analog front end[J].IEEE Transaction on Biomedical Circuit and Systems，2011，5(3)：201-214.

[8] SUKUMARAN A，KARANJKAR K，JHANWAR S.A 1.2 V 285 μA analog front end chip for a digital hearing aid in 0.13 μm CMOS[C].Solid-State Circuits Conference(A-SSCC)，IEEE Asian.Singapore，2013：397-400.

[9] VADIPOUR M.Techniques for preventing tonal behavior of data weighted averaging algorithm in sigma-delta modulators[J].IEEE Transactions on Circuits and Systems-II，2000，47(11)：1137-1144.

[10] WANG H，ZHAO M，WU X，et al.0.9 V 58 μW 92 dB SNDR audio delta-sigma modulator with high efficiency low noise switched-opamp and novel DWA technique[J].Electronics Letters，2011，47(4)：67-68.

[11] ZHAO J C，WU X B，ZHAO M L.A digital front-end of 16-bit audio delta-sigma DAC with improved CSE method and novel DWA[C].IEEE 10th International New Circuits and Systems Conference(NEWCAS)，Montreal，Cadence，2012：273-276.

[12] LI D，YANG Y T，SHI Z C，et al.A low-distortion multi-bit sigma–delta ADC with mismatch-shaping DACs for WLAN applications[J]. Microelectronics Journal，2015，46(1)：52-58.

[13] LIN J N，CHU H C，CHEN Z Y，et al.A continuous-time delta-sigma modulator with novel data-weighted averaging algorithm for audio application[C].IEEE International Conference on Electron Devices & Solid-State Circuits，Singapore，2015：281-284.

[14] 李凡陽.一種用于1V助聽器的低功耗增益控制系統(tǒng)[J].微電子學(xué)與計算機(jī)，2011，28(9)：8-12.

[15] 董一楓，楊海峰，許俊，等.一種用于助聽器的1 V 110 μW 105.5 dB 20 kHz CT-Sigma Delta調(diào)制器[J].復(fù)旦學(xué)報(自然科學(xué)版)，2012，51(1)：50-56.

作者信息:

陳鋮穎

(廈門理工學(xué)院光電與通信工程學(xué)院，福建廈門361024)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容