摘 要: 分析了含有歡快,、憤怒、驚奇,、悲傷等4種情感語(yǔ)音信號(hào)的時(shí)間構(gòu)造,、振幅構(gòu)造、基頻構(gòu)造和共振峰構(gòu)造的特征,。通過(guò)與不帶情感的平靜的語(yǔ)音信號(hào)的比較,,總結(jié)了不同情感語(yǔ)音信號(hào)情感特征的分布規(guī)律,為情感信號(hào)處理和識(shí)別提供了有實(shí)用價(jià)值的理論數(shù)據(jù),。
關(guān)鍵詞: 情感特征 語(yǔ)音信號(hào) 時(shí)間構(gòu)造 振幅構(gòu)造 基頻構(gòu)造 共振峰構(gòu)造
語(yǔ)言是人類交際的最重要的工具,。人類的話語(yǔ)中不僅包含了文字符合信息,而且還包含了人們的感情和情緒等信息,。例如,,同樣一句話,往往由于說(shuō)話人的情感不同,,其意思和給聽(tīng)者的印象就會(huì)不同,,所謂“聽(tīng)話聽(tīng)音”就是這個(gè)道理。傳統(tǒng)的信息科學(xué)世界只是處理符號(hào)信息的“無(wú)神經(jīng)”的知識(shí)世界,。例如,,傳統(tǒng)的語(yǔ)音處理系統(tǒng)僅僅著眼于語(yǔ)音詞匯傳達(dá)的準(zhǔn)確性,而完全忽略了包含在語(yǔ)音信號(hào)中的情感因素,。所以它只是反映了信息的一個(gè)方面,。與知識(shí)世界相對(duì)應(yīng)且具有同等重要地位的感性科學(xué)世界,也是信息處理的重要組成部分,。因此情感信號(hào)特征的人工處理,,在信號(hào)處理和人工智能等領(lǐng)域具有重要意義。
從語(yǔ)音信號(hào)提取情感特征,,判斷說(shuō)話人的喜怒哀樂(lè),,是國(guó)外近幾年剛剛興起的研究課題。由于剛剛起步,,這方面的研究成果還很少[5],,就目前的研究水平來(lái)看,一般也都只限于通過(guò)分析情感語(yǔ)音信號(hào)的持續(xù)時(shí)間,、發(fā)音速度,、振幅、基頻,、頻譜等變化特點(diǎn),,尋找能夠反映情感特征的物理參數(shù)。本文針對(duì)含有歡快、憤怒,、驚奇,、悲傷等4種情感的語(yǔ)音信號(hào),分析了它們的時(shí)間構(gòu)造,、振幅構(gòu)造,、基頻構(gòu)造和共振峰構(gòu)造的特征。并且通過(guò)和不帶感情的平靜語(yǔ)音信號(hào)進(jìn)行比較,,找出了不同情感信號(hào)特征的分布規(guī)律,。作為情感信號(hào)處理的初步研究,為漢語(yǔ)情感語(yǔ)音信號(hào)處理和情感識(shí)別提供了有實(shí)用價(jià)值的理論數(shù)據(jù),。
1 情感分析用語(yǔ)音資料的選擇
適當(dāng)選擇用于情感分析的語(yǔ)音信號(hào)具有重要意義,。然而,國(guó)內(nèi)外現(xiàn)在還沒(méi)有提出情感分析用語(yǔ)音資料的條件和標(biāo)準(zhǔn)[4],。在我們的情感分析實(shí)驗(yàn)中,,對(duì)實(shí)驗(yàn)用語(yǔ)句的選擇主要考慮了兩個(gè)方面:第一,所選擇的語(yǔ)句必須具有較高的情感自由度,;第二,,對(duì)同一個(gè)語(yǔ)句應(yīng)該能施加各種情感進(jìn)行分析比較。根據(jù)這兩個(gè)原則,,我們選用了如表1所示的4個(gè)語(yǔ)句作為情感分析用語(yǔ)音資料。并邀請(qǐng)了5名善于表演的男性話者用平靜,、歡快,、憤怒、驚奇,、悲傷等5種情感對(duì)每個(gè)句子各發(fā)音3遍,,一共搜集了300個(gè)分析用語(yǔ)句。
錄音是在安靜的房間里并且使用索尼DAT設(shè)備完成的,。錄音數(shù)據(jù)使用創(chuàng)通公司PCI64位聲卡通過(guò)11025Hz采樣,、16bit A/D變換轉(zhuǎn)化成數(shù)字信號(hào)存儲(chǔ)在PC機(jī)中。為了檢驗(yàn)所搜集的實(shí)驗(yàn)用情感語(yǔ)音數(shù)據(jù)的有效性,,我們做了一個(gè)聽(tīng)取實(shí)驗(yàn),。我們要求以上五名發(fā)音者以外的另三名實(shí)驗(yàn)者坐在電腦終端前,然后隨機(jī)播放所搜集到的帶有各種情感的語(yǔ)句,,讓實(shí)驗(yàn)者通過(guò)主觀評(píng)價(jià)說(shuō)出所放語(yǔ)音的情感類型,。經(jīng)過(guò)反復(fù)聽(tīng)取比較,對(duì)其中情感特征不明顯的句子進(jìn)行了刪除和重新制作,。
2 分析實(shí)驗(yàn)和結(jié)果
一般來(lái)說(shuō),,語(yǔ)音中的情感特征往往通過(guò)語(yǔ)音韻律的變化表現(xiàn)出來(lái)[4]。例如,當(dāng)一個(gè)人發(fā)怒的時(shí)候,,講話的速率會(huì)變快,,音量會(huì)變大,音調(diào)會(huì)變高等,,這些都是人們直接可以感覺(jué)到的,。本文中,我們主要就含有歡快,、憤怒,、驚奇、悲傷等4種情感的語(yǔ)音信號(hào)的時(shí)間構(gòu)造,、振幅構(gòu)造和基頻構(gòu)造等韻律特征和不含感情的平靜語(yǔ)音信號(hào)進(jìn)行比較,,找出了不同情感信號(hào)特征的構(gòu)造特點(diǎn)和差別。
為了求出分析所需要的語(yǔ)音信號(hào)韻律特征參數(shù),,首先按12kHz的抽樣頻率對(duì)輸入信號(hào)進(jìn)行A/D變換,,然后對(duì)抽樣信號(hào)加上窗長(zhǎng)21.33ms(256點(diǎn)),窗移10ms的漢明窗,,最后根據(jù)不同的分析需要求出短時(shí)能量,,基音頻率等韻律特征參數(shù)。
由于語(yǔ)音信號(hào)中的情感信息受到語(yǔ)句詞匯內(nèi)容的影響,,所以為了使分析結(jié)果消除這方面的影響,,一般都是通過(guò)分析情感語(yǔ)音和不帶感情的平靜語(yǔ)音的相對(duì)關(guān)系,找出這種相對(duì)特征的構(gòu)造,、特點(diǎn)和分布規(guī)律,,用來(lái)處理和識(shí)別不同的情感語(yǔ)音信號(hào)。
2.1 時(shí)間構(gòu)造的分析
分析情感語(yǔ)音的時(shí)間構(gòu)造主要著眼于不同情感語(yǔ)音的發(fā)話時(shí)間構(gòu)造的差別,,對(duì)由情感引起的持續(xù)時(shí)間等的變化進(jìn)行分析和比較,。本文中我們主要就發(fā)話持續(xù)時(shí)間長(zhǎng)度(簡(jiǎn)稱為T)以及平均發(fā)話速率和情感的
關(guān)系進(jìn)行了分析和比較。我們把上述300個(gè)語(yǔ)句按平靜語(yǔ)音和4種感情語(yǔ)音進(jìn)行分類,。為了把情感發(fā)音和平靜發(fā)音進(jìn)行比較,,我們分析了各類語(yǔ)句情感發(fā)音持續(xù)時(shí)間長(zhǎng)度以及它們各自的發(fā)音速率的平均值和對(duì)應(yīng)的平靜發(fā)音響應(yīng)參數(shù)的比值,找出了情感語(yǔ)音時(shí)間構(gòu)造的特征,。分析結(jié)果如圖1所示,。
從圖1所示的情感發(fā)音時(shí)間構(gòu)造分析結(jié)果可以看出,在發(fā)話的持續(xù)時(shí)間上,,歡快,、憤怒、驚奇的發(fā)音長(zhǎng)度和平靜發(fā)音相比壓縮了,,而悲傷的發(fā)音長(zhǎng)度卻稍稍伸長(zhǎng)了,。在被壓縮的歡快,、憤怒、驚奇中,、憤怒的發(fā)音最短,,其次是驚奇,然后是歡快,。從發(fā)話速率和情感的關(guān)系來(lái)看,,歡快、憤怒,、驚奇和平靜發(fā)音相比變快了,,而悲傷卻變慢了。通過(guò)進(jìn)一步的觀察可知,,這些現(xiàn)象的產(chǎn)生是由于與平靜語(yǔ)音相比,,在情感語(yǔ)音中,一些音素被模糊地發(fā)音,、拖長(zhǎng)或省略掉了的緣故,。
根據(jù)上述分析結(jié)果,我們可以利用情感語(yǔ)音的時(shí)間構(gòu)造很容易地區(qū)分悲傷和其它情感信號(hào),。也可以通過(guò)設(shè)定某些時(shí)間特征閥值,,來(lái)區(qū)分歡快、憤怒,、驚奇的情感信號(hào),。至于憤怒和驚奇情感信號(hào),顯然光利用時(shí)間構(gòu)造特征不足以進(jìn)行有效的區(qū)分,。
2.2 振幅構(gòu)造的分析
一般來(lái)講,,信號(hào)的振幅特征與各種情感信息具有較強(qiáng)的相關(guān)性[5]。在我們的實(shí)際活動(dòng)中也會(huì)有這樣的感覺(jué),,就是當(dāng)人們憤怒或者驚奇的時(shí)候,發(fā)音的音量往往變大,,而當(dāng)人們沮喪或悲傷的時(shí)候,,往往講話的聲音很低。因此,,在一些有關(guān)情感分析的研究中,,振幅構(gòu)造特性都是作為重要特征加以分析研究的。在本文中,,我們主要針對(duì)振幅平均能量以及動(dòng)態(tài)范圍(分別簡(jiǎn)稱為A和Arange)等特征量進(jìn)行分析比較,。我們求取語(yǔ)音信號(hào)每一幀的短時(shí)能量,分析它們隨時(shí)間的變化情況,。而且為了避免發(fā)音中無(wú)聲部和噪音的影響,,我們只考慮短時(shí)能量超過(guò)某一閾值時(shí)的振幅絕對(duì)值的平均值。分析結(jié)果如圖2所示。其中圖2(a)是話者B發(fā)語(yǔ)句1時(shí)的振幅能量的逐幀演示,,圖2(b)是各情感類型振幅能量相對(duì)值的直方圖,。
從分析結(jié)果可知,歡快,、憤怒,、驚奇三種情感發(fā)音信號(hào)和平靜發(fā)音信號(hào)相比振幅將變大;相反地,,悲傷和平靜相比,,振幅將減小。而且從聽(tīng)取實(shí)驗(yàn)可知,,情感信號(hào)具有這樣的傾向:歡快,、憤怒、驚奇的平均振幅越大,,悲傷的平均振幅越小,,其情感效應(yīng)表現(xiàn)的越明顯。利用振幅特征,,我們可以很清楚地把歡快,、憤怒、驚奇,、悲傷區(qū)分開(kāi)來(lái),,另外,振幅特性也具有一定的區(qū)分歡快,、憤怒和驚奇情感信號(hào)的能力,。
2.3 基頻構(gòu)造的分析
基音頻率也是反映情感信息的重要特征之一[5]。為了分析情感語(yǔ)音信號(hào)基頻構(gòu)造的特征,,我們首先求出情感語(yǔ)音信號(hào)平滑的基頻軌跡曲線[1],,然后分析不同情感信號(hào)基頻軌跡曲線的變化情況,找出不同的情感信號(hào)各自具有的基頻構(gòu)造特征,。
本文分析了不同情感信號(hào)軌跡曲線的動(dòng)態(tài)范圍,、整個(gè)曲線的基頻平均值以及變化率(分別簡(jiǎn)稱為F0,F(xiàn)0 range和F0 rate)等特征,,這里的基頻變化率是指各幀語(yǔ)音信號(hào)基頻差分的絕對(duì)值的平均值,,分析結(jié)果如圖3所示。其中圖3(a)是話者B發(fā)語(yǔ)句2時(shí)的基頻的逐幀演示,,圖3(b)是各情感類型基頻參數(shù)相對(duì)值的直方圖,。
與平靜語(yǔ)音信號(hào)相比,歡快,、憤怒和驚奇的平均基頻,、動(dòng)態(tài)范圍,、平均變化率比較大,而相反,,悲傷語(yǔ)音信號(hào)的則較小,。對(duì)比較大的歡快、憤怒,、驚奇來(lái)進(jìn),,歡快語(yǔ)音信號(hào)的特征量最大,其次是驚奇和憤怒,。另外,,通過(guò)觀察語(yǔ)音信號(hào)的基頻軌跡曲線,我們發(fā)現(xiàn)了一個(gè)區(qū)分驚奇和其它情感信號(hào)的重要特征,,那就是驚奇情感信號(hào)的基頻軌跡曲線在句尾的地方往往有上翹的特征,。圖3反映了話者B發(fā)語(yǔ)句2時(shí)的基頻的逐幀演示。
2.4 共振峰構(gòu)造
共振峰是反映聲道特性的一個(gè)重要參數(shù),。因?yàn)椴煌楦械陌l(fā)音可能使聲道有不同的變化,,所以,我們能夠預(yù)料到不同情感發(fā)音的共振峰的位置不同,。本文首先用線性預(yù)測(cè)法求出預(yù)測(cè)系數(shù),,然后用預(yù)測(cè)系數(shù)估計(jì)出聲道的功率譜,再用峰值檢出法(Peak Picking)[1]算出各共振峰的頻率,。本文為了簡(jiǎn)單起見(jiàn),,只研究了第一共振峰頻率平均值、動(dòng)態(tài)范圍和變化率(分別簡(jiǎn)稱為F1,,F(xiàn)1 range和F1 rate),。分析結(jié)果如圖4所示。其中圖4(a)是話者B發(fā)語(yǔ)句4時(shí)的第一共振峰頻率的逐幀演示,;圖4(b)是各情感類型第一共振峰頻率參數(shù)相對(duì)值的直方圖,。
從圖4中我們可以看出,相對(duì)于平靜發(fā)音,,歡快和憤怒的第一共振峰頻率略微地升高了,,而悲傷的第一共振峰頻率明顯地降低。通過(guò)進(jìn)一步的觀察,,我們發(fā)現(xiàn),這是因?yàn)槿藗冊(cè)诒磉_(dá)歡快和憤怒時(shí),,嘴比平靜發(fā)音時(shí)張得更大的緣故,。而在表達(dá)悲傷時(shí),除了嘴張得比平時(shí)更小以外,,還伴有模糊不清的鼻音,。四種情感的第一共振峰頻率的動(dòng)態(tài)范圍均比平靜時(shí)要大,,其中,驚奇最大,。而四種情感的第一共振峰頻率的變化率均比平靜時(shí)要小,,其中悲傷最小。
以上,,我們從時(shí)間構(gòu)造,、振幅構(gòu)造和基頻構(gòu)造三個(gè)方面,對(duì)含有歡快,、憤怒,、悲傷和驚奇四種情感的語(yǔ)音信號(hào)進(jìn)行了分析比較。綜合三方面的分析結(jié)果,,我們可以歸納如下的情感信號(hào)的特征(均相對(duì)于平靜發(fā)音而言),,結(jié)果如表2所示。
由于存在一定的個(gè)人差,,所以對(duì)于不同的話者,,以上總結(jié)的分析結(jié)果存在不同程度的差異,但分析結(jié)果的總趨勢(shì)是一致的,。作為今后研究的課題,,我們將進(jìn)一步分析感情語(yǔ)音同它的頻譜以及共振峰等特征之間的關(guān)系,為今后的情感語(yǔ)音信號(hào)處理尋找最佳的特征參數(shù),。
參考文獻(xiàn)
1 周迪偉等譯.計(jì)算機(jī)語(yǔ)音處理.北京:國(guó)防工業(yè)出版社,,1987
2 王學(xué)仁,王松桂編譯.實(shí)用多元統(tǒng)計(jì)分析.上海:上??茖W(xué)技術(shù)出版社,,1990
3 唐守正編著.多元統(tǒng)計(jì)分析方法.北京:中國(guó)林業(yè)出版社,1987
4 T.Shirasawa,T.Yamamura.Discriminating Emotion Intended In Speech.Japan:The preprint of the acoustical society of Japan,in 1996:96~38
5 大橋力等.情緒機(jī)器人的世界.講談社,,1995