雖然有很多種描述方法可以描述一段多媒體內容,,但是描述格式的定義通常是規(guī)范的,,所以具備了可用性、統(tǒng)一性和互操作性,。鑒于是標準描述化,,所以MPEG-7標準只是指定描述的格式(語法和語義)。
雖然提出多媒體內容描述接口的初衷是為了解決人們在面對多到泛濫的網絡多媒體信息面前的無所適從,,但是MPEG-7的應用絕不僅限于搜尋,,它也有很多其他類型的應用,例如實時監(jiān)控,、廣播過濾,,半自動編輯,自動播放列表的產生,。
在本篇論文中,,我們將討論MPEG-7的基本理論,并且側重于音頻方面,。
一. MPEG-7基本
1.定義
MPEG-7的基本描述實體叫做描述符(descriptor),,它通過定義語法和語義來表示特定內容的性質、特征和屬性,。在音頻領域中,,描述符可以描述音頻信號的頻譜包絡。
描述方案(description schemes)的作用是聯(lián)合和構造描述組件,,以滿足應用的要求,。描述方案包含了一系列的描述符和同一個體系中的其它的描述方案。
描述符和描述方案在語義上都是由所謂的描述定義語言(description definition Language,,DDL)定義的,,它可以進行擴展,。MPEG-7 DDL是以XML語言為基礎,,因為它可以實現內容描述的文本表示,并且允許描述工具的擴展,。
2.描述定義語言- DDL
描述定義語言是基于XML(文本格式)的描述性語言,。之所以采用XML語言一部分是因為它是SGML語言的延伸,而且它的普及型確保了描述工具的擴展性,。此外,,MPEG-7采用XML還因為它在與多媒體內容描述相關的數據結構的創(chuàng)建中發(fā)揮著巨大的作用,。
但是MPEG-7 DDL不是對XML語言規(guī)范的完全復制,它有少許的改變,,比如它對一些特定的數據類型提供擴展支持,,并且它剔除了多余的特征等。特別是,,DDL引入了定義數組和矩陣的新型結構,,擴展了XML語言架構的功能。
3.多媒體描述方案(MDS)
創(chuàng)建多媒體描述方案不只是為了滿足不能單獨適用于視頻或者音頻工具的需要,,而且能夠滿足多媒體內容的需要,。所以,MPEG-7標準中的MDS提供了與MPEG-7音頻標準相關的一系列的兩個層次的工具,。首先,,有一系列低層次的工具,它包含了擴展的數據類型,,例如音視頻數據的段的基本定義類型,,還有一系列高層次的工具,它超出了音視頻描述的范圍,,允許音視頻相關,,例如高層次內容的語義描述。為了避免MPEG-7標準會存在冗余功能,,它的音頻部分是由MDS提供音頻文件所需要的工具集,。
二. MPEG-7音頻
MPEG-7音頻標準的結構可分為兩個類別,就是通用音頻描述框架和特定應用工具,。音頻描述框架即基本兼容層(工具箱),,也就是通用描述和特定應用構建的基礎,而且它還包含了可擴展系列方案,、低層描述符(LLDs),、靜音段(silence segment)。另一方面,,聲音識別工具,、樂器音色描述工具、說話內容描述工具,、旋律描述工具,、魯棒性音頻匹配工具分別專注了它們各自的應用領域,所以它們的描述能力都比較強,。
1.描述結構
MPEG-7音頻依賴于兩個基本結構,,段和可擴展序列。
段數據類型實際上由MPEG標準的MDS繼承而來的,,而且在一開始就被MPEG-7音頻描述所采用,。音頻段和段分解共同作用可以連續(xù)的分解音頻流,。將音頻分為“段”,它的依據是每段至少得有一個特征,,無論是概念上的還是數學上的,。你可以把音頻流分割成任何你想要的分辨率,以及任何層次的深度,。只要子段的時域范圍完全在母段上,,母段本身的特性就會限制子段的特性,而且子段可能會存在缺口,、重疊,、兩者都有或者兩者都無。特定的一段時間的音頻流可以被任意數量的段所描述,。
可擴展序列的核心是一系列對應于描述符的采樣值,。最普遍的設想是它作為一個時間序列的同時,同樣適應于頻域的采樣,??蓴U展序列還能夠存儲各種各樣的匯總值,如描述符值的最大值,、最小值和方差,。
2.低層音頻描述符
一般來說,涉及到大部分的音頻信號的低層描述符,,能夠分成以下幾個組別,,同時下面給出了描述符的描述范圍
基本:瞬時波形和功率值。
基本譜:對數頻率功率譜和頻譜特性,,包括譜心,,頻譜延展性,頻譜平坦度,。
信號參數:準周期信號的基頻和信號諧波,。
音色時域:對數表示的開始時間(log attack time),時域分割的單聲道音頻的時域中心,。
音色譜:在線性空間內的頻譜特性,。例如單聲道音頻的譜心,還包括信號的諧波部分的頻譜特性,,也就是諧波譜心,,頻譜偏差,頻譜延展性,,譜變化,。
頻譜的基本表示:主要用于聲音識別的特性,,一般用于在低維空間的識別,。
2003年MPEG又發(fā)布了MPEG-7 Audio Version 2,,增加了一些低層描述符,包括音頻信號質量描述符和音樂節(jié)拍(BPM)描述符。音頻信號質量描述符描述的范圍包括背景噪聲,、音頻通道互相關,、相對延遲、平衡,、DC偏移,、帶寬和傳輸技術,以及錄音錯誤,。并且對原先的MPEG-7 Audio進行了擴展,,增加了對立體聲/環(huán)繞聲的描述和說話內容的描述。
3.面向應用的音頻工具
(1)聲音識別工具
聲音識別描述符和描述方案是索引和分類全部聲音效果的一組工具,。它們支持自動化聲音效果識別和索引,,而且包含了詳細說明聲音分類的 工具和聲音識別的工具。此識別器可用來自動索引和音軌分段,。
(2)說話內容描述工具
基于目前的語音系統(tǒng)并不完美,,從而產生了說話內容描述工具。它不是一個簡單的說話文本(雖然它也能適應這種情況),,這個描述方案包含了合并詞和音位格,,它能為音頻流中的每一個說話者服務。通過結合音位格的方式,,很大程度上解決了在出現詞匯表之外的詞匯所帶來的問題,。即使原始解碼出錯,或者單詞超出了識別引擎的詞匯表的范圍,,檢索信息依然能夠能夠進行,。它能夠用于兩大類別的檢索方案:音頻流的索引和檢索以及語音多媒體對象的索引。
(3)樂器音色描述工具
音色描述針對的是對樂器聲的感知特性的描述,。音色作為感知特性被定義在庫中,。當兩個聲音擁有相同的基音音高和響度時,但是聽起來卻不一樣,,這是因為這兩個聲音音色的不同,。音色描述工具利用簡化的一組描述符描述這些感知特性。描述符涉及到一些概念,,例如聲音的起始時間,、明亮度或者豐滿度。
總共存在有四類樂器聲:諧和,、持續(xù),、連貫的聲音;沖擊性非持續(xù)的聲音,;非諧和,、持續(xù),、連貫的聲音;非連貫,、持續(xù)的聲音,。在這4大類中,MPEG-7標準已經詳細說明了前兩類,,而且一直在不斷更新中,。另兩類被視作低優(yōu)先級,因為它們相對比較少見,,但是標準仍對它們進行了說明,。音色描述工具廣泛使用了前面討論過的音色時域和頻域的低層描述符。
(4)旋律描述工具
有兩種方法來描述旋律特性,,采用哪一種取決于你所需要的簡潔度和精確度,。旋律輪廓(melody contour)描述方案是一種簡潔描述旋律信息的方法,它允許有效,、穩(wěn)健地旋律相似性匹配,,例如,通過嗡聲查詢,。旋律輪廓(melody contour)描述方案使用5步輪廓法(表示相鄰音符的音程長度的不同),,并且音程被量化。旋律輪廓描述方案還可以通過存儲每個音符最鄰近的拍數來表示節(jié)奏信息,,而且這還能顯著的提升從資料庫提取信息匹配的準確度,。
對于應用來說,需要更加優(yōu)良的描述準確度和給定旋律的重建能力,,所以旋律描述方案支持描述符集合的擴展和高精度音程編碼,。音符跟音符之間有著精確的音高區(qū)間(精度到分或者更高),而不是只量化到5個級別,。通過對類似音高區(qū)間的音符起始時間的差異的對數比進行編碼,,才有了精確的節(jié)奏信息。這些核心描述符是一系列的可選支持描述符,,例如歌詞,、音調、韻律和起始音符,,以滿足應用的需要,。
(5)魯棒匹配工具
魯棒音頻匹配工具能夠穩(wěn)健和有效的完成音頻信號的身份匹配,也就是說,,即使在信號有了線性或者非線性失真之后,,也能夠去區(qū)分兩個音頻信號在本質上是否相同。未知音頻信號和相關的資料數據庫條目能夠進行穩(wěn)健和有效的匹配,這使得它具備了音頻材料的自動識別功能,,以及能夠仿真出跟人類能力一樣基于記憶的聲音的識別能力,。更重要的是,在MPEG-7標準中,,建立了為現有的傳統(tǒng)音頻格式的給定音頻內容塊來查找內容描述數據(例如,,歌名或者歌手名字)的方法,。例如CD不提供任何鏈接到相應的描述數據庫條目,。 雖然魯棒音頻匹配在原則上可以通過若干特征而實現,但是使用MPEG7中的頻譜平坦度描述符就可以完美的實現了,。
三. MPEG-7音頻的應用
1.說話內容搜尋
語音是人類相互交流溝通的最重要的手段,,與我們的生活息息相關。所以能夠實現對于說話內容的搜尋功能顯得非常的重要?,F今的自動語音識別器都是基于單詞/音位格的,。
前面已經簡單講過MPEG-7對于說話內容的描述的方法。它先存儲音位格作為描述數據(而不是用純文本的形式),,然后采取查詢/匹配的方法,,并且它允許模糊處理和未知單詞的檢索。這個應用可以使你能夠檢索某一段的說話內容,,還能夠使用語音對某段內容加上注解,。
2.一般聲音識別和索引
當你面對各種各樣的聲音,甚至是復雜的混合聲時,,該怎么樣去識別其中的一個呢,?當你面對兩個相似的聲音時,怎樣去解決這個問題呢,?對它們進行頻譜獨立分量分析和利用隱馬爾科夫模型就可以很好的區(qū)分出來,。
3.存檔和恢復
這個應用很好的解決了文化遺產(音頻部分)的保護問題,我們可以對它們進行存檔以給日后使用,。我們經常想要保存原始的錄音,,這樣在日后我們可以對它進行后期處理或者恢復。對于存檔和恢復音頻文件,,MPEG-7是通過音質描述編碼實現的,,這其中包括對它們的一般音質、技術錄音參數,、缺陷的位置和類型進行記錄編碼,。
4.樂器音色搜尋
人類對于聲音的感覺不只包括音調、響度和持續(xù)時間,,還包括音色的感知,。MPEG-7通過使用感知相關特性去描述單聲道樂器聲以對聲音進行比較,而且它還考慮了持續(xù)諧波聲和沖擊樂器聲。
5.旋律搜尋
對于如何搜尋旋律的問題,,它要求搜尋工具不僅能夠高效工作而且能夠容許音調和時間稍微不準確,。MPEG-7的方法是采用旋律描述編碼,它對音調,、節(jié)奏,、時間信息等進行編碼,以進行搜尋,。
6.音頻識別/指紋
關于怎么識別一段錄音的問題,,MPEG-7所用到的方法是存儲數據庫的原始文件的MPEG-7的簽名/指紋來實現,再通過和數據庫簽名進行匹配來識別未知的音頻材料,。這種通過從音頻信號中抽取獨特簽名來自動識別音頻內容的音頻指紋方法獲得了廣泛的興趣,。不僅如此,MPEG-7還可以應用于說話人的識別,。
四. 結論
在發(fā)布了幾代的音視頻壓縮標準之后,,MPEG標準小組把工作范圍延伸到了多媒體內容的描述上。因為對音視頻內容的高效搜索和檢索的需求在不斷增長,,MPEG-7標準試圖為音視頻提供標準的內容描述方法,。尤其是標準中的很多描述工具被用來有效地表示內容的內部結構和特性,而不是像其它的元數據標準一樣以純注解形式來描述,。MPEG-7音頻提供了通用概念以及它有著面向應用的特點,,同時它具備很多功能,例如音樂的哼唱檢索應用,、聲音效果識別,、樂器音色描述、說話內容的注釋,、音頻信號的穩(wěn)健匹配等,。