基于多播的分布式視頻會議的研究-AET-電子技術(shù)應(yīng)用

基于多播的分布式視頻會議的研究

來源：微型機與應(yīng)用2013年第7期

郭琳1，楊曉軍2

（1.昆明理工大學(xué) 津橋?qū)W院計算機系，云南昆明 650021； 2.昆明昆船物流信息產(chǎn)業(yè)有限公司

摘要： 基于JMF和多播技術(shù)實現(xiàn)了一個沒有多點控制單元的分布式視頻會議。視音頻的壓縮由各個客戶端來處理，并引入了視頻會議的自由模式和主講模式，兩種模式之間的切換由各個對等點之間協(xié)調(diào)同步完成。在沒有多點控制單元的情況下，依然保證視頻會議的正常進(jìn)行。會議中的各個對等點采用多播技術(shù)傳輸視音頻流，以盡量減少對帶寬的占用。

關(guān)鍵詞： 多播分布式 JMF 同步

Abstract：

Key words :

1 視頻會議的發(fā)展歷程
    視頻會議在電信行業(yè)己經(jīng)存在了30多年，但在上世紀(jì)90年代以前，這些系統(tǒng)一直使用專用的編解碼硬件和軟件，視頻會議都需要昂貴的設(shè)備和專線互連才能實現(xiàn)。
    而近幾年來，隨著國內(nèi)外大型網(wǎng)絡(luò)運營商對網(wǎng)絡(luò)環(huán)境的建設(shè)和改造，以及ISDN、DDN、VPN、xDSL、ATM等技術(shù)的應(yīng)用和推廣，視音頻編解碼技術(shù)趨于成熟，圖像傳輸質(zhì)量大為提高，視頻會議系統(tǒng)價格開始下調(diào)，視頻會議系統(tǒng)的使用環(huán)境變得越來越好，因此無論是通信行業(yè)還是IT行業(yè)，都對視頻會議領(lǐng)域重新進(jìn)行關(guān)注。
    目前視頻音頻數(shù)據(jù)的編碼解碼技術(shù)也趨于成熟，計算機處理速度和附屬板卡的處理速度也大幅度增強，很多以前需要專門的硬件設(shè)備MCU來進(jìn)行的音視頻編碼解碼操作，現(xiàn)在都可以在普通的計算機上進(jìn)行，寬帶的接入愈來愈廉價、普及，成本比硬件系統(tǒng)低很多，為了使視頻會議“大眾化”，利用其現(xiàn)有的計算機和網(wǎng)絡(luò)系統(tǒng)，實現(xiàn)視頻會議的應(yīng)用，視頻會議由“硬”到“軟”是必然的趨勢。就市場來看，據(jù)國際著名的通信研究機構(gòu)Wainhouse Research近期預(yù)測，未來全球硬件視頻會議設(shè)備銷售的增長約為18%，而軟件視頻會議的增長則將達(dá)到144%。
2 多播技術(shù)的應(yīng)用
    視頻會議可以采取單播、多播和廣播中任一技術(shù)來實現(xiàn)。單播即點對點的通信，需建立連接，雖然能保證數(shù)據(jù)不丟失，但很占用資源，例如，為了使視頻會議系統(tǒng)顯現(xiàn)的圖像是動態(tài)的、連續(xù)的，一個視頻信息流就需要占用1.5 Mb/s的帶寬[1]，在一個單播（unicast）環(huán)境里，若有N個用戶接收，視頻服務(wù)器依次送出N個信息流，共需要N×1.5 Mb/s的帶寬；如果服務(wù)器處于10 M的以太網(wǎng)內(nèi)，6~7個信息流就占滿了帶寬；而在一個多播（multicast）環(huán)境里，不論網(wǎng)絡(luò)中的用戶數(shù)目有多少，服務(wù)器只發(fā)出的一個視頻流，僅需1.5 Mb/s的帶寬即可。
    廣播技術(shù)在發(fā)送給參與視頻會議用戶的同時也會把視頻流發(fā)送給那些對此不關(guān)心的用戶，尤其視頻音頻的數(shù)據(jù)都比較大，這樣會導(dǎo)致Internet面臨崩潰，而多播通信的目標(biāo)性更強并且比廣播通信窄[1]。例如，如圖1所示，若采用多播發(fā)送，則發(fā)送端A的視頻流只會在路由器1復(fù)制一次，并發(fā)送給路由器2，路由器2再復(fù)制一次發(fā)給接收端B；如用廣播技術(shù)，則發(fā)送端A的視頻流到達(dá)路由器1時，路由器1將復(fù)制出三個視頻流分別發(fā)給與它相連的3個路由器，這3個路由器又將收到的視頻流廣播到其他網(wǎng)絡(luò)，而不管這些客戶是否有需要。因此本系統(tǒng)采用多播技術(shù)來實現(xiàn)流媒體的傳輸。

3 分布式視頻會議及JMF
    分布式視頻會議是傳統(tǒng)的會議系統(tǒng)（如：H.320視頻會議系統(tǒng)）所沒有的，又與點對點網(wǎng)絡(luò)下視頻會議不同[2]。在這種管理方式中，系統(tǒng)沒有MCU，也就是沒有集中控制和集中管理的設(shè)備，MCU的功能分別由終端實現(xiàn)。這種方式之所以能在基于分組的通信網(wǎng)（如IP網(wǎng)）中實現(xiàn)，其主要原因是網(wǎng)絡(luò)中的通信在邏輯信道進(jìn)行而不是以物理信道為單位進(jìn)行的，并且目前視頻編碼技術(shù)和客戶端計算機的處理能力也大幅提高，使得這種分布式視頻會議模式成為可能。
    Java媒體框架JMF（Java Media Framework）[3]是一個把音頻、視頻和其他基于時間（Time-Base）的媒體結(jié)合到Java程序中的應(yīng)用程序接口。它使Java程序具有許多新功能：捕捉音視頻信號、存儲、播放并處理媒體數(shù)據(jù)，并能夠傳輸媒體數(shù)據(jù)和對多媒體格式進(jìn)行編譯碼。它還支持壓縮的媒體流及存儲媒體的同步、控制、處理和播放。
    JMF包括JMF API和RTP API兩個部分，前者的主要功能是捕捉、處理、存儲和播放媒體流；后者主要是在網(wǎng)絡(luò)上實時地（Real-Time）傳輸和接收媒體流，另外由于它是一種采用Java語言開發(fā)媒體應(yīng)用的API，因此保證了媒體應(yīng)用程序的跨平臺性。
4 設(shè)計和核心技術(shù)實現(xiàn)
    模擬現(xiàn)實中的會議，會議模式包括自由模式和主講模式兩種。自由模式下，各個用戶間可以自由交流，通過本地終端能看到和聽到其他所有參與會議的人的動態(tài)畫面和聲音；主講模式下，由一個終端用戶主講，其他用戶每個終端只接收主講的視頻和音頻流，并關(guān)閉自己的視頻音頻流的網(wǎng)絡(luò)傳輸。各個終端既作為服務(wù)器也作為客戶端，即每個用戶從攝像頭和麥克風(fēng)捕獲視頻流和音頻流并向其他3人傳送，同時也分別接收其他3人傳送來的視頻音頻流并分別同步播放，無需其他專門的硬件設(shè)備比如MCU來控制會議的進(jìn)行，會議的管理控制由各個終端共同協(xié)作完成。流程圖如圖2所示。

4.1 流媒體的采集和壓縮
    利用JMF中的類CaptureDevice獲取本地捕獲音頻流的設(shè)備信息對象CaptureDeviceInfo，利用獲取的設(shè)備信息創(chuàng)建媒體流的URL，并封裝到數(shù)據(jù)源DataSource（JMF中處理多媒體數(shù)據(jù)的數(shù)據(jù)模型）。
    發(fā)送前對捕獲的視頻音頻流進(jìn)行壓縮。由于直接從捕獲的視頻中得到的音頻或視頻原始數(shù)據(jù)很大，無法直接在網(wǎng)絡(luò)上傳輸，例如，10 s內(nèi)捕獲的原始音頻流1.70 M，而進(jìn)行G723.1壓縮后10 s內(nèi)的數(shù)據(jù)量僅為151 KB，因此需要進(jìn)行壓縮編碼然后再由網(wǎng)絡(luò)傳輸。
4.2 流媒體的傳輸
    JMF提供的RTPConnector接口實現(xiàn)了與底層網(wǎng)絡(luò)的獨立性，RTP管理器使用RTPConnector接口可以實現(xiàn)基于底層UDP/TCP網(wǎng)絡(luò)的媒體流應(yīng)用。但JMF沒有提供RTPConnector的缺省實現(xiàn)，為了實現(xiàn)UTP和RTP的通信，需要設(shè)計一個類RTPUTPHandle來實現(xiàn)RTPConnector接口中的主要的兩個方法：getDataInputStream（）和getDataOutputStream（），這兩個方法分別實現(xiàn)將接收到的數(shù)據(jù)源和要發(fā)送的數(shù)據(jù)源的處理給RTP管理器。但在實現(xiàn)這個RTPConnector接口前，還需要實現(xiàn)javax.media.protocol包中PushsourceStream和OutputDataStream接口中的方法。PushSoureStream中主要實現(xiàn)read（）方法，用于將底層網(wǎng)絡(luò)中的UDP數(shù)據(jù)包中的數(shù)據(jù)傳輸給RTP管理器，OutputDataStream中主要需要實現(xiàn)write（）方法，用于將RTP管理的所要發(fā)送的數(shù)據(jù)輸出到底層網(wǎng)絡(luò)。用UML表示如圖3所示。

4.3 同步處理
由于處理器的狀態(tài)要經(jīng)歷如圖4所示幾個階段，首先獲取要播放的流，再獲得計算機資源，之后才能播放。當(dāng)接收到來自同一個源的視頻音頻對時，若直接創(chuàng)建兩個處理器并直接播放，則兩個處理器都互相不考慮各自從初始狀態(tài)（Unrealized）到播放狀態(tài)（Started）所用的時間，則必定造成畫面和聲音的不同步。因此當(dāng)其中一個處理器到達(dá)就緒狀態(tài)時（Prefetched），如果另一個處理器還未就緒，則等待，直到另一個處理器到達(dá)就緒狀態(tài)再播放。由于從Prefetched到Started狀態(tài)的時間很短可忽略不計，便于實現(xiàn)音頻視頻的同步播放。若從Prefetched到Started狀態(tài)還是造成了不同步，比如其中一個處理器從Prefetched到Started狀態(tài)用時0.1 s，而另一個處理器用時0.2 s，造成0.1 s的不同步，則需要設(shè)置播放延時，即當(dāng)兩處理器都處于Prefetched狀態(tài)時，設(shè)置延時為0.2 s，這樣即使先進(jìn)入Started也需要等0.1 s才能播放，依次實現(xiàn)播放的同步。

4.4 會議模式之間的切換
系統(tǒng)在自由模式和主講模式之間切換時，由于沒有獨立出來的控制器，如多點控制單元MCU，因此使用阻塞機制及Java的線程同步技術(shù)保證各終端之間能相互協(xié)作以完成會議模式的同步轉(zhuǎn)換，避免出現(xiàn)某些終端處于自由模式而某些終端處于主講模式。當(dāng)自由模式向主講模式轉(zhuǎn)換時，由主講向各個終端發(fā)送主講控制信息，各個終端關(guān)閉本地視頻音頻流的發(fā)送，并進(jìn)入阻塞狀態(tài)，只接收主講的視頻音頻流；當(dāng)主講模式向自由模式轉(zhuǎn)換時，由主講向各個終端發(fā)送結(jié)束主講控制信息，各個終端解除阻塞狀態(tài)，打開本地視頻音頻流的發(fā)送。
軟件化的分布式視頻會議由于在客戶端進(jìn)行視音頻的編碼壓縮操作，增加了一定的處理負(fù)擔(dān)，采用軟件編碼也比硬件編碼速度上有劣勢，但可擴展性卻是硬件視頻會議無法比擬的，MCU的端口數(shù)直接限制了可接入的用戶數(shù)，且可接入數(shù)越多，MCU的價格越昂貴，很難被廣泛使用；在帶寬足夠大的情況下，分布式視頻會議卻不受這個限制。
參考文獻(xiàn)
[1] 朱濤江，林劍.Java網(wǎng)絡(luò)編程[M].北京：中國電力出版社，2005：478-500.
[2] 郭琳，楊曉軍，王云澤.P2P網(wǎng)絡(luò)下多媒體實時共享系統(tǒng)[J].計算機工程，2010，36（17）：245-248.
[3] 孫一林，彭波.Java網(wǎng)絡(luò)編程實例[M].北京：清華大學(xué)出版社，2003.219-277.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容