有理由相信2007年將是最后突破可視電話進入大眾市場障礙的一年,。做出這樣預測是基于以下的因素:寬帶在家庭中廣泛采用,,現在在亞洲、歐洲和北美的某些區(qū)域滲透率超過50%,;摩爾定律不斷地向前推動處理器處理能力的發(fā)展,,使得處理器能支持復雜運算的媒體處理算法,這些算法是實現可靠,、高質量的全運動視頻所需要的,;電池技術以及電源管理的發(fā)展使得基于Wi-Fi的設備的待機時間和通話時間可以分別用天和小時來計算,而不是分鐘,;最后一點值得注意的是,,產業(yè)標準的不斷成熟以及基于IP越來越成熟的語音和視頻軟件解決方案(簡稱為V2IP)使得這些得以實現。
盡管可視電話發(fā)展時間很久,,價格和性能依然是提供大眾市場解決方案的絆腳石,。即使我們從模擬可視電話轉換到數字IP,,有限的網絡和缺乏處理能力導致的性價比依然不能適合于大眾市場。隨著有線和無線網絡的普及,,以及像飛思卡爾公司,、瑞薩、TI和其他的芯片廠商提供的高性能的語音/視頻處理技術,,這些問題很快地得到了解決,。因此,我們將關注點轉移到上面談到的第四點,,即軟件,。當與IP連接的設備不能正常工作時,我們可以將問題和關注點放在這種軟件解決方案上,。并且在大多數情況下是能正常工作的,。
基于IP軟件平臺的語音+視頻設計
無論是電話或任何個人通信和多媒體設備都必須提供具有吸引力、可靠的用戶體驗,,才能成功地產生一個主流的市場,。因此,無線傳輸的質量和可靠性對于Wi-Fi可視電話來說非常重要,。慶幸的是,,IEEE 802.11無線局域網標準不斷地發(fā)展,在數據速率,、范圍和安全性上不斷地改善,,因此我們不再需要關心這個方面問題。
消費電子市場感受到真正穩(wěn)定可靠的VoIP" target="_blank">VoIP產品的時間才剛過去18~24個月,。然而,,設計、開發(fā)和生產支持Wi-Fi的語音視頻(V2IP)電話需要大量的資源用于軟件開發(fā),、集成和確認,。我們將整個解決方案劃分成四個關鍵部分,然后對每個部分進行研究:
操作系統(tǒng)和硅片平臺,;
基于IP架構的嵌入式語音+視頻,;
應用服務層;
圖形用戶界面(GUI),。
操作系統(tǒng)和芯片平臺
我們正在看到越來越多的制造商使用嵌入式Linux作為VoIP電話產品的基礎,。其優(yōu)勢很多,包括開發(fā)者比較熟悉,、豐富的軟件開發(fā)環(huán)境等,,但是最重要的可能是能幫助制造商降低總的材料成本。有很多提供商(例如MontaVista)他們能提供非常穩(wěn)定,、得到很好支持的,,用于低功耗消費設備的Linux版本,。
看看第一代可視電話所采用的架構,我們可以發(fā)現采用了不同的處理器分別用于語音,、視頻和系統(tǒng)控制功能,。因為處理需要,一般采用針對密集媒體處理運算(數字信號處理或DSP)優(yōu)化的處理器,。例如:一個DSP用來處理語音處理功能,,包括語音編碼/解碼、音調發(fā)生和檢測,、回聲消除以及噪聲消減,;一個DSP或專用協(xié)處理器來處理視頻編碼和解碼;一個應用處理器管理VoIP通話控制協(xié)議以及用戶界面(見圖1),。這種方式需要多個編程模型和開發(fā)工具鏈,,這反過來會導致需要更大的開發(fā)團隊,增加培訓和額外的成本,。
圖1:第一代的可視電話需要3個處理器,。
自從第一代的IP可視電話推出以來,通用應用處理器的處理能力已經提高到能將所有通常用DSP實現的語音處理器任務由應用處理器實現,。特別對于Wi-Fi可視電話市場來說,,這是一個非常重要的進步,因為無線連接的設備基本的需求是降低功耗,,最大化電池壽命,。
如果通過代碼匯編和手動軟件優(yōu)化,VoIP編解碼器(G.711,、G.729AB,、G.723.1、iLBC),、音頻處理(DTMF以及通話進行音調檢測/產生)語音質量增強(線路和聲學回聲消除和抖動緩沖等)以及其他相似的功能現在都能有效地在應用處理器上實現,。越來越多的應用處理器集成了硬件加速功能,我們可以利用硬件加速來處理視頻編碼和解碼(見圖2),。
圖2:設計可視電話的新范例
當今應用處理器的處理能力的增加使得我們能使用先進的操作系統(tǒng)環(huán)境,,例如嵌入式Linux來有效地將V2IP系統(tǒng)中需要的控制和媒體處理進行劃分,。這反過來又使得使用單一處理器和工具鏈的軟件開發(fā)更加簡單,,由于減少了一個或更多的昂貴DSP而降低了成本。
可視電話將利用下面的壓縮算法中的一種或幾種:H.263,、H.264或MPEG-4,。其中,在提供最低碼率,、高質量的實時視頻方面,,H.264(也稱為MPEG-4 AVC)最優(yōu),,其缺點是H.264需要比H.263更高的處理能力。在進入2007年后,,具有足夠能力處理H.264的具有經濟成本效益的處理器將很常見,。
基于IP的嵌入式語音+視頻
V2IP設計的核心是嵌入式語音和視頻處理,以及控制和管理系統(tǒng)(架構)數據流的軟件單元,。OEM和原始設計制造商(ODM)在開發(fā)V2IP架構上有三種選擇:
從零建立完整的V2IP軟件架構,;
獲得器件和軟件堆棧授權,提供集成,、確認,、硅片移植和互用性測試;
從第三方獲得預集成和經驗證的第三方架構,。
除非IP和聯(lián)網軟件開發(fā)是你所在組織的核心優(yōu)勢,,最快速、最低風險和最具成本效益的選擇是獲得第三方架構的授權,。高度優(yōu)化的解決方案將以能快速集成到終端產品設計中的形式出現,。尋找到能提供所有的媒體處理算法和VoIP通話控制,并結合靈活架構的技術,,能使終端產品開發(fā)商專注于設計一種高性能增值設備,。因為IP流的實時特性,一個緊密集成的V2IP架構對于確??煽?、穩(wěn)定的語音和視頻通信非常重要。從廣泛的媒體處理庫到一系列的服務質量(QoS)以及聯(lián)網客戶,,V2IP軟件架構將最終決定語音/視頻通信的質量和性能,。
OEM應該注意確保他們實現的是一個具有彈性的VoIP架構。某種架構需要具有在指定的媒體通道內,,在運行中對適當的VoIP編解碼器進行選擇和配置,,以及媒體處理單元動態(tài)配置。架構及其相關的調度器(scheduler)組件必須確保對于指定通道定義所要求的所有算法在允許的時間段內執(zhí)行,。盡管在一個單通道系統(tǒng)中,,這些算法的調度任務不過就是對適當算法按順序的一連串調用,而多通道系統(tǒng)提供了更復雜的情形,,在這種情形下,,每個通道可能要求不同的VoIP編解碼器,以及某些通道需要回聲消除而其他通道不需要,??梢曤娫捦ǔJ菃瓮ǖ老到y(tǒng),盡管一般都可以支持3方音頻/視頻通話,。
別說是設計Wi-Fi可視電話,,就是設計當前一個VoIP電話也需要產品差異化,,并支持下一代的業(yè)務和功能。傳統(tǒng)的VoIP電話提供了基本的“一般質量”的語音編解碼器,,例如G.711和使用H.263標準的視頻壓縮功能,。在我們進一步討論之前,需要說明的是這些編解碼器都100%能實現個人視頻會議通話,,并且已經成功實現了多年,。
然而,在當前的高保真和高分辨率的時代,,要想獲得大眾的歡迎,,下一代的可視電話必須支持寬帶的音頻和先進的視頻壓縮技術。像AMR-WB(G.722.2)音頻技術和H.264視頻壓縮技術都大大地改善了通信體驗,,在雙方之間提供了一個更具現場感的通信,。
除了寬帶、音頻和更高分辨率的視頻,,還有很多技術能改善IP通信的可靠性,、性能和語音及視頻質量,使終端用戶受益,。更進一步地,,下面的特性需要更具競爭性的VoIP和V2IP解決方案。
音頻協(xié)議/語音質量增強:
G.711,、G.723,、G.726、G.729AB,、G.723.1,、iLBC;
音頻回放與記錄,;
帶本地音頻混合的三方通話,;
G.168線路回聲消除;
全雙工的聲學回聲消除(免提通話),;
特定國家的通話過程音調產生/檢測,;
通用的音調發(fā)生器;
增益控制-自動和手動模式,;
DTMF檢測/發(fā)生/中繼,;
8、16和24kHz的過/欠采樣,。
視頻協(xié)議:1. H.263,;2. MPEG-4簡單類,;3. H.264,;4. 視頻回放和記錄支持,。
NAT穿越(Traversal):1. STUN客戶;2. TURN(STUN中繼)客戶,;3. ICE,。
高保真VoIP與多媒體支持:1. G.722.2(AMR-WB)編解碼;2. 寬帶AEC/AES,;3. MP3解碼,;4. SP-MIDI解碼;5. RTSP流媒體客戶,。
應用和GUI的無縫集成
一旦系統(tǒng)設計師選擇了一個性能強大的架構來負責語音視頻處理,、通話建立和NAT穿越,設計的關鍵就轉移到通過設計和實現用戶體驗來使產品與市場上其他V2IP設備進行差異化,。
當前,,用戶體驗是很多因素的反映,從用于構建設備的關鍵組件的質量(例如麥克風,、喇叭,、攝像機和顯示器的質量)到難以量化的用戶界面的易用性。實時個人通信設備采用更好的顯示技術,,GUI對于用戶體驗來說越來越重要了,。當前,即使最基本的VoIP電話也提供了全彩顯示GUI,,并提供像活潑的菜單,、通話者照片顯示和即時消息。
GUI與嵌入式V2IP架構集成并不簡單,。大多數開發(fā)者面臨的最大障礙在GUI和V2IP架構中處理的類型本質上不一樣:V2IP架構著重于快速響應,、面向媒體的實時處理;GUI則反映迅速,、面用用戶的事件驅動處理,。
一個設計很好的V2IP架構將提供一個強大的應用編程接口(API),這個API需要很少的GUI交互作用,。特別是,,API通常只需對用戶或網絡產生的事件做出響應。這種分割避免了不舒服的事件驅動和實時媒體處理單元的聯(lián)合,,能實現簡單的集成,,允許開發(fā)者專注于增值的直覺GUI開發(fā)。