智能化視頻監(jiān)控技術的進一步發(fā)展,,仍然是仿生學引導的結果
智能化是視頻監(jiān)控的亮點,但又是視頻監(jiān)控技術的關鍵和難點
智能視頻監(jiān)控產業(yè)的發(fā)展需要采用新的符合智能監(jiān)控要求的體系結構
基金項目:國家自然科學基金(60672134,、61071091)
視頻監(jiān)控是視頻工程中重要的技術和應用領域,,支撐其發(fā)展的視頻技術在不到一個世紀的發(fā)展過程中,大致經歷了3個跨越式的發(fā)展階段,。20世紀30年代,,以電視廣播為代表的視頻技術走出了實驗室,進入廣播電視臺和千萬家庭,,實現(xiàn)了從靜止圖像傳輸?shù)交顒訄D像傳輸?shù)目缭剑?0世紀80年代末,,以會議電視、視頻監(jiān)控等為代表的視頻技術走出了實驗室,,進入眾多的電視會議室,、安防系統(tǒng),實現(xiàn)了從模擬視頻通信到數(shù)字視頻通信的跨越;如今,,以智能視頻監(jiān)控(IVS)為代表的視頻技術,,正處在走出實驗室、進入到各行各業(yè)的應用階段,,將要實現(xiàn)從“機械”的視頻信息處理向智能化視頻信息處理的跨越,。當前中國正處在這一跨越的關鍵時段。智能視頻監(jiān)控只是智能視頻技術的一個部分,,一個將視頻技術引入智能時代的部分,。
1 IVS的發(fā)展歷程
和人類許多技術一樣,視頻技術也是仿生學引導的結果,。視頻技術模仿人類眼睛的功能,,把眼睛“拉”到實際難以到達的時空。電視廣播提供了大量有聲有色的娛樂節(jié)目,,豐富了人們的文化生活,;而視頻監(jiān)控的出現(xiàn),不僅提供了栩栩如生的現(xiàn)場信息,,更解決了安全和生產方面的問題,,使人們深切感受到視頻技術的應用范圍之廣和所起的重要作用。
視頻監(jiān)控已有三四十年的發(fā)展,,最早安裝在銀行營業(yè)廳的模擬視頻監(jiān)控設備,,采用的是攝像頭加磁帶錄像機;后來發(fā)展為數(shù)字監(jiān)控,,實際上是數(shù)字視頻記錄(DVR),,采用的是攝像頭、采集卡加計算機(主要用于壓縮,、存儲),;近幾年的網絡視頻監(jiān)控裝置,主要是由嵌入式攝像機,、傳輸網絡和計算機構成,。
智能視頻監(jiān)控經過近四、五年的發(fā)展,,已由簡單的視頻監(jiān)控發(fā)展到具有人工智能的視頻監(jiān)控,。視頻監(jiān)控的由來很簡單,從需求層面來看:人們一直需要擴大眼睛的功能,,希望在必要的地方“掛上”一只“眼睛”進行不間斷的監(jiān)控,;從技術可行性的層面來看:傳感器技術從單點傳感器發(fā)展到多點,從一維傳感器,,發(fā)展到二維,、三維傳感器(圖像,、視頻傳感器),快速的發(fā)展為實現(xiàn)以看為主的監(jiān)控提供了可能,。實際上這一過程再次體現(xiàn)了仿生學對技術發(fā)展的巨大影響力:監(jiān)控技術即智能化視頻監(jiān)控技術的進一步發(fā)展,,仍然是仿生學引導的結果。從仿生學的角度出發(fā),,各種傳感器的出現(xiàn)均模仿人類的各種感覺的結果,,從觸覺、嗅覺到聽覺,、視覺,,如模仿人耳的麥克風和模仿人眼的攝像機。最近,,如何在模仿視覺的基礎上模仿人腦功能,,使現(xiàn)有的監(jiān)控設備具有一定的智能并、成為研究的焦點,。智能的匯入使傳感的內容,、含義具有了主觀“感覺”,能夠給出分析,、判斷和結論,而并非只對傳感對象的物理量作忠實的記錄,。
早期的傳感器往往比較簡單,,傳感的是一維、單義的物理量,,且易于分析,、便于結論,如溫度傳感器,,當所獲得溫度超過某一閾值時,,說明發(fā)生了異常情況。以攝像機為代表的視覺傳感器是一種多維,、多義的傳感器:面對記錄的圖像難以判斷其內容的含義,,如難以判斷攝像機所面對的場景到底“發(fā)生”了什么事。現(xiàn)階段該問題的解決主要靠人工完成:值班人員用眼睛對成百上千的攝像機信息進行屏幕“監(jiān)視”,,對存儲的海量信息進行回放“檢索”,,對可疑信息進行人工對比、分析,。但人(尤其是人的眼睛和大腦)是很容易疲勞的,,有數(shù)據(jù)表明:如值班人員緊盯屏幕十幾分鐘后將會不自覺丟掉大部份信息。再如在倫敦地鐵案中,,安保人員為找到一點有價值的信息,,往往要花幾十小時查看大量的存儲磁帶。尋找不會疲勞的眼睛和大腦,分析所監(jiān)控的內容,,減輕負擔,,提高監(jiān)控效率,這就是視頻監(jiān)控智能化的目標,。
監(jiān)控智能化并不僅僅可以幫助我們緊盯屏幕,,提高效率,還可以通過“智能”承擔并實現(xiàn)更多工作,。目前最典型的“智能”主要集中在以下4個方面:
(1) 攝像機保護,。這是首要任務,如果攝像機得不到保護,,其它的一切都免談,。因此對攝像機被遮擋、被移動,、模糊等情況能及時自動轉移,、報警并通知維護人員。
(2) 入侵檢測和運動目標跟蹤,。對非正常進入監(jiān)視區(qū)域的可疑目標及時檢測,,能夠識別單個或多個目標的運動情況(如運動方向、運動速度等),。在檢測到可疑目標后,,發(fā)送控制指令使攝像機自動跟蹤目標,在物體超出該攝像機監(jiān)控范圍之后,,自動通知鄰近的攝像機協(xié)同工作,,繼續(xù)進行跟蹤并發(fā)出報警信號。
(3) 滯留物和搬移物報警,。當場景中(如候機室,、會議室等)某一物體(如包裹、手提箱等)在敏感區(qū)域停留的時間過長,,或原場景中存在的物體(如手提電腦,、貴重儀表)被無故搬移時,系統(tǒng)就發(fā)出報警信號,,同時自動在前面的視頻畫面中查找放置滯留物或搬走原有物品的可疑人,。
(4) 群體行為分析。包含對人群,、車流等目標的正常行為和異常行為分析,。能夠對場景中群體的正常行為進行分析,如統(tǒng)計穿越出入口或指定區(qū)域的人或車的數(shù)量,、高速公路交通流量,,識別人群的整體運動特征,,包括速度、方向等,。也能夠對場景中群體的異常行為進行分析和判斷,,如檢測、分類,、跟蹤和記錄過往行人,、車輛及其他可疑物體,判斷公路上是否有車輛非法???、是否有故障車輛,是否有行人及車輛在禁區(qū)內發(fā)生長時間徘徊,、停留,、逆行等行為,檢測公共場所是否有人員的集聚,、奔跑,、斗毆等異常行為。
當然,,智能視頻監(jiān)控能夠做到的事不只如此,。今后它可以幫我們做更多的事,但前提是我們要有足夠的智能來設計并實現(xiàn)這樣的智能視頻監(jiān)控系統(tǒng),。
2 IVS的技術難點
IVS的前景十分美好,,但仍面臨漫長的探索路程。智能視頻監(jiān)控和普通視頻監(jiān)控本質的區(qū)別在于:普通監(jiān)控視頻只是幫助我們“看”,;而智能視頻監(jiān)控不僅要“看”,而且能“看見”,、能“理解”,,能夠搜尋目標,分析視頻內容,,處理視頻監(jiān)控的結果,。
這樣的目標在技術實現(xiàn)上有很大難度,首先面臨的問題是圖像分割:把關注的目標從圖像中分離出來,。這是一個基本和圖像處理同時誕生的老問題,,但至今仍得不到很好的解決。在圖像分割領域,,各種方法層出不窮,,基本是一個問題一種方法,或多種方法,,但結果仍差強人意,。
除圖像分割外仍有接踵而至的難題,,如特征提取、目標匹配,、目標描述,、目標跟蹤、多攝像機協(xié)同等,。這些問題正是當前圖像處理,、視頻分析的熱點問題,雖然已取得一些成果,,但距離人們的期望還相當遙遠,。總體上說,,智能化是視頻監(jiān)控的亮點,,但同時又是視頻監(jiān)控技術的關鍵和難點。智能視頻監(jiān)控技術的研究和應用仍處在萌芽狀態(tài),,剛剛步入初級階段[1-4],。
3 IVS產業(yè)的發(fā)展
經過幾十年的發(fā)展,視頻監(jiān)控已成長為一個新興的IT產業(yè),,以6 000萬人口的英國為例,,已在全國范圍內設置約420萬個攝像機監(jiān)控點。據(jù)統(tǒng)計和預測,,全球安全市場2011年的產值,,將從2001年的802億美元,增長到2 658億美元,,成為全球重要產業(yè)之一[5],。
作為一個產業(yè),或者一類產品,,必須滿足人類所需或為人類增加效益才可能得到迅速的發(fā)展,,如提供物品、文化或服務,,替代人的工作,,提高工作效率等。移動通信正是滿足這樣條件的產業(yè),,由視頻通信和移動通信的發(fā)展情況可以看出:視頻通信起步早,,但發(fā)展較慢,而移動通信發(fā)展速度快,、普及廣,。因為移動通信提供的是一種方便的通信方式,解除了通信終端對固定位置電線的束縛,,不僅為人們提供了隨處通信的自由,,還增加了可觀的經濟效益和社會效益,。因此,它的飛速發(fā)展在情理之中,。相比之下,,圖像通信主要提供的是不同的通信內容,且至今還沒有解決圖像傳送的暢通問題,,在很大程度上仍屬于“錦上添花”的應用,,其發(fā)展的內在動力遠遠不足,因此發(fā)展速度滯后,。如果視頻傳輸能夠暢通,,且系統(tǒng)能夠為人提供足夠的智能服務,視頻監(jiān)控產業(yè)也會得到迅速的發(fā)展[6],。
作為一個產業(yè),,視頻監(jiān)控屬于視頻通信的一部分。要加快視頻監(jiān)控的發(fā)展速度,,首先需要了解并分析目前視頻監(jiān)控產業(yè)的特點和問題:
(1) 個性大于共性,。不同的用戶對視頻監(jiān)控有不同的需求,如個人和企業(yè),、室內和室外,、公開與隱蔽、大場景和小范圍,、移動和固定等,,導致產品品種繁多難以擴大規(guī)模,大批量生產難以統(tǒng)一標準,。
(2) “運營”重于“生產”,。監(jiān)控產品的服務成分很大,并非只限于幫用戶安裝完成(如消費電子類產品)的環(huán)節(jié),。至少還應像通信運營商那樣經營,、維護、更新,,為用戶提供持續(xù)的服務,服務的復雜程度甚至要超運營商,。例如,,由于通信運營商建立面向社會的通用視頻監(jiān)控系統(tǒng),建立面向特定部門的專用監(jiān)控平臺,,開展運營級視頻監(jiān)控服務,,就是一個很好的產業(yè)化發(fā)展模式。有數(shù)據(jù)統(tǒng)計,,受運營級視頻監(jiān)控市場影響,,從2006年開始,,全球網絡攝像終端市場的年增長速度達到70%以上。
(3) 有效服務時間短,。絕大部分的視頻監(jiān)控所感興趣的是小概率事件,,獲得的有效數(shù)據(jù)占總數(shù)據(jù)的比例小,“備用”時間長,。因此,,需要具備海量數(shù)據(jù)存儲能力、對無效數(shù)據(jù)的判斷和丟棄能力,,并同時在有效服務時間內確保有效服務,,不允許輕易失誤(如民用通信中用戶信息有時會被無故中斷)。
(4) 涉及范圍廣,。一是潛在用戶涉及范圍廣,,幾乎沒有單位和家庭不需要視頻監(jiān)控,只是需求的程度有所不同,,以及現(xiàn)有的視頻監(jiān)控功能能否滿足客戶需要,;二是配合單位涉及范圍廣,某一場景的監(jiān)控常常涉及報警,,報警又必然要涉及公安部門,;監(jiān)控大多涉及傳輸,傳輸必然涉及通信部門,;環(huán)境監(jiān)控必然涉及環(huán)保部門,;交通監(jiān)控當然要涉及公安和保險等部門等。沒有多部門的配合,,監(jiān)控的作用將會大大縮減,。
智能視頻監(jiān)控產業(yè)的發(fā)展,必須針對這些特點采用新的符合智能監(jiān)控要求的體系結構,,如采用新的經營方式和服務方式,,建立靈活的模塊化的硬件平臺和軟件平臺,具有多重保護的信息安全機制等,。
4 IVS的發(fā)展前景
視頻監(jiān)控技術正值蓬勃發(fā)展階段,,主要有以下幾個發(fā)展趨勢[7-8]:
一是視頻質量向高清化發(fā)展。這和整個數(shù)字視頻高清化發(fā)展趨勢是一致的,。隨著視頻的采集,、處理和顯示器件的快速發(fā)展,隨著傳輸帶寬的增加和視頻壓縮技術的進步,,高清晰度的視頻監(jiān)控,,如720p、1080i,、1080p甚至更高分辨率的視頻質量,,也將逐步實現(xiàn),。
二是傳輸方式向網絡化、無線化發(fā)展,。這和整個通信網絡的IP,、無線、寬帶化的發(fā)展趨勢相一致,。隨著網絡和通信技術的發(fā)展,,為視頻監(jiān)控提供靈活的IP傳輸方式、方便的無線連接和足夠的傳輸帶寬等問題有望逐步得到解決,,如基于3G網絡,、WiFi的視頻監(jiān)控系統(tǒng)等。
三是視頻監(jiān)控技術向標準化發(fā)展,。盡管這項工作在視頻監(jiān)控領域有相當大的困難,,至今仍缺少統(tǒng)一的國際和國內標準,但是視頻監(jiān)控的標準化工作目前已在艱難中啟動,。在中國國內如中國電信“全球眼”和中國聯(lián)通“寬視界”監(jiān)控標準,,國際上如安訊士、博世,、索尼等企業(yè)聯(lián)合推出的開放型網絡視頻接口論壇(ONVIF),,思科、IBM,、ObjectVideo,、松下等企業(yè)推出的實體安防互通聯(lián)盟(PSIA)面向全球的標準。
從總體上說,,智能視頻監(jiān)控技術還處在發(fā)展的初級階段,。隨著世界范圍內對安全防范的重視,隨著中國“國家應急體系”,、“平安城市”,、“科技強警”、“全球眼”,、“寬視界”,、“智慧小區(qū)”等重大工程項目的不斷推進,以及亞運會,、世博會等重要國際活動的開展,,智能視頻監(jiān)控技術必然會加速發(fā)展。只要智能化程度足夠高,、足夠可靠,,其產品的市場前景會越來越好,。IVS是一個充滿技術瓶頸的產業(yè),,是一個充滿變數(shù)的產業(yè),,但同時也是一個充滿憧憬的產業(yè)。
5 參考文獻
[1] TSAI???Luo Wei, HSIEH Jun Wei. Vehicle Detection Using Normalized Color and Edge Map[J]. IEEE Transactions on Image Processing, 2007, 16(3):850-864.
[2] AHMAD I, HE Z, LIAO M,et al. Special Issue on Video Surveillance[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2008, 18(8):1001-1005.
[3] NGHIEM A T, BREMOND F, THONNAT M, et al. ETISEO, Performance Evaluation for Video Surveillance Systems [C]// Proceedings of the IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS’07), Sep 5-7,2007,London,UK. 2007: 476-481.
[4] GELASCA E D, EBRAHIMI T. Application Dependent Video Segmentation Evaluation: A Case Study for Video Surveillance [C]// Proceeding of the 14th European Signal Processing Conference(EUSIPCO’06),Sep 4-8, 2006, Florence, Italy.2006.
[5] 李鵬飛, 陳朝武, 李曉峰. 智能視頻算法評估綜述[J]. 計算機輔助設計與圖形學學報, 2010, 22 (2):352-360.
[6] 王素玉, 沈蘭蓀. 智能視覺監(jiān)控技術研究進展[J]. 中國圖像圖形學報, 2007, 9 (12):1506 -1510.
[7] LIN Weiyao,SUN Ming Ting, Poovendran r, et al. Group event detection for video surveillance[C]// Proceedings of International Symposium on Circuits and Systems (ISCAS’09), May 24-27, 2009, Taipei, China. New York,NY, USA:IEEE,2009: 2830-2833.
[8] MoSSgraber j, Reinert f, Vagts h. An Architecture for a Task-Oriented Surveillance System: A Service-and Event-Based Approach[C]// Proceedings of the 5th International Conference on Systems (ICONS’10),Apr 11-16,2010, Menuires, France. Piscataway, NJ,USA:IEEE,2010: 145-151.
朱秀昌,,南京郵電大學教授,、博導、“圖像處理與圖像通信江蘇省重點實驗室”主任,、電子學會廣播電視分會理事,、“中國多媒體通信”雜志編委;長期從事圖像與多媒體通信方面的研究與教學工作,;曾獲國家政府特殊津貼,,國家科技進步3等獎和原郵電部科技進步1等獎;編著出版了“數(shù)字圖像通信”等教材或著作9本,,發(fā)表專業(yè)技術論文60余篇,。