2020 年 8 月 7 日,,第五屆全球人工智能與機器人峰會(CCF-GAIR 2020)于深圳正式拉開帷幕。
CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,,香港中文大學(深圳),、雷鋒網(wǎng)聯(lián)合承辦,,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦,。
從 2016 年的學產(chǎn)結(jié)合,,2017 年的產(chǎn)業(yè)落地,2018 年的垂直細分,,2019 年的人工智能 40 周年,,峰會一直致力于打造國內(nèi)人工智能和機器人領(lǐng)域規(guī)模最大、規(guī)格最高,、跨界最廣的學術(shù),、工業(yè)和投資平臺。
本次峰會之上,,中國工程院院士,、鵬城實驗室主任高文教授在線上為與會者們帶來了一場精彩紛呈的開場報告。
高文教授介紹,,城市大腦1.0是一個以云計算為核心的系統(tǒng),,由于系統(tǒng)各部分之間沒有很好的分工協(xié)調(diào)機制,,使得系統(tǒng)成本高、響應速度慢,、數(shù)據(jù)的可利用性低。
在他看來,,城市大腦2.0是一個端邊云分工協(xié)調(diào)的混合系統(tǒng)架構(gòu),,可以有效解決城市大腦1.0的大部分問題。
城市大腦2.0的核心在于數(shù)字視網(wǎng)膜及其標準化,,它相較城市大腦1.0具備四大方面的性能提升:
1,、它有先進視頻編碼技術(shù):節(jié)省存儲和帶寬50%以上;
2,、它可以定制ASIC邊緣計算:節(jié)省云計算資源90%以上,;
3、它能在原始圖像上特征提?。旱脱訒r和高精度,;
4、它還可以做標準化特征的提取,,存儲和復用:顯著提升信息密度和價值,。
以下是高文院士線上演講的精彩內(nèi)容,雷鋒網(wǎng)作了不改變原意的整理與編輯:
今天我與大家分享的演講主題叫做“城市大腦2.0,,邊端云合理分工的人工智能賦能系統(tǒng)”,。
先談談第一個話題:城市大腦1.0。
城市大腦是現(xiàn)有智慧城市中的一個核心系統(tǒng),,它將算力及數(shù)據(jù)匯聚到一起,,加上算法就可能產(chǎn)生出非常好的結(jié)果。
譬如,,基于互聯(lián)網(wǎng)的數(shù)據(jù),、政務的數(shù)據(jù)、社會的數(shù)據(jù),,把它們集中到一起,,提供一個云計算服務,就可以提升政府效率,、加速企業(yè)創(chuàng)新,。
智慧城市系統(tǒng)之中,匯集了各類各樣的數(shù)據(jù),,其中有90%左右的數(shù)據(jù)都與圖像,、視頻相關(guān)聯(lián),如何處理好圖像和視頻數(shù)據(jù),,在城市大腦系統(tǒng)中是非常關(guān)鍵的要素,。
現(xiàn)有的系統(tǒng)中,,數(shù)據(jù)基本以圖像與視頻兩種形式進入:
第一種模式:攝像頭就是一個簡單的傳感器,捕捉到圖像或者視頻以后,,進行一個編碼壓縮,,傳送給云端,云端將它存儲起來,。
也可能將它解碼之后進行分析,,識別出人臉、車輛,,或者進行交通數(shù)據(jù)的分析等等,,這是一種信息或者數(shù)據(jù)感知的模式。
另一種模式叫做智能終端,,在攝像頭這一端就把人臉或者車牌等信息識別出來,,識別出來的信息被傳送到云端,直接可以進行分析使用,。
這兩種模式是目前城市大腦中數(shù)據(jù)使用的主要模式,,當然這兩種模式都多多少少存在一些問題。
如果僅僅作為一個感知終端,,后面如果需要調(diào)用,,除了解碼以外,還要進行特征提取等工作,,需要大量的計算程序,,這些計算非常耗費云計算算力資源。另外,,智能終端還無法識別出未被指定的人或物,。
所以,我們我們需要一個更好的系統(tǒng),,這個系統(tǒng)不僅云上算力資源需求不多且可以完成一些未經(jīng)規(guī)定的動作,。
現(xiàn)在的城市大腦1.0,它是一個具有海量數(shù)據(jù)的系統(tǒng),,但是這個海量數(shù)據(jù)并不等于大數(shù)據(jù),,因為90%的海量數(shù)據(jù)都是沒有結(jié)構(gòu)化的,只是進行了一個簡單的編碼壓縮,。
另外,,這些數(shù)據(jù)的價值也比較低,它不是結(jié)構(gòu)化的,,你無法在上面進行分析,,這也是為什么很多智慧城市的視頻數(shù)據(jù),一段時間之后就被覆蓋了,。
怎么才能改變這個現(xiàn)狀呢,?其實問題的實質(zhì)就是現(xiàn)有的城市大腦里的數(shù)據(jù)表達是不到位的,。
為什么不到位呢?如果你只是感知數(shù)據(jù)后,,將編碼壓縮送到云端,,它還是一個非結(jié)構(gòu)化的數(shù)據(jù);如果你把它識別出來是張三,、李四,,或者車牌號多少,雖然它已經(jīng)結(jié)構(gòu)化了,,但是它是過度結(jié)構(gòu)化的,對于沒有規(guī)定的任務就無法執(zhí)行了,。
所以我們需要一種泛化能力更強的數(shù)據(jù)表達,,這個數(shù)據(jù)的表達是一個機緣表達,用這些機緣既可以完成現(xiàn)有的任務,,也可以完成現(xiàn)在還沒有定義的一些任務,。
當然這些數(shù)據(jù)表達想要得到一個比較好的結(jié)果,整個系統(tǒng)就必須做得好,。所以我們現(xiàn)在考慮城市大腦應該有一套評測的指標,,包括系統(tǒng)的智力、性能(響應時間,、并發(fā),、吞吐)、效率(耗電多大)等等,。
如果某套系統(tǒng)可以通過評測,,那就代表這套系統(tǒng)比較智能化了。
城市大腦1.0系統(tǒng)的弊端在于:它的智能代價比較高,,要么是造價高,、要么就是耗電高。
我們希望城市大腦變得更智能,,或者效率更高,,怎么辦呢?我們希望把現(xiàn)有的城市大腦1.0升級到2.0,。
一個可能的做法就是要合理分工,,我們把原來的傳感網(wǎng)絡和云合并的機器變成邊端云協(xié)同的機器,云上只需要配備最低的算力,,一部分計算放置于邊緣,,一部分計算分配給終端,這樣組合起來使得整個系統(tǒng)最優(yōu)化,。
系統(tǒng)到底應該怎么升級,,或者這個結(jié)構(gòu)做成什么樣比較好,,我們先來看看人的視覺系統(tǒng)是怎么運行的。
人的視覺系統(tǒng)是非常合理的,、能效比非常高的系統(tǒng),。比如說我們每天只消耗相當于20瓦電燈泡的能耗就能做很多的事情。
人的視覺系統(tǒng)為何可以做到如此的低功耗,、高效率,?人的視覺系統(tǒng)主要由三部分組成,包括眼睛,、視覺通路和大腦的視覺眼,,這三部分分工非常嚴密。
比如說大腦有了一個刺激信號,,通過神經(jīng)通路傳到大腦不同的視覺眼,,不同的視覺眼分工做不同的響應,就可以完成很多事情,,比如說感知,、決策等。
不同的感知路徑或者不同任務的復雜度,,其實人的響應度是不一樣的,。(見PPT)這是1992年一張研究的示意圖,你可以看到當你給一個人下了一個指令說“你給我按一下綠色按鈕”,,這個執(zhí)行是需要經(jīng)過一定延遲的,,比如說視網(wǎng)膜有35毫秒的延遲,從視網(wǎng)膜到下一個環(huán)節(jié)又有30毫秒的延遲,,最后到了肌肉,、手指頭動作下去,大概有250毫秒的延遲,,這個延遲就告訴我們,,對不同的任務,我們整個視覺通道和腦的處理分工是非常嚴密的,,使得簡單的任務可以響應很快,,復雜的任務響應很慢,分工合作,,這樣的系統(tǒng)就能做到能量最優(yōu)化,。
視覺系統(tǒng)最前端是視網(wǎng)膜,它的結(jié)構(gòu)是由感光細胞,、雙極細胞和神經(jīng)節(jié)細胞三類細胞組成的,。
數(shù)字視網(wǎng)膜里面,大概有1.2億到1.26億個感光細胞,,其中有錐狀細胞核桿狀細胞,,錐狀細胞有600多萬個,,桿狀細胞有1.2億個,它們可以感知光線的強弱等等,。
這些感光細胞通過雙極細胞,,最后匯聚到神經(jīng)節(jié)細胞,進到神經(jīng)纖維,、視覺通道,,通過大腦進行傳輸。
神經(jīng)節(jié)細胞的數(shù)量只有差不多100萬個,,換句話說從視網(wǎng)膜到視神經(jīng),,它已經(jīng)有一個差不多125:1的減縮,這個減縮我們可以把它理解成視覺信號的壓縮,,或者特征壓縮,。
所以我們在視網(wǎng)膜和大腦之間已經(jīng)有一個壓縮,這個壓縮應該說對整個大腦有效的工作其實是起到非常關(guān)鍵作用的,。
當然它不僅僅是一個壓縮,它和后面的感知是緊密相關(guān)的,,比如根據(jù)你任務的簡單和復雜程度,,它們提取的視覺特征也不一樣,簡單的任務就會優(yōu)先采取相關(guān)的策略,,復雜的任務,,它就把相關(guān)的信息往后傳。
一個生物識別系統(tǒng)的簡化模型,,從視網(wǎng)膜到大腦,,信息進來以后經(jīng)過一個特征的編碼壓縮,特征提取出來以后向后傳輸,,傳到智能主體(腦),,所以在視網(wǎng)膜這一端是一個定制的輕量級的計算,通過視神經(jīng)這樣一個有限帶寬的通信送到智能體,。
這樣一個簡化模型,,對視覺通道是有很大作用的,所以大腦上有一個通用計算,,這里我們可以把它整個特征的類別分為結(jié)構(gòu)特征和行為特征,,這個模型是經(jīng)過自然進化,最后產(chǎn)生出這樣一個優(yōu)勝劣汰找到的答案,。
這個答案告訴我們仿生視網(wǎng)膜的架構(gòu),,它有非常好的能量優(yōu)化的特點,這個特點可以給我們提供一個很好的借鑒,,如果我們想把整個城市大腦也做得能量優(yōu)化或者能量高效化,,就可以按照這樣的構(gòu)造來進行結(jié)構(gòu),。
所以從視網(wǎng)膜傳到大腦之間,它是一個特征壓縮,,我們叫做特征編碼,,當然這個編碼和現(xiàn)在傳統(tǒng)的圖像編碼并不一樣,它是一個特征壓縮編碼的東西送到大腦中去,。
另外,,現(xiàn)在我們城市大腦里面不能僅傳特征,也要傳壓縮圖像,,因為有的時候我們還需要用人眼去確認一些東西,,所以壓縮圖像也還是要傳的,這就使得我們現(xiàn)在城市大腦里的架構(gòu)和真人的視覺系統(tǒng)并不完全一樣,,我們是兩個綜合或者綁定的系統(tǒng),。
有了這樣一個借鑒,下面我們就看城市大腦2.0到底應該怎么樣來設計,。
很顯然它必須是一個邊,、端、云合理分工的系統(tǒng),,這個系統(tǒng)我們經(jīng)過了一段時間思索以后,,2018年我們就投出一篇論文,這篇論文最后是在2018年5月份網(wǎng)絡出版,,最后正式是在2018年8月份在《中國科學》上發(fā)表,,我們把邊、端,、云結(jié)合的最核心的技術(shù)叫做數(shù)字視網(wǎng)膜,,它是整個城市大腦2.0里面一個基本架構(gòu),我們把它叫做仿生視網(wǎng)膜的計算架構(gòu),。
數(shù)字視網(wǎng)膜現(xiàn)在形成了有8個特征的定義,,這8個特征原則上分成三大組。
第一組特征的定義是和時空有關(guān)的,,一個數(shù)字視網(wǎng)膜的終端必須要有全局統(tǒng)一的時空ID,,包括全網(wǎng)統(tǒng)一的時間和精確的地理位置,比如說GPS或者北斗的位置,,有了這個東西之后,,城市大腦就很容易同步,或者很容易可以對標,。
第二組特征簡單來說是視頻編碼+特征編碼+聯(lián)合優(yōu)化,,這是所有的攝像頭都應該支持的一個工作,當前絕大部分攝像頭只支持視頻編碼。
視頻編碼很容易理解,,就是為了存儲和離線觀看影像重構(gòu),。
特征編碼是為了模式識別和場景理解的緊湊特征表達,聯(lián)合優(yōu)化是因為現(xiàn)在在城市大腦里面它有兩個碼流,,一個是視頻編碼壓縮流,,一個是特征編碼壓縮流,這兩個碼流會捆綁到一起進行傳輸,,所以我們要有一個優(yōu)化策略,,把這個帶寬到底分多少給視頻編碼、分多少給特征編碼,,這樣通過一個聯(lián)合優(yōu)化,,使得整個系統(tǒng)是最優(yōu)的。
第三組特征,,簡單來說就是模型可更新,、注意可調(diào)節(jié)、軟件可定義,。
什么叫模型可更新呢,?因為我們現(xiàn)在必須要考慮怎么樣支持神經(jīng)元網(wǎng)絡,不同的模型升級了,,你要可以實時更新,。
注意可調(diào)整是說,現(xiàn)在的攝像頭是沒有注意的,,你把這個東西指到哪兒,景深設定到哪兒,,它就在那兒,,當然可以通過人工遠程調(diào)節(jié)它,可以拉近,、拉遠等等,,但是它不是自動的,我們希望它能做到自動的注意可調(diào)節(jié),。
最后一個特征就是軟件可定義,,這一點大家很容易理解,系統(tǒng)要想升級,,可以通過軟件定義的方法,,對系統(tǒng)自動升級。這三個特點如果具備,,終端就可以做得非常智能,。
當然,要想把數(shù)字視網(wǎng)膜技術(shù)全部用起來,這里面有一些使能技術(shù),。
第一個是視頻編碼,,現(xiàn)在做城市大腦、監(jiān)控系統(tǒng)都離不開視頻編碼,,攝像頭里面都有一個視頻編碼芯片,,視頻編碼芯片用的標準,最早期是H.264,,或者用AVS的編碼標準,,最近開始使用H.265或者AVS2的標準,未來不久就會用上H.266和AVS3的標準,,這個標準差不多每10年就會更新一代,,效率每10年就會提高一倍。
為什么能夠做到編碼壓縮,?一個視頻是一個圖像序列,,圖像序列里面包含了很多數(shù)據(jù)的冗余,基本上有三大類冗余:一類是和空間冗余有關(guān)的,,一類是和時間冗余有關(guān)的,,另外一類是和編碼冗余有關(guān)的。
所以現(xiàn)在整個視頻編碼里面用的算法,,我們一般把它叫做混合視頻編碼架構(gòu),,這個混合就把剛才三種主流的冗余用不同的算法去掉。
比如說為了去除空間冗余,,一般我們采用正交變換,,比如說DCP變換等等正交變換把它去除掉。為了去除時間上的冗余,,就是幀和幀上的冗余,,一般我們會采取預測編碼,比如說各種各樣的濾波器,,把幀間的冗余去除掉,。
為了使得編碼的分配最符合熵的定義,我們使用信息熵編碼來去除編碼上的冗余,,這三個冗余都去除干凈了,,整個視頻流里就可以壓得很小,只有有用的信息,、有用的數(shù)據(jù)甩出去,,這些冗余都被擠壓掉了,這是視頻編碼,。
要想把視頻編碼做得好,,算法要做得很精,隨著時間的推移,我們可以用計算,、帶寬把這些東西一點點都去除掉,。
當然,這些年我們除了不停地優(yōu)化算法之外,,我們還提出了一種背景建模的技術(shù),,使得編碼效率在原有的技術(shù)上又可以提高一倍。
這里有很詳細的一些數(shù)據(jù)測試作為依據(jù),,而且這些東西都已經(jīng)發(fā)表論文,,比如2014年我們在TIP發(fā)表了一篇論文,里面有這樣一些研究結(jié)果,。
AVS2在2016年已經(jīng)成為我國的標準,,同時它也是IEEE1857標準的第四部分。現(xiàn)在我們做AVS3的時候,,就是IEEE1857的第10部分,。
AVS標準是在2019年3月份第一版就發(fā)布了,H.266一直到今年7月份第一版才發(fā)布,,我們超前了H.266有一年三個月,,這是有史以來第一次。
AVS3這個標準去年3月份第一版發(fā)布以后,,去年9月份海思就把芯片做出來了,,在阿姆斯特丹的一次廣電展上,這款芯片一經(jīng)面市,,引起了很大的轟動,。
它可以支持AVS3、8K解碼,,是120幀的,,這個芯片現(xiàn)在已經(jīng)裝配在很多4K、8K電視,、機頂盒等等。
第二個使能技術(shù)就是特征編碼,,這是非常關(guān)鍵的一個使能技術(shù),,這個技術(shù)里面它的標準有兩部分核心的內(nèi)容,一部分叫CDVS,,一部分叫CDVA,,這兩部分現(xiàn)在也都是國際標準MPEG-7里面的兩部分,一個是第13部分,,一個是第15部分,。
為什么要做視覺特征的壓縮呢?因為根據(jù)不同的特征,提取出來的特征數(shù)據(jù)可能很大,,如果不壓縮的話,,搞不好特征數(shù)據(jù)比圖像本身都大,所以要么你就傳個圖像過去,,要傳特征的話數(shù)據(jù)太大,,所以就要對它進行特征壓縮。
怎么進行壓縮,?原來有不同的考慮,,如果是先把圖像編碼傳過去,再提取特征,,再進行識別,,和先把特征提取出來,然后把特征傳過去再識別,,這兩個其實有一個剪刀差,,可能有時候識別率會先差百分之二三十。
就是說先壓縮了以后,,可能有一些比較有用的特征丟了,,因為所謂編碼壓縮,它是保留公共部分,,把一些非公共的,、非常見的東西壓縮掉了,而非常見的部分恰恰可能是特征,,所以你把這個打磨掉以后,,它的識別率可能就下來了,所以我們是先提特征,,再在云端技術(shù)識別這樣一個技術(shù)策略,。
當然先提特征,怎么樣提的特征體量比較小,,我們初期是采用手工作業(yè)的策略,,當然手工特征怎么支持深度學習,這是另外一個問題,,后面我們做了第一版以后,,又專門做了一個面向深度學習的編碼壓縮的框架,這個主要是給小視頻來做的,,有了這兩個部分以后,,基本上可以應對圖像特征編碼和視頻特征編碼這兩個需求。
圖像特征編碼就是CDVS,,視頻特征編碼就是CDVA,。CDVS是手工特征的,,里面使用的是一個類SIFT的特征集,SIFT大家都知道,,當你給的比特數(shù)據(jù)比較少的時候,,它就給一些比較宏觀的特征。
基于這樣的思路,,用這種類SIFT,,我們提出了一個特征表達的標準,然后來看它的性能,,經(jīng)過幾年的時間,,這個性能越提越高,最后把它固定下來,。
CDVS實際深是從2012年2月份就開始做,,到了2015年6月份就做完了,就完全凍結(jié)掉了,,最后成為國際標準,,所以差不多花了4年的時間把它做出來。
CDVA是在2015年做完以后,,標準化組織團隊就馬上轉(zhuǎn)向利用深度學習去做視頻分析特征壓縮的問題,,也是花了差不多兩年多、三年的時間慢慢把它做出來,,這個是可以對深度網(wǎng)絡的短視頻,,用它做特征的提取、做表達,,后面每次這個特征的性能都會有所提高,,對不同的網(wǎng)絡,它的特征的檢出和特征識別的效率也都在逐步提高,,所以每次提高的趨勢,。
第三個使能技術(shù),我們把它叫做聯(lián)合優(yōu)化,。所謂聯(lián)合優(yōu)化,,就是在視頻編碼和特征編碼之間,我要找到一個最優(yōu)的結(jié)合點,,使得這兩個流捆綁到一起的時候,,腦力分配是最優(yōu)的,上面這個流是視頻壓縮流,,下面這個流是特征壓縮流,,這樣送到云里,,它倆合起來是最優(yōu)的,。
怎么能夠做到最優(yōu)呢,?因為各自的優(yōu)化模型都是有的,比如現(xiàn)在我們看到的這些是上面這部分,,它是一個視頻編碼優(yōu)化的流程,,上面的虛線是視頻編碼,下面的虛線是特征編碼,,這兩個編碼在右端,,我們是合成一個流,就是視頻和特征流,。
這一個流我們怎么樣優(yōu)化呢,?我們要設置一個聯(lián)合優(yōu)化流程,把它放到一起去優(yōu)化,。視頻編碼的優(yōu)化模型叫RBO,,RBO就是給定碼率損失最小的優(yōu)化模型,它的優(yōu)化曲線就是右下角這個曲線,。在識別特征表達這一塊,,它是有一個RAO,就是給定碼率,,讓你精確度最高的優(yōu)化模型,。
這個優(yōu)化模型給的曲線是反過來的,所以我們把這兩個需要優(yōu)化的東西給它放到一個優(yōu)化函數(shù)里面表達出來,,就是這張圖的表達,,根據(jù)這個東西我們聯(lián)合求解一個優(yōu)化的解,這就是第三個使能技術(shù),。
第四個使能技術(shù)是深度學習模型編碼的使能技術(shù),,就是通過多模型的重用,通過模型壓縮更新來做,。這是深度學習怎么樣去通過重用去使得整個模型的重用精度更高,。
這個重用既包括現(xiàn)有模型的重復使用,也根據(jù)目標模型訓練所得到的提升,,使得優(yōu)化做得更好,。
這樣一個多模型重用,如果是在學習體系里面把它用好的話,,它的性能就可以提高得比較好,,所以怎么樣使得這個多模型編碼壓縮,使得在重用當中可以快速地更新一個模型,,就使得這個性能不停地提升,,這兩個就是模型編碼的主要動機,有了這個就可以使得當你模型訓練完了以后,,壓縮完了以后就可以快速推到終端去升級你的模型,。
上面這些使能技術(shù),,最后它要匯總到一個芯片里面,這個芯片現(xiàn)在在北大杭州研究院下面的一家公司做出來了,,第一個數(shù)字視網(wǎng)膜的芯片叫GV9531,,剛才說的三組8個特性,這個芯片全都是支持的,。
這個芯片目前也已經(jīng)做成了板卡,,比如說有4顆芯片的卡、16顆芯片的卡,,這些板卡已經(jīng)可以支持邊緣端,,一下支持上百路甚至幾百路的攝像頭數(shù)字視網(wǎng)膜特征提取的傳輸。
除了數(shù)字視網(wǎng)膜本身以外,,現(xiàn)在配合人工智能技術(shù)的推進,,也在推動中國的一些AI技術(shù)的國家標準,包括神經(jīng)網(wǎng)絡模型表示與壓縮的標準,、城市級大數(shù)據(jù)匯集關(guān)聯(lián)的規(guī)范和標準,,包括這些標準研究開發(fā)的路線圖,什么時候要把哪個標準提出來完成等等,。
數(shù)字視網(wǎng)膜簡單來說是三個編碼流合并的系統(tǒng),,當然前兩個是最主要的,就是視頻流和特征流,,這兩個流時時刻刻都是匯集到一起進行傳輸?shù)?,第三個是模型編碼,只是在模型需要壓縮的時候,,從云端推到邊緣端或者終端上,,進行一些增量的更新。
有了數(shù)字視網(wǎng)膜,,就相當于城市大腦邊緣或者是終端方面就可以做得更高效,,效能比更高,這樣就可以使得云端的算力不需要那么多,,或者說云端的響應可以更精確,、速度更快,這樣就使得城市大腦可以做得更好一些,。
為了配合這個工作,,現(xiàn)在城市大腦包括一些中臺怎么考慮、業(yè)務支撐怎么考慮,,應用怎么考慮,,現(xiàn)在在鵬城實驗室都有一些比較完整的設計和規(guī)劃。所以整體來說,,我們把城市大腦2.0里面的數(shù)字視網(wǎng)膜也可以簡稱為云腦視網(wǎng)膜,,這個可以利用鵬城云腦的算力去提升它的能力,。
鵬城云腦到現(xiàn)在為止已經(jīng)投入了幾十億元去打造,鵬城云腦只有100P的算力,,雖然說只有100P的算力,這也是到目前為止國內(nèi)作為AI訓練算力最大的一套系統(tǒng),。
后面還會有更強的系統(tǒng),,現(xiàn)在我們有一個原型,可以有數(shù)據(jù)進來,,對數(shù)據(jù)進行標注,、采集,可以進行訓練,,訓練完了以后就可以用剛才這些和芯片有關(guān)的系統(tǒng)進行提取,,然后可以分析和識別。
這個原型系統(tǒng),,一般的邊緣用的,,甚至在云端大數(shù)據(jù)服務里面用的東西,現(xiàn)在都在逐步進入系統(tǒng),,上面會有各種各樣的參考軟件,,去配合硬件的東西,最上面是開源的算法訓練,,有這些東西之后,,將來在鵬城云腦上就會對城市大腦進行比較強有力的支持。
現(xiàn)在已經(jīng)有一些演示驗證的案例,,比如說對系統(tǒng)驗證,,比如說對深圳交警提供的一些數(shù)據(jù)進行視頻的驗證,另外還可以進行視頻的追蹤等等,。
在光明區(qū)也進行了一些實際驗證,,對于停車、擁堵等問題都可以很好地分析和發(fā)現(xiàn),。
這就是城市大腦2.0到現(xiàn)在為止的一些情況,。
總結(jié)一下,城市大腦1.0是一個以云計算為核心的系統(tǒng),,由于系統(tǒng)各個部分分工協(xié)調(diào)不太好,,所以系統(tǒng)成本比較高,響應速度慢,,數(shù)據(jù)的可利用度比較低,。借鑒人的視覺系統(tǒng),比如說人的視網(wǎng)膜,、視覺通道,、大腦分工非常協(xié)調(diào),,非常合理。
城市大腦2.0就是借鑒這樣一個系統(tǒng)提出的一個體系架構(gòu),,這個體系架構(gòu)要想把它做出來,,需要數(shù)字視網(wǎng)膜這樣一套思路、技術(shù)及其標準化,,現(xiàn)在這些思路,、技術(shù)、標準化都逐步到位,。
數(shù)字視網(wǎng)膜這套系統(tǒng)上了以后,,可以使得現(xiàn)有的城市大腦1.0在編碼方面節(jié)省50%的存儲和帶寬,在云資源的耗費上,,比現(xiàn)有的可以節(jié)省90%以上的云計算的算力資源,。
而且它對于圖像特征的提取和分析延遲比較低、精度比較高,,所以它有很多好處,,這是數(shù)字視網(wǎng)膜希望帶給城市大腦2.0的一個好處。
當然這個系統(tǒng)要想完善,,可能還需要一點時間,,還需要在更多的地方去做實驗驗證,等這些技術(shù)都成熟了,,標準全都到位了,,甚至城市大腦2.0真正運營起來,對中國的城市化,、智能城市等等方面會有一個比較大的貢獻,。所以也希望大家多關(guān)注、多提比較好的建議和意見,。