城市大腦2.0-AET-電子技術(shù)應(yīng)用

城市大腦2.0

日期： 2020-08-11

來(lái)源：智芯通

關(guān)鍵詞： 人工智能 CCF 香港中文大學(xué) 雷鋒網(wǎng)

　　2020 年 8 月 7 日，第五屆全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR 2020）于深圳正式拉開(kāi)帷幕。

　　CCF-GAIR 2020 峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，香港中文大學(xué)（深圳）、雷鋒網(wǎng)聯(lián)合承辦，鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦。

　　從 2016 年的學(xué)產(chǎn)結(jié)合，2017 年的產(chǎn)業(yè)落地，2018 年的垂直細(xì)分，2019 年的人工智能 40 周年，峰會(huì)一直致力于打造國(guó)內(nèi)人工智能和機(jī)器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資平臺(tái)。

　　本次峰會(huì)之上，中國(guó)工程院院士、鵬城實(shí)驗(yàn)室主任高文教授在線上為與會(huì)者們帶來(lái)了一場(chǎng)精彩紛呈的開(kāi)場(chǎng)報(bào)告。

　　高文教授介紹，城市大腦1.0是一個(gè)以云計(jì)算為核心的系統(tǒng)，由于系統(tǒng)各部分之間沒(méi)有很好的分工協(xié)調(diào)機(jī)制，使得系統(tǒng)成本高、響應(yīng)速度慢、數(shù)據(jù)的可利用性低。

　　在他看來(lái)，城市大腦2.0是一個(gè)端邊云分工協(xié)調(diào)的混合系統(tǒng)架構(gòu)，可以有效解決城市大腦1.0的大部分問(wèn)題。

　　城市大腦2.0的核心在于數(shù)字視網(wǎng)膜及其標(biāo)準(zhǔn)化，它相較城市大腦1.0具備四大方面的性能提升：

　　1、它有先進(jìn)視頻編碼技術(shù)：節(jié)省存儲(chǔ)和帶寬50%以上；

　　2、它可以定制ASIC邊緣計(jì)算：節(jié)省云計(jì)算資源90%以上；

　　3、它能在原始圖像上特征提取：低延時(shí)和高精度；

　　4、它還可以做標(biāo)準(zhǔn)化特征的提取，存儲(chǔ)和復(fù)用：顯著提升信息密度和價(jià)值。

　　以下是高文院士線上演講的精彩內(nèi)容，雷鋒網(wǎng)作了不改變?cè)獾恼砼c編輯：

　　今天我與大家分享的演講主題叫做“城市大腦2.0，邊端云合理分工的人工智能賦能系統(tǒng)”。

　　先談?wù)劦谝粋€(gè)話題：城市大腦1.0。

　　城市大腦是現(xiàn)有智慧城市中的一個(gè)核心系統(tǒng)，它將算力及數(shù)據(jù)匯聚到一起，加上算法就可能產(chǎn)生出非常好的結(jié)果。

　　譬如，基于互聯(lián)網(wǎng)的數(shù)據(jù)、政務(wù)的數(shù)據(jù)、社會(huì)的數(shù)據(jù)，把它們集中到一起，提供一個(gè)云計(jì)算服務(wù)，就可以提升政府效率、加速企業(yè)創(chuàng)新。

　　智慧城市系統(tǒng)之中，匯集了各類(lèi)各樣的數(shù)據(jù)，其中有90%左右的數(shù)據(jù)都與圖像、視頻相關(guān)聯(lián)，如何處理好圖像和視頻數(shù)據(jù)，在城市大腦系統(tǒng)中是非常關(guān)鍵的要素。

　　現(xiàn)有的系統(tǒng)中，數(shù)據(jù)基本以圖像與視頻兩種形式進(jìn)入：

　　第一種模式：攝像頭就是一個(gè)簡(jiǎn)單的傳感器，捕捉到圖像或者視頻以后，進(jìn)行一個(gè)編碼壓縮，傳送給云端，云端將它存儲(chǔ)起來(lái)。

　　也可能將它解碼之后進(jìn)行分析，識(shí)別出人臉、車(chē)輛，或者進(jìn)行交通數(shù)據(jù)的分析等等，這是一種信息或者數(shù)據(jù)感知的模式。

　　另一種模式叫做智能終端，在攝像頭這一端就把人臉或者車(chē)牌等信息識(shí)別出來(lái)，識(shí)別出來(lái)的信息被傳送到云端，直接可以進(jìn)行分析使用。

　　這兩種模式是目前城市大腦中數(shù)據(jù)使用的主要模式，當(dāng)然這兩種模式都多多少少存在一些問(wèn)題。

　　如果僅僅作為一個(gè)感知終端，后面如果需要調(diào)用，除了解碼以外，還要進(jìn)行特征提取等工作，需要大量的計(jì)算程序，這些計(jì)算非常耗費(fèi)云計(jì)算算力資源。另外，智能終端還無(wú)法識(shí)別出未被指定的人或物。

　　所以，我們我們需要一個(gè)更好的系統(tǒng)，這個(gè)系統(tǒng)不僅云上算力資源需求不多且可以完成一些未經(jīng)規(guī)定的動(dòng)作。

　　現(xiàn)在的城市大腦1.0，它是一個(gè)具有海量數(shù)據(jù)的系統(tǒng)，但是這個(gè)海量數(shù)據(jù)并不等于大數(shù)據(jù)，因?yàn)?0%的海量數(shù)據(jù)都是沒(méi)有結(jié)構(gòu)化的，只是進(jìn)行了一個(gè)簡(jiǎn)單的編碼壓縮。

　　另外，這些數(shù)據(jù)的價(jià)值也比較低，它不是結(jié)構(gòu)化的，你無(wú)法在上面進(jìn)行分析，這也是為什么很多智慧城市的視頻數(shù)據(jù)，一段時(shí)間之后就被覆蓋了。

　　怎么才能改變這個(gè)現(xiàn)狀呢？其實(shí)問(wèn)題的實(shí)質(zhì)就是現(xiàn)有的城市大腦里的數(shù)據(jù)表達(dá)是不到位的。

　　為什么不到位呢？如果你只是感知數(shù)據(jù)后，將編碼壓縮送到云端，它還是一個(gè)非結(jié)構(gòu)化的數(shù)據(jù)；如果你把它識(shí)別出來(lái)是張三、李四，或者車(chē)牌號(hào)多少，雖然它已經(jīng)結(jié)構(gòu)化了，但是它是過(guò)度結(jié)構(gòu)化的，對(duì)于沒(méi)有規(guī)定的任務(wù)就無(wú)法執(zhí)行了。

　　所以我們需要一種泛化能力更強(qiáng)的數(shù)據(jù)表達(dá)，這個(gè)數(shù)據(jù)的表達(dá)是一個(gè)機(jī)緣表達(dá)，用這些機(jī)緣既可以完成現(xiàn)有的任務(wù)，也可以完成現(xiàn)在還沒(méi)有定義的一些任務(wù)。

　　當(dāng)然這些數(shù)據(jù)表達(dá)想要得到一個(gè)比較好的結(jié)果，整個(gè)系統(tǒng)就必須做得好。所以我們現(xiàn)在考慮城市大腦應(yīng)該有一套評(píng)測(cè)的指標(biāo)，包括系統(tǒng)的智力、性能（響應(yīng)時(shí)間、并發(fā)、吞吐）、效率（耗電多大）等等。

　　如果某套系統(tǒng)可以通過(guò)評(píng)測(cè)，那就代表這套系統(tǒng)比較智能化了。

　　城市大腦1.0系統(tǒng)的弊端在于：它的智能代價(jià)比較高，要么是造價(jià)高、要么就是耗電高。

　　我們希望城市大腦變得更智能，或者效率更高，怎么辦呢？我們希望把現(xiàn)有的城市大腦1.0升級(jí)到2.0。

　　一個(gè)可能的做法就是要合理分工，我們把原來(lái)的傳感網(wǎng)絡(luò)和云合并的機(jī)器變成邊端云協(xié)同的機(jī)器，云上只需要配備最低的算力，一部分計(jì)算放置于邊緣，一部分計(jì)算分配給終端，這樣組合起來(lái)使得整個(gè)系統(tǒng)最優(yōu)化。

　　系統(tǒng)到底應(yīng)該怎么升級(jí)，或者這個(gè)結(jié)構(gòu)做成什么樣比較好，我們先來(lái)看看人的視覺(jué)系統(tǒng)是怎么運(yùn)行的。

　　人的視覺(jué)系統(tǒng)是非常合理的、能效比非常高的系統(tǒng)。比如說(shuō)我們每天只消耗相當(dāng)于20瓦電燈泡的能耗就能做很多的事情。

　　人的視覺(jué)系統(tǒng)為何可以做到如此的低功耗、高效率？人的視覺(jué)系統(tǒng)主要由三部分組成，包括眼睛、視覺(jué)通路和大腦的視覺(jué)眼，這三部分分工非常嚴(yán)密。

　　比如說(shuō)大腦有了一個(gè)刺激信號(hào)，通過(guò)神經(jīng)通路傳到大腦不同的視覺(jué)眼，不同的視覺(jué)眼分工做不同的響應(yīng)，就可以完成很多事情，比如說(shuō)感知、決策等。

　　不同的感知路徑或者不同任務(wù)的復(fù)雜度，其實(shí)人的響應(yīng)度是不一樣的。（見(jiàn)PPT）這是1992年一張研究的示意圖，你可以看到當(dāng)你給一個(gè)人下了一個(gè)指令說(shuō)“你給我按一下綠色按鈕”，這個(gè)執(zhí)行是需要經(jīng)過(guò)一定延遲的，比如說(shuō)視網(wǎng)膜有35毫秒的延遲，從視網(wǎng)膜到下一個(gè)環(huán)節(jié)又有30毫秒的延遲，最后到了肌肉、手指頭動(dòng)作下去，大概有250毫秒的延遲，這個(gè)延遲就告訴我們，對(duì)不同的任務(wù)，我們整個(gè)視覺(jué)通道和腦的處理分工是非常嚴(yán)密的，使得簡(jiǎn)單的任務(wù)可以響應(yīng)很快，復(fù)雜的任務(wù)響應(yīng)很慢，分工合作，這樣的系統(tǒng)就能做到能量最優(yōu)化。

　　視覺(jué)系統(tǒng)最前端是視網(wǎng)膜，它的結(jié)構(gòu)是由感光細(xì)胞、雙極細(xì)胞和神經(jīng)節(jié)細(xì)胞三類(lèi)細(xì)胞組成的。

　　數(shù)字視網(wǎng)膜里面，大概有1.2億到1.26億個(gè)感光細(xì)胞，其中有錐狀細(xì)胞核桿狀細(xì)胞，錐狀細(xì)胞有600多萬(wàn)個(gè)，桿狀細(xì)胞有1.2億個(gè)，它們可以感知光線的強(qiáng)弱等等。

　　這些感光細(xì)胞通過(guò)雙極細(xì)胞，最后匯聚到神經(jīng)節(jié)細(xì)胞，進(jìn)到神經(jīng)纖維、視覺(jué)通道，通過(guò)大腦進(jìn)行傳輸。

　　神經(jīng)節(jié)細(xì)胞的數(shù)量只有差不多100萬(wàn)個(gè)，換句話說(shuō)從視網(wǎng)膜到視神經(jīng)，它已經(jīng)有一個(gè)差不多125：1的減縮，這個(gè)減縮我們可以把它理解成視覺(jué)信號(hào)的壓縮，或者特征壓縮。

　　所以我們?cè)谝暰W(wǎng)膜和大腦之間已經(jīng)有一個(gè)壓縮，這個(gè)壓縮應(yīng)該說(shuō)對(duì)整個(gè)大腦有效的工作其實(shí)是起到非常關(guān)鍵作用的。

　　當(dāng)然它不僅僅是一個(gè)壓縮，它和后面的感知是緊密相關(guān)的，比如根據(jù)你任務(wù)的簡(jiǎn)單和復(fù)雜程度，它們提取的視覺(jué)特征也不一樣，簡(jiǎn)單的任務(wù)就會(huì)優(yōu)先采取相關(guān)的策略，復(fù)雜的任務(wù)，它就把相關(guān)的信息往后傳。

　　一個(gè)生物識(shí)別系統(tǒng)的簡(jiǎn)化模型，從視網(wǎng)膜到大腦，信息進(jìn)來(lái)以后經(jīng)過(guò)一個(gè)特征的編碼壓縮，特征提取出來(lái)以后向后傳輸，傳到智能主體（腦），所以在視網(wǎng)膜這一端是一個(gè)定制的輕量級(jí)的計(jì)算，通過(guò)視神經(jīng)這樣一個(gè)有限帶寬的通信送到智能體。

　　這樣一個(gè)簡(jiǎn)化模型，對(duì)視覺(jué)通道是有很大作用的，所以大腦上有一個(gè)通用計(jì)算，這里我們可以把它整個(gè)特征的類(lèi)別分為結(jié)構(gòu)特征和行為特征，這個(gè)模型是經(jīng)過(guò)自然進(jìn)化，最后產(chǎn)生出這樣一個(gè)優(yōu)勝劣汰找到的答案。

　　這個(gè)答案告訴我們仿生視網(wǎng)膜的架構(gòu)，它有非常好的能量?jī)?yōu)化的特點(diǎn)，這個(gè)特點(diǎn)可以給我們提供一個(gè)很好的借鑒，如果我們想把整個(gè)城市大腦也做得能量?jī)?yōu)化或者能量高效化，就可以按照這樣的構(gòu)造來(lái)進(jìn)行結(jié)構(gòu)。

　　所以從視網(wǎng)膜傳到大腦之間，它是一個(gè)特征壓縮，我們叫做特征編碼，當(dāng)然這個(gè)編碼和現(xiàn)在傳統(tǒng)的圖像編碼并不一樣，它是一個(gè)特征壓縮編碼的東西送到大腦中去。

　　另外，現(xiàn)在我們城市大腦里面不能僅傳特征，也要傳壓縮圖像，因?yàn)橛械臅r(shí)候我們還需要用人眼去確認(rèn)一些東西，所以壓縮圖像也還是要傳的，這就使得我們現(xiàn)在城市大腦里的架構(gòu)和真人的視覺(jué)系統(tǒng)并不完全一樣，我們是兩個(gè)綜合或者綁定的系統(tǒng)。

　　有了這樣一個(gè)借鑒，下面我們就看城市大腦2.0到底應(yīng)該怎么樣來(lái)設(shè)計(jì)。

　　很顯然它必須是一個(gè)邊、端、云合理分工的系統(tǒng)，這個(gè)系統(tǒng)我們經(jīng)過(guò)了一段時(shí)間思索以后，2018年我們就投出一篇論文，這篇論文最后是在2018年5月份網(wǎng)絡(luò)出版，最后正式是在2018年8月份在《中國(guó)科學(xué)》上發(fā)表，我們把邊、端、云結(jié)合的最核心的技術(shù)叫做數(shù)字視網(wǎng)膜，它是整個(gè)城市大腦2.0里面一個(gè)基本架構(gòu)，我們把它叫做仿生視網(wǎng)膜的計(jì)算架構(gòu)。

　　數(shù)字視網(wǎng)膜現(xiàn)在形成了有8個(gè)特征的定義，這8個(gè)特征原則上分成三大組。

　　第一組特征的定義是和時(shí)空有關(guān)的，一個(gè)數(shù)字視網(wǎng)膜的終端必須要有全局統(tǒng)一的時(shí)空ID，包括全網(wǎng)統(tǒng)一的時(shí)間和精確的地理位置，比如說(shuō)GPS或者北斗的位置，有了這個(gè)東西之后，城市大腦就很容易同步，或者很容易可以對(duì)標(biāo)。

　　第二組特征簡(jiǎn)單來(lái)說(shuō)是視頻編碼+特征編碼+聯(lián)合優(yōu)化，這是所有的攝像頭都應(yīng)該支持的一個(gè)工作，當(dāng)前絕大部分?jǐn)z像頭只支持視頻編碼。

　　視頻編碼很容易理解，就是為了存儲(chǔ)和離線觀看影像重構(gòu)。

　　特征編碼是為了模式識(shí)別和場(chǎng)景理解的緊湊特征表達(dá)，聯(lián)合優(yōu)化是因?yàn)楝F(xiàn)在在城市大腦里面它有兩個(gè)碼流，一個(gè)是視頻編碼壓縮流，一個(gè)是特征編碼壓縮流，這兩個(gè)碼流會(huì)捆綁到一起進(jìn)行傳輸，所以我們要有一個(gè)優(yōu)化策略，把這個(gè)帶寬到底分多少給視頻編碼、分多少給特征編碼，這樣通過(guò)一個(gè)聯(lián)合優(yōu)化，使得整個(gè)系統(tǒng)是最優(yōu)的。

　　第三組特征，簡(jiǎn)單來(lái)說(shuō)就是模型可更新、注意可調(diào)節(jié)、軟件可定義。

　　什么叫模型可更新呢？因?yàn)槲覀儸F(xiàn)在必須要考慮怎么樣支持神經(jīng)元網(wǎng)絡(luò)，不同的模型升級(jí)了，你要可以實(shí)時(shí)更新。

　　注意可調(diào)整是說(shuō)，現(xiàn)在的攝像頭是沒(méi)有注意的，你把這個(gè)東西指到哪兒，景深設(shè)定到哪兒，它就在那兒，當(dāng)然可以通過(guò)人工遠(yuǎn)程調(diào)節(jié)它，可以拉近、拉遠(yuǎn)等等，但是它不是自動(dòng)的，我們希望它能做到自動(dòng)的注意可調(diào)節(jié)。

　　最后一個(gè)特征就是軟件可定義，這一點(diǎn)大家很容易理解，系統(tǒng)要想升級(jí)，可以通過(guò)軟件定義的方法，對(duì)系統(tǒng)自動(dòng)升級(jí)。這三個(gè)特點(diǎn)如果具備，終端就可以做得非常智能。

　　當(dāng)然，要想把數(shù)字視網(wǎng)膜技術(shù)全部用起來(lái)，這里面有一些使能技術(shù)。

　　第一個(gè)是視頻編碼，現(xiàn)在做城市大腦、監(jiān)控系統(tǒng)都離不開(kāi)視頻編碼，攝像頭里面都有一個(gè)視頻編碼芯片，視頻編碼芯片用的標(biāo)準(zhǔn)，最早期是H.264，或者用AVS的編碼標(biāo)準(zhǔn)，最近開(kāi)始使用H.265或者AVS2的標(biāo)準(zhǔn)，未來(lái)不久就會(huì)用上H.266和AVS3的標(biāo)準(zhǔn)，這個(gè)標(biāo)準(zhǔn)差不多每10年就會(huì)更新一代，效率每10年就會(huì)提高一倍。

　　為什么能夠做到編碼壓縮？一個(gè)視頻是一個(gè)圖像序列，圖像序列里面包含了很多數(shù)據(jù)的冗余，基本上有三大類(lèi)冗余：一類(lèi)是和空間冗余有關(guān)的，一類(lèi)是和時(shí)間冗余有關(guān)的，另外一類(lèi)是和編碼冗余有關(guān)的。

　　所以現(xiàn)在整個(gè)視頻編碼里面用的算法，我們一般把它叫做混合視頻編碼架構(gòu)，這個(gè)混合就把剛才三種主流的冗余用不同的算法去掉。

　　比如說(shuō)為了去除空間冗余，一般我們采用正交變換，比如說(shuō)DCP變換等等正交變換把它去除掉。為了去除時(shí)間上的冗余，就是幀和幀上的冗余，一般我們會(huì)采取預(yù)測(cè)編碼，比如說(shuō)各種各樣的濾波器，把幀間的冗余去除掉。

　　為了使得編碼的分配最符合熵的定義，我們使用信息熵編碼來(lái)去除編碼上的冗余，這三個(gè)冗余都去除干凈了，整個(gè)視頻流里就可以壓得很小，只有有用的信息、有用的數(shù)據(jù)甩出去，這些冗余都被擠壓掉了，這是視頻編碼。

　　要想把視頻編碼做得好，算法要做得很精，隨著時(shí)間的推移，我們可以用計(jì)算、帶寬把這些東西一點(diǎn)點(diǎn)都去除掉。

　　當(dāng)然，這些年我們除了不停地優(yōu)化算法之外，我們還提出了一種背景建模的技術(shù)，使得編碼效率在原有的技術(shù)上又可以提高一倍。

　　這里有很詳細(xì)的一些數(shù)據(jù)測(cè)試作為依據(jù)，而且這些東西都已經(jīng)發(fā)表論文，比如2014年我們?cè)赥IP發(fā)表了一篇論文，里面有這樣一些研究結(jié)果。

　　AVS2在2016年已經(jīng)成為我國(guó)的標(biāo)準(zhǔn)，同時(shí)它也是IEEE1857標(biāo)準(zhǔn)的第四部分。現(xiàn)在我們做AVS3的時(shí)候，就是IEEE1857的第10部分。

　　AVS標(biāo)準(zhǔn)是在2019年3月份第一版就發(fā)布了，H.266一直到今年7月份第一版才發(fā)布，我們超前了H.266有一年三個(gè)月，這是有史以來(lái)第一次。

　　AVS3這個(gè)標(biāo)準(zhǔn)去年3月份第一版發(fā)布以后，去年9月份海思就把芯片做出來(lái)了，在阿姆斯特丹的一次廣電展上，這款芯片一經(jīng)面市，引起了很大的轟動(dòng)。

　　它可以支持AVS3、8K解碼，是120幀的，這個(gè)芯片現(xiàn)在已經(jīng)裝配在很多4K、8K電視、機(jī)頂盒等等。

　　第二個(gè)使能技術(shù)就是特征編碼，這是非常關(guān)鍵的一個(gè)使能技術(shù)，這個(gè)技術(shù)里面它的標(biāo)準(zhǔn)有兩部分核心的內(nèi)容，一部分叫CDVS，一部分叫CDVA，這兩部分現(xiàn)在也都是國(guó)際標(biāo)準(zhǔn)MPEG-7里面的兩部分，一個(gè)是第13部分，一個(gè)是第15部分。

　　為什么要做視覺(jué)特征的壓縮呢？因?yàn)楦鶕?jù)不同的特征，提取出來(lái)的特征數(shù)據(jù)可能很大，如果不壓縮的話，搞不好特征數(shù)據(jù)比圖像本身都大，所以要么你就傳個(gè)圖像過(guò)去，要傳特征的話數(shù)據(jù)太大，所以就要對(duì)它進(jìn)行特征壓縮。

　　怎么進(jìn)行壓縮？原來(lái)有不同的考慮，如果是先把圖像編碼傳過(guò)去，再提取特征，再進(jìn)行識(shí)別，和先把特征提取出來(lái)，然后把特征傳過(guò)去再識(shí)別，這兩個(gè)其實(shí)有一個(gè)剪刀差，可能有時(shí)候識(shí)別率會(huì)先差百分之二三十。

　　就是說(shuō)先壓縮了以后，可能有一些比較有用的特征丟了，因?yàn)樗^編碼壓縮，它是保留公共部分，把一些非公共的、非常見(jiàn)的東西壓縮掉了，而非常見(jiàn)的部分恰恰可能是特征，所以你把這個(gè)打磨掉以后，它的識(shí)別率可能就下來(lái)了，所以我們是先提特征，再在云端技術(shù)識(shí)別這樣一個(gè)技術(shù)策略。

　　當(dāng)然先提特征，怎么樣提的特征體量比較小，我們初期是采用手工作業(yè)的策略，當(dāng)然手工特征怎么支持深度學(xué)習(xí)，這是另外一個(gè)問(wèn)題，后面我們做了第一版以后，又專(zhuān)門(mén)做了一個(gè)面向深度學(xué)習(xí)的編碼壓縮的框架，這個(gè)主要是給小視頻來(lái)做的，有了這兩個(gè)部分以后，基本上可以應(yīng)對(duì)圖像特征編碼和視頻特征編碼這兩個(gè)需求。

　　圖像特征編碼就是CDVS，視頻特征編碼就是CDVA。CDVS是手工特征的，里面使用的是一個(gè)類(lèi)SIFT的特征集，SIFT大家都知道，當(dāng)你給的比特?cái)?shù)據(jù)比較少的時(shí)候，它就給一些比較宏觀的特征。

　　基于這樣的思路，用這種類(lèi)SIFT，我們提出了一個(gè)特征表達(dá)的標(biāo)準(zhǔn)，然后來(lái)看它的性能，經(jīng)過(guò)幾年的時(shí)間，這個(gè)性能越提越高，最后把它固定下來(lái)。

　　CDVS實(shí)際深是從2012年2月份就開(kāi)始做，到了2015年6月份就做完了，就完全凍結(jié)掉了，最后成為國(guó)際標(biāo)準(zhǔn)，所以差不多花了4年的時(shí)間把它做出來(lái)。

　　CDVA是在2015年做完以后，標(biāo)準(zhǔn)化組織團(tuán)隊(duì)就馬上轉(zhuǎn)向利用深度學(xué)習(xí)去做視頻分析特征壓縮的問(wèn)題，也是花了差不多兩年多、三年的時(shí)間慢慢把它做出來(lái)，這個(gè)是可以對(duì)深度網(wǎng)絡(luò)的短視頻，用它做特征的提取、做表達(dá)，后面每次這個(gè)特征的性能都會(huì)有所提高，對(duì)不同的網(wǎng)絡(luò)，它的特征的檢出和特征識(shí)別的效率也都在逐步提高，所以每次提高的趨勢(shì)。

　　第三個(gè)使能技術(shù)，我們把它叫做聯(lián)合優(yōu)化。所謂聯(lián)合優(yōu)化，就是在視頻編碼和特征編碼之間，我要找到一個(gè)最優(yōu)的結(jié)合點(diǎn)，使得這兩個(gè)流捆綁到一起的時(shí)候，腦力分配是最優(yōu)的，上面這個(gè)流是視頻壓縮流，下面這個(gè)流是特征壓縮流，這樣送到云里，它倆合起來(lái)是最優(yōu)的。

　　怎么能夠做到最優(yōu)呢？因?yàn)楦髯缘膬?yōu)化模型都是有的，比如現(xiàn)在我們看到的這些是上面這部分，它是一個(gè)視頻編碼優(yōu)化的流程，上面的虛線是視頻編碼，下面的虛線是特征編碼，這兩個(gè)編碼在右端，我們是合成一個(gè)流，就是視頻和特征流。

　　這一個(gè)流我們?cè)趺礃觾?yōu)化呢？我們要設(shè)置一個(gè)聯(lián)合優(yōu)化流程，把它放到一起去優(yōu)化。視頻編碼的優(yōu)化模型叫RBO，RBO就是給定碼率損失最小的優(yōu)化模型，它的優(yōu)化曲線就是右下角這個(gè)曲線。在識(shí)別特征表達(dá)這一塊，它是有一個(gè)RAO，就是給定碼率，讓你精確度最高的優(yōu)化模型。

　　這個(gè)優(yōu)化模型給的曲線是反過(guò)來(lái)的，所以我們把這兩個(gè)需要優(yōu)化的東西給它放到一個(gè)優(yōu)化函數(shù)里面表達(dá)出來(lái)，就是這張圖的表達(dá)，根據(jù)這個(gè)東西我們聯(lián)合求解一個(gè)優(yōu)化的解，這就是第三個(gè)使能技術(shù)。

　　第四個(gè)使能技術(shù)是深度學(xué)習(xí)模型編碼的使能技術(shù)，就是通過(guò)多模型的重用，通過(guò)模型壓縮更新來(lái)做。這是深度學(xué)習(xí)怎么樣去通過(guò)重用去使得整個(gè)模型的重用精度更高。

　　這個(gè)重用既包括現(xiàn)有模型的重復(fù)使用，也根據(jù)目標(biāo)模型訓(xùn)練所得到的提升，使得優(yōu)化做得更好。

　　這樣一個(gè)多模型重用，如果是在學(xué)習(xí)體系里面把它用好的話，它的性能就可以提高得比較好，所以怎么樣使得這個(gè)多模型編碼壓縮，使得在重用當(dāng)中可以快速地更新一個(gè)模型，就使得這個(gè)性能不停地提升，這兩個(gè)就是模型編碼的主要?jiǎng)訖C(jī)，有了這個(gè)就可以使得當(dāng)你模型訓(xùn)練完了以后，壓縮完了以后就可以快速推到終端去升級(jí)你的模型。

　　上面這些使能技術(shù)，最后它要匯總到一個(gè)芯片里面，這個(gè)芯片現(xiàn)在在北大杭州研究院下面的一家公司做出來(lái)了，第一個(gè)數(shù)字視網(wǎng)膜的芯片叫GV9531，剛才說(shuō)的三組8個(gè)特性，這個(gè)芯片全都是支持的。

　　這個(gè)芯片目前也已經(jīng)做成了板卡，比如說(shuō)有4顆芯片的卡、16顆芯片的卡，這些板卡已經(jīng)可以支持邊緣端，一下支持上百路甚至幾百路的攝像頭數(shù)字視網(wǎng)膜特征提取的傳輸。

　　除了數(shù)字視網(wǎng)膜本身以外，現(xiàn)在配合人工智能技術(shù)的推進(jìn)，也在推動(dòng)中國(guó)的一些AI技術(shù)的國(guó)家標(biāo)準(zhǔn)，包括神經(jīng)網(wǎng)絡(luò)模型表示與壓縮的標(biāo)準(zhǔn)、城市級(jí)大數(shù)據(jù)匯集關(guān)聯(lián)的規(guī)范和標(biāo)準(zhǔn)，包括這些標(biāo)準(zhǔn)研究開(kāi)發(fā)的路線圖，什么時(shí)候要把哪個(gè)標(biāo)準(zhǔn)提出來(lái)完成等等。

　　數(shù)字視網(wǎng)膜簡(jiǎn)單來(lái)說(shuō)是三個(gè)編碼流合并的系統(tǒng)，當(dāng)然前兩個(gè)是最主要的，就是視頻流和特征流，這兩個(gè)流時(shí)時(shí)刻刻都是匯集到一起進(jìn)行傳輸?shù)模谌齻€(gè)是模型編碼，只是在模型需要壓縮的時(shí)候，從云端推到邊緣端或者終端上，進(jìn)行一些增量的更新。

　　有了數(shù)字視網(wǎng)膜，就相當(dāng)于城市大腦邊緣或者是終端方面就可以做得更高效，效能比更高，這樣就可以使得云端的算力不需要那么多，或者說(shuō)云端的響應(yīng)可以更精確、速度更快，這樣就使得城市大腦可以做得更好一些。

　　為了配合這個(gè)工作，現(xiàn)在城市大腦包括一些中臺(tái)怎么考慮、業(yè)務(wù)支撐怎么考慮，應(yīng)用怎么考慮，現(xiàn)在在鵬城實(shí)驗(yàn)室都有一些比較完整的設(shè)計(jì)和規(guī)劃。所以整體來(lái)說(shuō)，我們把城市大腦2.0里面的數(shù)字視網(wǎng)膜也可以簡(jiǎn)稱(chēng)為云腦視網(wǎng)膜，這個(gè)可以利用鵬城云腦的算力去提升它的能力。

　　鵬城云腦到現(xiàn)在為止已經(jīng)投入了幾十億元去打造，鵬城云腦只有100P的算力，雖然說(shuō)只有100P的算力，這也是到目前為止國(guó)內(nèi)作為AI訓(xùn)練算力最大的一套系統(tǒng)。

　　后面還會(huì)有更強(qiáng)的系統(tǒng)，現(xiàn)在我們有一個(gè)原型，可以有數(shù)據(jù)進(jìn)來(lái)，對(duì)數(shù)據(jù)進(jìn)行標(biāo)注、采集，可以進(jìn)行訓(xùn)練，訓(xùn)練完了以后就可以用剛才這些和芯片有關(guān)的系統(tǒng)進(jìn)行提取，然后可以分析和識(shí)別。

　　這個(gè)原型系統(tǒng)，一般的邊緣用的，甚至在云端大數(shù)據(jù)服務(wù)里面用的東西，現(xiàn)在都在逐步進(jìn)入系統(tǒng)，上面會(huì)有各種各樣的參考軟件，去配合硬件的東西，最上面是開(kāi)源的算法訓(xùn)練，有這些東西之后，將來(lái)在鵬城云腦上就會(huì)對(duì)城市大腦進(jìn)行比較強(qiáng)有力的支持。

　　現(xiàn)在已經(jīng)有一些演示驗(yàn)證的案例，比如說(shuō)對(duì)系統(tǒng)驗(yàn)證，比如說(shuō)對(duì)深圳交警提供的一些數(shù)據(jù)進(jìn)行視頻的驗(yàn)證，另外還可以進(jìn)行視頻的追蹤等等。

　　在光明區(qū)也進(jìn)行了一些實(shí)際驗(yàn)證，對(duì)于停車(chē)、擁堵等問(wèn)題都可以很好地分析和發(fā)現(xiàn)。

　　這就是城市大腦2.0到現(xiàn)在為止的一些情況。

　　總結(jié)一下，城市大腦1.0是一個(gè)以云計(jì)算為核心的系統(tǒng)，由于系統(tǒng)各個(gè)部分分工協(xié)調(diào)不太好，所以系統(tǒng)成本比較高，響應(yīng)速度慢，數(shù)據(jù)的可利用度比較低。借鑒人的視覺(jué)系統(tǒng)，比如說(shuō)人的視網(wǎng)膜、視覺(jué)通道、大腦分工非常協(xié)調(diào)，非常合理。

　　城市大腦2.0就是借鑒這樣一個(gè)系統(tǒng)提出的一個(gè)體系架構(gòu)，這個(gè)體系架構(gòu)要想把它做出來(lái)，需要數(shù)字視網(wǎng)膜這樣一套思路、技術(shù)及其標(biāo)準(zhǔn)化，現(xiàn)在這些思路、技術(shù)、標(biāo)準(zhǔn)化都逐步到位。

　　數(shù)字視網(wǎng)膜這套系統(tǒng)上了以后，可以使得現(xiàn)有的城市大腦1.0在編碼方面節(jié)省50%的存儲(chǔ)和帶寬，在云資源的耗費(fèi)上，比現(xiàn)有的可以節(jié)省90%以上的云計(jì)算的算力資源。

　　而且它對(duì)于圖像特征的提取和分析延遲比較低、精度比較高，所以它有很多好處，這是數(shù)字視網(wǎng)膜希望帶給城市大腦2.0的一個(gè)好處。

　　當(dāng)然這個(gè)系統(tǒng)要想完善，可能還需要一點(diǎn)時(shí)間，還需要在更多的地方去做實(shí)驗(yàn)驗(yàn)證，等這些技術(shù)都成熟了，標(biāo)準(zhǔn)全都到位了，甚至城市大腦2.0真正運(yùn)營(yíng)起來(lái)，對(duì)中國(guó)的城市化、智能城市等等方面會(huì)有一個(gè)比較大的貢獻(xiàn)。所以也希望大家多關(guān)注、多提比較好的建議和意見(jiàn)。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

城市大腦2.0

日期： 2020-08-11

來(lái)源：智芯通

相關(guān)內(nèi)容