當(dāng)?shù)貢r間 9 月 14 日,,歐洲計算機視覺頂級學(xué)術(shù)會議 ECCV 2018 在德國慕尼黑圓滿落幕。據(jù)悉,,ECCV 2018 規(guī)??涨埃薪?3200 人參加,,接收論文 776 篇,;另有 43 場 Workshops 和 11 場 Tutorials。曠視科技研究院在院長孫劍博士的帶領(lǐng)下遠(yuǎn)赴盛會,,推動全球范圍計算機視覺的技術(shù)交流與產(chǎn)品落地,。
長期以來,計算機視覺三大學(xué)術(shù)頂會 CVPR,、ECCV 和 ICCV 一起發(fā)揮著舉足輕重的平臺擔(dān)當(dāng)作用,,幫助產(chǎn)學(xué)研各方代表展示技術(shù)實力,增進(jìn)學(xué)術(shù)交流,。曠視科技作為全球人工智能獨角獸代表,,是計算機視覺三大「C 位」會議的積極參與者,,ICCV 2017 曠視科技打破谷歌,、微軟壟斷,成為第一個問鼎 COCO 冠軍的中國公司,;CVPR 2018 曠視科技全面進(jìn)擊,,論文、Demo,、挑戰(zhàn)賽,、酒會,一個不少,,掀起一股產(chǎn)學(xué)研交流熱潮,。
這次的 ECCV 2018,曠視科技同樣保持著較高的參與度并收獲頗豐:
ECCV 2018 共收錄 10 篇曠視研究院涵蓋多個 CV 子領(lǐng)域的論文,;
贏得 2018 COCO+Mapillary 挑戰(zhàn)賽四項世界第一,,成為 ECCV 奪冠最多的企業(yè);
基于深厚的人臉識別技術(shù)積淀,,曠視摘得 2018 WIDER Face Challenge 世界冠軍,。
下文將一一呈現(xiàn)曠視科技 ECCV 之行的點滴瞬間。
10 篇接收論文全面展現(xiàn)技術(shù)硬實力
據(jù) ECCV 2018 官網(wǎng)信息,,曠視科技共有 10 篇接收論文,。從內(nèi)容上看,論文涵蓋 CV 技術(shù)的多個層面,小到一個新表示的提出,,大到一個新模型的設(shè)計,,乃至神經(jīng)網(wǎng)絡(luò)設(shè)計原則和新任務(wù)、新方法的制定,,甚至弱監(jiān)督學(xué)習(xí)的新探索,,不一而足。
具體而言,,曠視科技在以下技術(shù)領(lǐng)域?qū)崿F(xiàn)新突破:網(wǎng)絡(luò)架構(gòu)設(shè)計(1 篇),、通用物體檢測(2 篇)、語義分割(3 篇),、場景理解(1 篇),、文本識別與檢測(2 篇)、人臉識別(1 篇),。
神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計領(lǐng)域,,ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design 不僅授之以魚,還授之以漁,,針對移動端深度學(xué)習(xí)提出第二代卷積神經(jīng)網(wǎng)絡(luò) ShuffleNet V2,,實現(xiàn)速度與精度的最優(yōu)權(quán)衡,同時給出了神經(jīng)網(wǎng)絡(luò)架構(gòu)的四個實用設(shè)計準(zhǔn)則,。這無疑將加速推進(jìn)由深度學(xué)習(xí)驅(qū)動的計算機視覺技術(shù)在移動端的全面落地,。此外,論文還提出網(wǎng)絡(luò)架構(gòu)設(shè)計應(yīng)該考慮直接指標(biāo),,比如速度,,而不是間接指標(biāo),比如 FLOPs,。
通用物體檢測方面,,曠視科技通過設(shè)計 1)新型骨干網(wǎng)絡(luò) DetNet 和 2)目標(biāo)定位新架構(gòu) IoU-Net 推動該領(lǐng)域的發(fā)展。
DetNet: A Backbone network for Object Detection 的設(shè)計靈感源自圖像分類與物體檢測任務(wù)之間存在的落差,。詳細(xì)講,,DetNet 針對不同大小和尺度的物體而像 FPN 一樣使用了更多的 stage;即便如此,,在保留更大的特征圖分辨率方面,,它依然優(yōu)于 ImageNet 預(yù)訓(xùn)練模型。但是,,這會增加神經(jīng)網(wǎng)絡(luò)的計算和內(nèi)存成本,。為保證效率,曠視研究員又引入低復(fù)雜度的 Dilated Bottleneck,,兼得較高的分辨率和較大的感受野,。DetNet 不僅針對分類任務(wù)做了優(yōu)化,,對定位也很友好,并在 COCO 上的物體檢測和實例分割任務(wù)中展現(xiàn)了出色的結(jié)果,。
Acquisition of Localization Confidence for Accurate Object Detection(IoU-Net)實現(xiàn)了作為計算機視覺基石的目標(biāo)檢測技術(shù)的底層性原創(chuàng)突破,。具體而言,通過學(xué)習(xí)預(yù)測與對應(yīng)真實目標(biāo)的 IoU,,IoU-Net 可檢測到的邊界框的「定位置信度」,,實現(xiàn)一種 IoU-guided NMS 流程,從而防止定位更準(zhǔn)確的邊界框被抑制,。IoU-Net 很直觀,,可輕松集成到多種不同的檢測模型中,大幅提升定位準(zhǔn)確度,。MS COCO 實驗結(jié)果表明了該方法的有效性和實際應(yīng)用潛力,。研究員同時希望這些新視角可以啟迪未來的目標(biāo)檢測工作。
曠視科技語義分割領(lǐng)域的論文占比最高:1)實現(xiàn)實時語義分割的雙向網(wǎng)絡(luò) BiSeNet,;2)優(yōu)化解決語義分割特征融合問題的新方法 ExFuse,;以及 3)通過實例級顯著性檢測和圖劃分實現(xiàn)弱監(jiān)督語義分割的新方法。
BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation 的提出基于三種主流的實時語義分割模型加速方法,,并在特征融合模塊和注意力優(yōu)化模塊的幫助下,,把實時語義分割的性能推進(jìn)到一個新高度。
ExFuse: Enhancing Feature Fusion for Semantic Segmentation 針對語義分割主流方法直接融合高低特征不奏效的問題而提出,,創(chuàng)新性地在低級特征引入語義信息,,在高級特征嵌入空間信息,優(yōu)化解決特征融合的問題,。
Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation 通過整合顯著性檢測和圖劃分算法,,提出一種新型弱監(jiān)督學(xué)習(xí)方法,加速語義分割發(fā)展,,其最大亮點是既利用每個顯著性實例的內(nèi)在屬性,又挖掘整個數(shù)據(jù)集范圍內(nèi)不同顯著性實例的相互關(guān)系,。
曠視科技借助統(tǒng)一感知解析網(wǎng)絡(luò) UPerNet 來優(yōu)化場景理解問題,。Unified Perceptual Parsing for Scene Understanding 提出名為統(tǒng)一感知解析 UPP 的新任務(wù),要求機器視覺系統(tǒng)從一張圖像中識別出盡可能多的視覺概念,;又提出多任務(wù)框架 UPerNet,,開發(fā)訓(xùn)練策略以學(xué)習(xí)混雜標(biāo)注。UPP 基準(zhǔn)測試結(jié)果表明,,UPerNet 可有效分割大量的圖像概念,。
在文本識別與檢測方面,曠視科技貢獻(xiàn)了 1)新型端到端可訓(xùn)練網(wǎng)絡(luò) Mask TextSpotter 和 2)檢測任意形狀文本的靈活表征 TextSnake 兩個技術(shù)點,。
Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes 受到 Mask R-CNN 啟發(fā),,通過分割文本區(qū)域檢測文本,,可勝任任意形狀的文本;另外,,相比其他方法,,Mask TextSpotter 還可借助語義分割實現(xiàn)精確的文本檢測和識別。
TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 可以擬合任意形狀的文本,,就像蛇一樣改變形狀適應(yīng)外部環(huán)境,;基于這一表示,出現(xiàn)了一種有效的場景文本檢測方法,,在包含若干個不同形式(水平,、多方向、曲形)的文本數(shù)據(jù)集上做到當(dāng)前最優(yōu),。
GridFace 是曠視科技人臉識別領(lǐng)域的一項新突破,。GridFace: Face Rectification via Learning Local Homography Transformations 可通過學(xué)習(xí)局部單應(yīng)變換減少人臉變形,先校正,,再識別,,過硬的校正技術(shù)大幅提升了人臉識別的性能。相關(guān)實驗結(jié)果已證明該方法的有效性和高效性,。
2018 COCO+Mapillary 包攬四冠成最大贏家
ECCV 2018 最受矚目的 COCO+Mapillary 聯(lián)合挑戰(zhàn)賽,,中國戰(zhàn)隊奪獲全部冠軍。曠視科技參戰(zhàn) 3 項 COCO 比賽和 1 項 Mapillary 比賽,,分獲 3 項 COCO 第一和 1 項 Mapillary 第一,,四戰(zhàn)皆勝,攬下了挑戰(zhàn)賽的「大半江山」,,在實例分割,、全景分割和人體關(guān)鍵點檢測上進(jìn)行了迭代式新探索。
實例分割
實例分割是當(dāng)前器視覺物體識別最前沿的技術(shù)之一,,也是計算機視覺最核心的任務(wù)之一,。曠視科技奪冠的關(guān)鍵是在模型的核心組件 Head 上做功夫,提出一種名為 Location Sensitive Header(LSH)的新方法,。
傳統(tǒng) Mask R-CNN 方法借助 RoI Align 提高實例分割定位精度,,但對 RoI Align 之后的組件 Head 無暇顧及。曠視研究員發(fā)掘出一個對實例分割友好,,對定位精度敏感的 Head,。概括來說,LSH 重新設(shè)計了任務(wù)之間的組合,,把分類和分割 combine 起來,,這樣做不僅可以優(yōu)化開發(fā)實例分割定位能力,還可有效避免定位和分類之間的沖突,。最終,,曠視科技以 mmAP 0.486 的成績拿下并列第一,。
全景分割
全景分割是這次挑戰(zhàn)賽的一項全新任務(wù),代表著當(dāng)前計算機視覺識別技術(shù)最前沿,,沒有之一,。從任務(wù)層級看,全景分割會比實例分割更進(jìn)一步,。針對這次大賽,,在端到端框架探索折戟之后,曠視研究員選定一種 two-fold 方案:整合語義分割和實例分割算法的輸出,。
這一做法需要克服兩個問題:1)Stuff 的特殊性,;2)Thing 的遮擋。首先,,曠視研究員針對 Stuff 設(shè)計試驗了更強的 Encoder Network,,又針對 Stuff Context 設(shè)計專門的 Object Context Network,保證 Stuff 的性能,;其次,,由于放棄端到端框架,在圖像融合之時會出現(xiàn)遮擋問題,,曠視研究員給出了專門的 Spatial Hierarchical Relation 方法,,根據(jù)不同物體的重疊面積排定圖像理解的層級。曠視科技高歌猛進(jìn),,最終在 COCO+Mapillary 實例分割兩項任務(wù)中分別以 PQ 0.538 和 0.412 的成績實力奪魁,。
人體關(guān)鍵點檢測
人體關(guān)鍵點檢測需要在多角度、多目標(biāo),、多尺寸等不受限條件下檢測人體,,同時精確定位人體關(guān)鍵點,自 2016 年第二屆 COCO 挑戰(zhàn)賽以來一直保留,,目前是第三次迭代,。COCO 2017,曠視科技曾奪得第一,,這次乘勝追擊,,背后支撐的依然是「曠式」突破性技術(shù)。
由于當(dāng)前主流的人體姿態(tài)估計網(wǎng)絡(luò)都遭遇了瓶頸問題:增大骨干網(wǎng)絡(luò) Backbone 對精度提升的作用趨近于飽和,,曠視研究員設(shè)計了新型 Cascade Backbone Network(CBN),可采用多層次跨階段連接和由粗到細(xì)的監(jiān)督策略,,實現(xiàn)大幅的精度提升,。CBN 采用小網(wǎng)絡(luò)、多階段,、多層中間監(jiān)督,,跨階段連接實現(xiàn)檢測結(jié)果逐階段精細(xì)提升,,最終在 COCO 2018 人體關(guān)鍵點挑戰(zhàn)數(shù)據(jù)集中獲得 mmAP 0.764 的精度,順利衛(wèi)冕,。
2018 WIDER Challenge 人臉識別挑戰(zhàn)賽勇奪第一
ECCV 2018 WIDER Face and Pedestrian Challenge 是一項全球范圍內(nèi)的計算機視覺頂級賽事和新基準(zhǔn)競賽,,吸引超過 400 多支隊伍參加,曠視科技參戰(zhàn)其中的人臉檢測比賽 WIDER Face Challenge,,最終以 mmAP 0.5582 的成績技壓群雄,,勇奪冠軍。
這項比賽中,,曠視科技基于 RetinaNet 提出一種新型級聯(lián)檢測器,,既吸取了 Cascade R-CNN 不斷提高閾值 refine 檢測框的 insight,又保證了 inference 時依然是單階段檢測器,,取長補短,,兼得性能與速度。這一原創(chuàng)方法在單模型單尺度下 mmAP 超過第二名 1.4 個點,,最終 mmAP 超過第二名 2.5 個點,,以較大領(lǐng)先優(yōu)勢奪得第一名。
以上是曠視科技 ECCV 2018 之行的一些掠影,。
作為全球計算機視覺獨角獸參加計算機視覺頂會,,是對自身實力的一個驗證和砥礪,也是一次相互交流和學(xué)習(xí)的好機會,。曠視科技始于計算機視覺,,深耕計算機視覺,人工智能的爆發(fā)與深度學(xué)習(xí)的發(fā)軔也在計算機視覺,,從機器之眼開始,,正如五億四千萬年之前,寒武紀(jì)生物大爆發(fā)的一個主要誘因是眼睛的出現(xiàn),。
能看的機器之眼,,是計算機視覺技術(shù)與應(yīng)用的共同目標(biāo),只不過技術(shù)是第一步,。ECCV 2018,,曠視科技交上了一份滿意的答卷。