從網(wǎng)絡(luò)設(shè)計(jì)到實(shí)際應(yīng)用，深度學(xué)習(xí)圖像超分辨率綜述-AET-電子技術(shù)應(yīng)用

從網(wǎng)絡(luò)設(shè)計(jì)到實(shí)際應(yīng)用，深度學(xué)習(xí)圖像超分辨率綜述

日期： 2019-02-27

關(guān)鍵詞： 圖像超分辨率深度學(xué)習(xí) LR圖像

圖像超分辨率（SR）研究已經(jīng)利用深度學(xué)習(xí)技術(shù)取得了重大進(jìn)展，本文旨在系統(tǒng)性地綜述這些進(jìn)展。作者將 SR 研究分為三大類：監(jiān)督 SR、無監(jiān)督 SR 以及特定領(lǐng)域的 SR。此外，本文還介紹了這一領(lǐng)域常用的公共開源基準(zhǔn)數(shù)據(jù)集和性能評(píng)估指標(biāo)，并指出了未來的幾個(gè)方向以及一些待解決的問題。

圖像超分辨率（SR）是指從低分辨率（LR）圖像中恢復(fù)高分辨率（HR）圖像的過程，是計(jì)算機(jī)視覺和圖像處理中一種重要的圖像處理技術(shù)。它在現(xiàn)實(shí)世界中有著廣泛的應(yīng)用，如醫(yī)學(xué)成像、監(jiān)控和安全等。除了改善圖像的感知質(zhì)量，它還有助于改善其它計(jì)算機(jī)視覺任務(wù)。總的來說，由于單個(gè) LR 圖像通常對(duì)應(yīng)多個(gè) HR 圖像，因此這個(gè)問題比較具有挑戰(zhàn)性。以往的文獻(xiàn)中提到了多種經(jīng)典的 SR 方法，包括基于預(yù)測的方法、基于邊緣的方法、統(tǒng)計(jì)方法、基于 patch 的方法和稀疏表征方法等。

隨著近年來深度學(xué)習(xí)技術(shù)的快速發(fā)展，研究人員積極地探索基于深度學(xué)習(xí)的 SR 模型，且該模型經(jīng)常在各種 SR 基準(zhǔn)測試上達(dá)到當(dāng)前最佳水平。各種深度學(xué)習(xí)方法被用來解決 SR 問題，包括早期基于卷積神經(jīng)網(wǎng)絡(luò)的方法和近期使用生成對(duì)抗網(wǎng)絡(luò)的 SR 方法。一般來說，使用深度學(xué)習(xí)技術(shù)的 SR 算法在以下主要方面有所不同：不同的網(wǎng)絡(luò)架構(gòu)、不同的損失函數(shù)、不同的學(xué)習(xí)原則和策略等。

本文全面綜述了圖像超分辨率使用深度學(xué)習(xí)所取得的最新進(jìn)展。雖然目前已有的文獻(xiàn)中有對(duì)超分辨率的概述，但本文的概括有所不同：本文的重點(diǎn)在于基于深度學(xué)習(xí)的 SR 技術(shù)，而早期的概述重點(diǎn)在于傳統(tǒng)的 SR 算法，或者有些概述是基于完全參考指標(biāo)或人類視覺感知來提供定量評(píng)估。與現(xiàn)有的概述不同，本文以系統(tǒng)和全面的方式采取了一種基于深度學(xué)習(xí)的獨(dú)特視角來回顧 SR 技術(shù)的最新進(jìn)展。

本文主要貢獻(xiàn)如下：

全面回顧了基于深度學(xué)習(xí)的圖像超分辨率技術(shù)，包括問題設(shè)置、基準(zhǔn)數(shù)據(jù)集、性能度量、一系列基于深度學(xué)習(xí)的 SR 方法、特定領(lǐng)域的 SR 應(yīng)用等。

以分層和結(jié)構(gòu)化的方式系統(tǒng)回顧了基于深度學(xué)習(xí)的 SR 技術(shù)的最新進(jìn)展，總結(jié)了有效 SR 方案每個(gè)部分的優(yōu)勢和局限性。

討論了當(dāng)前的挑戰(zhàn)和開放性問題，確認(rèn)了新的發(fā)展趨勢和未來方向，為該社區(qū)提供了見解和指導(dǎo)。

接下來本文將描述基于深度學(xué)習(xí)的圖像超分辨率最新進(jìn)展的各個(gè)方面。圖 1 以分級(jí)結(jié)構(gòu)的方式列出了本文的概況。第二部分討論了問題定義并回顧了主流的數(shù)據(jù)集和評(píng)估指標(biāo)。第三部分模塊化地分析了監(jiān)督超分辨率的主要組成部分。第四部分簡要介紹了無監(jiān)督超分辨率方法。第五部分介紹了特定領(lǐng)域流行的一些 SR 應(yīng)用，第六部分討論了 SR 技術(shù)的未來發(fā)展方向和開放性問題。

微信圖片_20190227203848.jpg

圖 1：本綜述的結(jié)構(gòu)圖

論文：Deep Learning for Image Super-resolution: A Survey

微信圖片_20190227203910.jpg

論文地址：https://arxiv.org/abs/1902.06068

摘要：圖像超分辨率（SR）是計(jì)算機(jī)視覺中增強(qiáng)圖像和視頻分辨率的一類重要圖像處理技術(shù)。近幾年來，圖像超分辨率研究已經(jīng)利用深度學(xué)習(xí)技術(shù)取得了重大進(jìn)展。文本旨在系統(tǒng)性綜述圖像超分辨率技術(shù)利用深度學(xué)習(xí)技術(shù)所取得的最新進(jìn)展。總體來看，現(xiàn)有的 SR 技術(shù)研究大體可以分為三大類：監(jiān)督 SR、無監(jiān)督 SR 以及特定領(lǐng)域的 SR。除此之外，本文還介紹了其他一些重要內(nèi)容，如公共開源基準(zhǔn)數(shù)據(jù)集和性能評(píng)估指標(biāo)。最后，本文還指出了未來的幾個(gè)方向以及一些待解決的問題。

超分辨率研究數(shù)據(jù)集

目前有很多用于圖像超分辨率研究的數(shù)據(jù)集，它們在圖像數(shù)量、質(zhì)量、分辨率、多樣性等方面存在很大的差異。其中一些數(shù)據(jù)集提供 LR-HR 圖像對(duì)，而有些僅提供 HR 圖像，其中的 LR 圖像通常由 MATLAB 中默認(rèn)設(shè)置的 imresize 函數(shù)獲得。表 1 列出了 SR 社區(qū)常用的一些圖像數(shù)據(jù)集，詳細(xì)地寫明了其包含的 HR 圖像數(shù)量、平均分辨率、像素平均數(shù)、圖像格式和分類關(guān)鍵詞等。

微信圖片_20190227203930.jpg

表 1：用于超分辨率基準(zhǔn)的公共圖像數(shù)據(jù)集

監(jiān)督超分辨率

已有研究人員提出了很多利用深度學(xué)習(xí)的超分辨率模型。這些模型主要關(guān)注監(jiān)督超分辨率，即同時(shí)利用 LR 圖像和相對(duì)應(yīng)的 ground truth HR 圖像進(jìn)行訓(xùn)練。盡管這些模型之間的差別非常大，但它們本質(zhì)上是一套組件的組合，如模型框架、上采樣方法、網(wǎng)絡(luò)設(shè)計(jì)、學(xué)習(xí)策略等。從這個(gè)角度來看，研究人員組合了這些組件來構(gòu)建一個(gè)整合的 SR 模型，以實(shí)現(xiàn)特定目的。本章將著重對(duì)基本組件進(jìn)行模塊化分析（見圖 1），而不是單獨(dú)介紹每個(gè)模型并總結(jié)它們的優(yōu)缺點(diǎn)。

微信圖片_20190227203947.jpg

圖 2：基于深度學(xué)習(xí)的超分辨率模型框架。這些四邊形顯示了上/下采樣運(yùn)算（取決于它們的方向）。灰色四邊形表示預(yù)定義的上采樣運(yùn)算，綠色和黃色四邊形分別表示可學(xué)習(xí)的上采樣或下采樣層。藍(lán)色框表示卷積層，虛線框內(nèi)的部分表示可以堆疊在框架內(nèi)的模塊。

微信圖片_20190227204006.jpg

圖 3：網(wǎng)絡(luò)設(shè)計(jì)策略

無監(jiān)督超分辨率

現(xiàn)有的超分辨率研究重點(diǎn)是監(jiān)督學(xué)習(xí)，即利用 LR-HR 圖像對(duì)學(xué)習(xí) LR 到 HR 圖像的映射。然而，由于獲取同一個(gè)場景的不同分辨率圖像難度較大，SR 數(shù)據(jù)集中的 LR 圖像往往是通過對(duì) HR 圖像進(jìn)行預(yù)定義的降級(jí)來獲得的。因此，在這些數(shù)據(jù)集上訓(xùn)練的 SR 模型更有可能學(xué)習(xí)預(yù)定義降級(jí)的可逆流程。為了避免預(yù)定義降級(jí)帶來的不良影響，研究人員越來越關(guān)注無監(jiān)督超分辨率，用于訓(xùn)練的圖像只有 HR 或 LR 的非配對(duì)圖像，因此得到的模型更擅長解決實(shí)際應(yīng)用中的 SR 問題。

特定領(lǐng)域的應(yīng)用

1、深度圖超分辨率

深度圖記錄了場景中視點(diǎn)和目標(biāo)之間的距離，深度信息在姿態(tài)估計(jì) [150], [151], [152]、語義分割 [153], [154] 等許多任務(wù)中發(fā)揮著重要作用。然而，由于生產(chǎn)力和成本方面的限制，由深度傳感器生成的深度圖通常分辨率較低，并飽受噪聲、量化、缺失值等方面的降級(jí)影響。為了提高深度圖的空間分辨率，研究人員引入了超分辨率。

2、人臉圖像超分辨率

人臉圖像超分辨率（又名 face hallucination，F(xiàn)H）通常有助于完成其它與人臉相關(guān)的任務(wù) [6], [72], [73], [162]。與一般圖像相比，人臉圖像擁有更多與人臉相關(guān)的結(jié)構(gòu)化信息，因此將人臉先驗(yàn)知識(shí)整合到 FH 中是一種非常流行且頗有前景的方法。

3、超光譜圖像超分辨率

與全色圖像（panchromatic image，PAN）相比，超光譜圖像（HSI）包含數(shù)百個(gè)波段的高光譜圖像，能夠提供豐富的光譜特征，幫助完成許多視覺任務(wù) [174], [175], [176], [177]。然而，由于硬件限制，不僅是搜集高質(zhì)量 HSI 比搜集 PAN 難度更大，搜集到的 HSI 分辨率也要更低。因此，該領(lǐng)域引入了超分辨率，研究人員往往將 HR PAN 與 LR HSI 相結(jié)合來預(yù)測 HR HSI。

4、視頻超分辨率

在視頻超分辨率中，多個(gè)幀可以提供更多的場景信息，該領(lǐng)域不僅有幀內(nèi)空間依賴，還有幀間時(shí)間依賴（如運(yùn)動(dòng)、亮度和顏色變化）。因此，現(xiàn)有研究主要關(guān)注更好地利用時(shí)空依賴，包括明確的運(yùn)動(dòng)補(bǔ)償（如光流算法、基于學(xué)習(xí)的方法）和循環(huán)方法等。

5、其它應(yīng)用

基于深度學(xué)習(xí)的超分辨率也被應(yīng)用到其它特定領(lǐng)域的應(yīng)用中，而且表現(xiàn)出色。尤其是，RACNN[197] 利用 SR 模型增強(qiáng)了用于細(xì)粒度分類的 LR 圖像細(xì)節(jié)的可辨性。類似地，感知 GAN[198] 通過超分辨小目標(biāo)的表征解決了小目標(biāo)檢測問題，實(shí)現(xiàn)了與大目標(biāo)相似的特征，檢測更具可辨性。FSR-GAN[199] 超分辨化了特征空間而非像素空間中的小圖像，將質(zhì)量較差的原始特征轉(zhuǎn)換成了可辨性更高的特征，這對(duì)圖像檢索非常有利。此外，Dai 等人 [7] 驗(yàn)證了 SR 技術(shù)在若干視覺應(yīng)用中的有效性和有用性，包括邊緣檢測、語義分割、數(shù)字和場景識(shí)別。Huang 等人 [200] 開發(fā)了專門用于超分辨率遙感圖像的 RS-DRL。Jeon 等人 [201] 利用立體圖像中的視差先驗(yàn)來重建配準(zhǔn)中具有亞像素準(zhǔn)確率的 HR 圖像。

總結(jié)當(dāng)下，放眼未來

1、網(wǎng)絡(luò)設(shè)計(jì)

良好的網(wǎng)絡(luò)設(shè)計(jì)不僅決定了具有很高性能上限的假設(shè)空間，還有助于在沒有過多空間和計(jì)算冗余的情況下高效地學(xué)習(xí)數(shù)據(jù)表征。下面我們將介紹一些有前景的網(wǎng)絡(luò)改進(jìn)方向：

結(jié)合局部信息和全局信息

結(jié)合低級(jí)和高級(jí)信息

針對(duì)特定上下文的注意力

輕量級(jí)架構(gòu)

上采樣層

2、學(xué)習(xí)策略

除了良好的假設(shè)空間，魯棒的學(xué)習(xí)策略也是實(shí)現(xiàn)令人滿意的結(jié)果所必需的。下面我們將介紹一些不錯(cuò)的學(xué)習(xí)策略。

損失函數(shù)。現(xiàn)有的損失函數(shù)可視作在 LR/HR/SR 圖像之間建立約束，并根據(jù)這些約束是否得到滿足來指導(dǎo)優(yōu)化。實(shí)際上，這些損失函數(shù)通常是加權(quán)組合的，對(duì) SR 來說最佳的損失函數(shù)仍然未明。因此，最有前景的方向之一是探索這些圖像之間的潛在關(guān)聯(lián)并尋求更精確的損失函數(shù)。

歸一化。雖然 BN 被廣泛用于視覺任務(wù)中，大大加快了訓(xùn)練并提高了模型性能，但它對(duì)于超分辨率技術(shù)來說仍是次優(yōu)策略。因此需要研究其它有效的 SR 歸一化技術(shù)。

3、評(píng)估指標(biāo)

評(píng)估指標(biāo)是機(jī)器學(xué)習(xí)最基本的組成部分之一。如果指標(biāo)不能準(zhǔn)確測量模型性能，研究者就很難驗(yàn)證其進(jìn)步。超分辨率圖像的評(píng)估指標(biāo)同樣面臨這樣的挑戰(zhàn)，因此需要進(jìn)行更多的探索。

更精確的指標(biāo)。超分辨率圖像中使用最廣泛的指標(biāo)是 PSNR 和 SSIM。然而，PSNR 往往會(huì)導(dǎo)致過度平滑，且結(jié)果在幾乎無法區(qū)分的圖像之間差異很大。SSIM 在亮度、對(duì)比度和結(jié)構(gòu)方面進(jìn)行評(píng)估，但仍然無法準(zhǔn)確測量圖像的感知質(zhì)量。此外，MOS 最接近人類視覺反應(yīng)，但需要大量人力和精力，且不可復(fù)制。因此，迫切需要更精確的指標(biāo)來評(píng)估重建圖像的質(zhì)量。

盲 IQA 方法。如今，用于 SR 的大多數(shù)指標(biāo)都是完全參考（all-reference）方法，即假設(shè)我們已將 LR-HR 圖像以完美的質(zhì)量配對(duì)。但此類數(shù)據(jù)集難以獲取，因?yàn)橛糜谠u(píng)估的數(shù)據(jù)集通常是通過人工降級(jí)獲得的。在這種情況下，我們對(duì)其執(zhí)行評(píng)估的任務(wù)實(shí)際上是預(yù)定義降級(jí)的逆過程。因此，開發(fā)盲 IQA 方法也有很大的需求。

4、無監(jiān)督超分辨率

如第四部分所述，在相同的場景中收集不同分辨率的圖像比較難，因此雙三插值被廣泛用于創(chuàng)建 SR 數(shù)據(jù)集。但是，在這些數(shù)據(jù)集上訓(xùn)練的 SR 模型可能僅學(xué)習(xí)了預(yù)定義降級(jí)的可逆過程。因此，如何執(zhí)行無監(jiān)督超分辨率（即在沒有配對(duì) LR-HR 圖像的數(shù)據(jù)集上訓(xùn)練）是未來發(fā)展的一個(gè)可行方向。

5、實(shí)際應(yīng)用方向

圖像超分辨率在實(shí)際應(yīng)用中受到很大限制，如遭遇未知的降級(jí)因子，丟失配對(duì) LR-HR 圖像等。以下是 SR 在實(shí)際應(yīng)用中的一些發(fā)展方向：

處理多種降級(jí)問題。實(shí)際應(yīng)用中的圖像往往會(huì)遭遇未知的降級(jí)問題，如噪聲增多、壓縮人為問題和模糊等。因此，在人為降級(jí)的數(shù)據(jù)集上訓(xùn)練的模型在現(xiàn)實(shí)應(yīng)用中往往表現(xiàn)不佳。研究人員已經(jīng)提出了一些方法來解決這一問題，但這些方法有一些先天缺陷，如訓(xùn)練難度大、過于完美的假設(shè)。這一問題亟待解決。

特定領(lǐng)域的應(yīng)用。超分辨率不僅可以直接應(yīng)用于特定領(lǐng)域的數(shù)據(jù)和場景，還對(duì)其它視覺任務(wù)有很大幫助。因此，將 SR 應(yīng)用于更多的特定領(lǐng)域也是一個(gè)有前景的方向，如視頻監(jiān)控、人臉識(shí)別、目標(biāo)跟蹤、醫(yī)學(xué)成像、場景渲染等。

多尺度超分辨率。多數(shù)現(xiàn)有 SR 模型以固定的比例因子來執(zhí)行 SR。但在實(shí)際應(yīng)用中我們經(jīng)常要以任意比例因子來執(zhí)行官 SR，因此，開發(fā)多尺度超分辨率的單個(gè)模型也是一個(gè)潛在的發(fā)展方向。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

從網(wǎng)絡(luò)設(shè)計(jì)到實(shí)際應(yīng)用，深度學(xué)習(xí)圖像超分辨率綜述

日期： 2019-02-27

相關(guān)內(nèi)容