一種基于局部平均有限差分的黑盒對(duì)抗攻擊方法-AET-電子技術(shù)應(yīng)用

一種基于局部平均有限差分的黑盒對(duì)抗攻擊方法

信息技術(shù)與網(wǎng)絡(luò)安全 1期

宗啟灼，徐茹枝，年家呈

(華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院，北京102206)

摘要： 在黑盒攻擊領(lǐng)域，目前主流方法是利用對(duì)抗樣本遷移性實(shí)現(xiàn)對(duì)抗攻擊，然而此類方法效果不佳。為此提出一種基于訪問的黑盒攻擊方法，此方法運(yùn)用有限差分法直接估計(jì)樣本在目標(biāo)模型中的損失函數(shù)梯度。為提高攻擊效率，算法在兩方面進(jìn)行優(yōu)化：第一，在估計(jì)梯度時(shí)，固定區(qū)域內(nèi)使用平均像素值代替區(qū)域所有像素值進(jìn)行有限差分，從而每個(gè)區(qū)域只需計(jì)算一次梯度；第二，在迭代生成對(duì)抗樣本時(shí)，提出復(fù)用多代梯度生成對(duì)抗擾動(dòng)的思想，顯著減少攻擊迭代次數(shù)。經(jīng)過(guò)大量實(shí)驗(yàn)驗(yàn)證，在MNIST、CIFAR-10和ImageNet中迭代的非目標(biāo)攻擊分別獲得了99.8％、99.9％和85.8％的攻擊成功率，領(lǐng)先當(dāng)今大多數(shù)黑盒攻擊算法。

關(guān)鍵詞： 圖像識(shí)別對(duì)抗樣本局部平均有限差分黑盒攻擊

中圖分類號(hào)： TP183
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.19358/j.issn.2096-5133.2022.01.004
引用格式：宗啟灼，徐茹枝，年家呈. 一種基于局部平均有限差分的黑盒對(duì)抗攻擊方法[J].信息技術(shù)與網(wǎng)絡(luò)安全，2022，41(1)：23-29，36.

A black-box adversarial attack method based on local average finite difference

Zong Qizhuo，Xu Ruzhi，Nian Jiacheng

(School of Control and Computer Engineering，North China Electric Power University，Beijing 102206，China)

Abstract： In the field of black box attacks, the current main method is to use the migration of adversarial samples to achieve adversarial attacks. However, the current methods are not effective. For this reason, this paper proposes an access-based black box attack method, which uses the finite difference method to directly estimate the gradient of the loss function of the sample in the target model. In order to improve the efficiency of the attack, the algorithm is optimized in two aspects. Firstly, in the finite difference process, the average pixel value in a fixed area is used instead of each pixel value in the area, so that each area only needs to be calculated once. Secondly, when generating adversarial samples iteratively, the idea of reusing multiple generations of gradient generation to resist disturbance is proposed, which significantly reduces the number of attack iterations. After a lot of experimental verification, the iterative non-target attacks in MNIST, CIFAR-10 and ImageNet have achieved 99.8%, 99.9% and 85.8% attack success rates respectively, leading most of today′s black box attack algorithms.

Key words : image recognition；adversarial sample；local average finite difference；black box attack

0 引言

目前，神經(jīng)網(wǎng)絡(luò)由于其高效解決復(fù)雜任務(wù)的能力，特別在計(jì)算機(jī)視覺領(lǐng)域，受到了廣泛研究和應(yīng)用。神經(jīng)網(wǎng)絡(luò)本身具有高度不可解釋性的黑盒性質(zhì)，使其行為難以控制和解釋[1]。因此在具體領(lǐng)域應(yīng)用的安全性值得關(guān)注和重視，譬如軍事、自動(dòng)駕駛、醫(yī)療等。對(duì)抗樣本概念由 Szegedy等[1]在2013年首次提出，即在原始圖像中添加微小的擾動(dòng)便可生成讓神經(jīng)網(wǎng)絡(luò)模型高置信度錯(cuò)誤分類的對(duì)抗樣本。

根據(jù)攻擊者對(duì)目標(biāo)模型的結(jié)構(gòu)和參數(shù)了解程度由高到低，依次可將對(duì)抗攻擊分為白盒攻擊、灰盒攻擊和黑盒攻擊三種。其中黑盒攻擊更加接近現(xiàn)實(shí)情況，相比前兩者具有更大的研究?jī)r(jià)值[2]。在黑盒攻擊的研究中，可分為基于遷移的黑盒攻擊[3]和基于訪問的黑盒攻擊[4]。

在基于遷移的黑盒攻擊中，文獻(xiàn)[5]在快速梯度下降方法[6]的基礎(chǔ)上，通過(guò)在梯度方向上增加動(dòng)量，使生成的對(duì)抗性樣本具有更強(qiáng)遷移性。但此攻擊方法偶然性大、適用度低，并且攻擊成功率不高。在文獻(xiàn)[7]中，Papernot通過(guò)重復(fù)學(xué)習(xí)和擴(kuò)充收集的數(shù)據(jù)，使得新數(shù)據(jù)集可以更好地表示目標(biāo)模型，并提出基于雅可比行列矩陣的數(shù)據(jù)集擴(kuò)充方法，迭代地?cái)U(kuò)充和完善替代模型。但是，當(dāng)樣本圖像維度很大時(shí)，計(jì)算雅可比矩陣將消耗巨大資源，并且難以完全模仿被攻擊模型的決策邊界，使得遷移攻擊成功率降低。

由于替代模型無(wú)法完全模仿目標(biāo)模型，越來(lái)越多的研究者傾向于直接估計(jì)目標(biāo)模型的結(jié)構(gòu)和參數(shù)信息，基于梯度估計(jì)的黑盒攻擊應(yīng)運(yùn)而生。文獻(xiàn)[4]利用零階優(yōu)化(ZOO)算法通過(guò)訪問目標(biāo)模型來(lái)估計(jì)損失函數(shù)的梯度，其本質(zhì)是通過(guò)有限差分法估計(jì)梯度[8]，此方法估計(jì)梯度時(shí)需要逐個(gè)對(duì)每個(gè)像素點(diǎn)進(jìn)行估計(jì)，每次迭代都需要大量查詢才能生成準(zhǔn)確的梯度估算值，攻擊效率低。文獻(xiàn)[9]利用有限差分法生成對(duì)抗樣本，在梯度估計(jì)過(guò)程中采用隨機(jī)分組法，減少計(jì)算量，但是減少的效果有限，并且在ImageNet數(shù)據(jù)集上攻擊成功率低。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://forexkbc.com/resource/share/2000003932。

作者信息：

宗啟灼，徐茹枝，年家呈

(華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院，北京102206)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容