《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 常用測試集帶來過擬合?你真的能控制自己不根據(jù)測試集調(diào)參嗎

常用測試集帶來過擬合?你真的能控制自己不根據(jù)測試集調(diào)參嗎

2018-06-06

在驗(yàn)證集上調(diào)優(yōu)模型已經(jīng)是機(jī)器學(xué)習(xí)社區(qū)通用的做法,,雖然理論上驗(yàn)證集調(diào)優(yōu)后不論測試集有什么樣的效果都不能再調(diào)整模型,,但實(shí)際上模型的超參配置或多或少都會(huì)受到測試集性能的影響。因此研究社區(qū)可能設(shè)計(jì)出只在特定測試集上性能良好,但無法泛化至新數(shù)據(jù)的模型。本論文通過創(chuàng)建一組真正「未見過」的同類圖像來測量 CIFAR-10 分類器的準(zhǔn)確率,因而充分了解當(dāng)前的測試集是否會(huì)帶來過擬合風(fēng)險(xiǎn),。


1 引言


過去五年中,機(jī)器學(xué)習(xí)成為一塊實(shí)驗(yàn)田,。受深度學(xué)習(xí)研究熱潮的驅(qū)動(dòng),,大量論文圍繞這樣一種范式——新型學(xué)習(xí)技術(shù)出現(xiàn)的主要依據(jù)是它在多項(xiàng)關(guān)鍵基準(zhǔn)上的性能提升。同時(shí),,很少有人解釋為什么這項(xiàng)技術(shù)是對先前技術(shù)的可靠改進(jìn),。研究者對研究進(jìn)展的認(rèn)知主要依賴于少量標(biāo)準(zhǔn)基準(zhǔn),如 CIFAR-10,、ImageNet 或 MuJoCo,。這就引出了一個(gè)關(guān)鍵問題:


目前機(jī)器學(xué)習(xí)領(lǐng)域衡量研究進(jìn)展的標(biāo)準(zhǔn)有多可靠?


對機(jī)器學(xué)習(xí)領(lǐng)域的進(jìn)展進(jìn)行恰當(dāng)評(píng)估是一件非常精細(xì)的事情,。畢竟,,學(xué)習(xí)算法的目標(biāo)是生成一個(gè)可有效泛化至未見數(shù)據(jù)的模型。由于通常無法獲取真實(shí)數(shù)據(jù)的分布,,因此研究人員轉(zhuǎn)而在測試集上評(píng)估模型性能,。只要不利用測試集來選擇模型,這就是一種原則性強(qiáng)的評(píng)估方案。


不幸的是,,我們通常只能獲取具備同樣分布的有限新數(shù)據(jù)?,F(xiàn)在大家普遍接受在算法和模型設(shè)計(jì)過程中多次重用同樣的測試集。該實(shí)踐有很多例子,,包括一篇論文中的調(diào)整超參數(shù)(層數(shù)等),,以及基于其他研究者的研究構(gòu)建模型。盡管對比新模型與之前模型的結(jié)果是非常自然的想法,,但很明顯當(dāng)前的研究方法論削弱了一個(gè)關(guān)鍵假設(shè):分類器與測試集是獨(dú)立的,。這種不匹配帶來了一種顯而易見的危險(xiǎn),研究社區(qū)可能會(huì)輕易設(shè)計(jì)出只在特定測試集上性能良好,,但無法泛化至新數(shù)據(jù)的模型 [1],。


1.1 在 CIFAR-10 上的復(fù)現(xiàn)性研究


為了了解機(jī)器學(xué)習(xí)當(dāng)前進(jìn)展的可靠性,本文作者設(shè)計(jì)并實(shí)施了一種新型復(fù)現(xiàn)性研究,。主要目標(biāo)是衡量現(xiàn)在的分類器泛化至來自同一分布的未見數(shù)據(jù)的性能。研究者主要使用標(biāo)準(zhǔn) CIFAR-10 數(shù)據(jù)集,,因?yàn)樗膭?chuàng)建過程是透明的,,尤其適合這項(xiàng)任務(wù)。此外,,近十年的大量研究使用 CIFAR-10,。由于該過程的競爭性本質(zhì),這是一項(xiàng)調(diào)查適應(yīng)性(adaptivity)是否導(dǎo)致過擬合的優(yōu)秀測試用例,。


該研究分為三步:


1. 首先,,研究者創(chuàng)建一個(gè)新的測試集,將新測試集的子類別分布與原始 CIFAR-10 數(shù)據(jù)集進(jìn)行仔細(xì)匹配,。


2. 在收集了大約 2000 張新圖像之后,,研究者在新測試集上評(píng)估 30 個(gè)圖像分類模型的性能。結(jié)果顯示出兩個(gè)重要現(xiàn)象,。一方面,,從原始測試集到新測試集的模型準(zhǔn)確率顯著下降。例如,,VGG 和 ResNet 架構(gòu) [7, 18] 的準(zhǔn)確率從 93% 下降至新測試集上的 85%,。另一方面,研究者發(fā)現(xiàn)在已有測試集上的性能可以高度預(yù)測新測試集上的性能,。即使在 CIFAR-10 上的微小改進(jìn)通常也能遷移至留出數(shù)據(jù),。


3. 受原始準(zhǔn)確率和新準(zhǔn)確率之間差異的影響,第三步研究了多個(gè)解釋這一差距的假設(shè),。一種自然的猜想是重新調(diào)整標(biāo)準(zhǔn)超參數(shù)能夠彌補(bǔ)部分差距,,但是研究者發(fā)現(xiàn)該舉措的影響不大,僅能帶來大約 0.6% 的改進(jìn)。盡管該實(shí)驗(yàn)和未來實(shí)驗(yàn)可以解釋準(zhǔn)確率損失,,但差距依然存在,。


總之,研究者的結(jié)果使得當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的進(jìn)展意味不明,。適應(yīng) CIFAR-10 測試集的努力已經(jīng)持續(xù)多年,,模型表現(xiàn)的測試集適應(yīng)性并沒有太大提升。頂級(jí)模型仍然是近期出現(xiàn)的使用 Cutout 正則化的 Shake-Shake 網(wǎng)絡(luò) [3, 4],。此外,,該模型比標(biāo)準(zhǔn) ResNet 的優(yōu)勢從 4% 上升至新測試集上的 8%。這說明當(dāng)前對測試集進(jìn)行長時(shí)間「攻擊」的研究方法具有驚人的抗過擬合能力,。


但是該研究結(jié)果令人對當(dāng)前分類器的魯棒性產(chǎn)生質(zhì)疑,。盡管新數(shù)據(jù)集僅有微小的分布變化,但廣泛使用的模型的分類準(zhǔn)確率卻顯著下降,。例如,,前面提到的 VGG 和 ResNet 架構(gòu),其準(zhǔn)確率損失相當(dāng)于模型在 CIFAR-10 上的多年進(jìn)展 [9],。注意該實(shí)驗(yàn)中引入的分布變化不是對抗性的,,也不是不同數(shù)據(jù)源的結(jié)果。因此即使在良性設(shè)置中,,分布變化也對當(dāng)前模型的真正泛化能力帶來了嚴(yán)峻挑戰(zhàn),。


4 模型性能結(jié)果


完成新測試集構(gòu)建之后,研究者評(píng)估了多種不同的圖像分類模型,。主要問題在于如何對原始 CIFAR-10 測試集上的準(zhǔn)確率和新測試集上的準(zhǔn)確率進(jìn)行比較,。為此,研究者對機(jī)器學(xué)習(xí)研究領(lǐng)域中出現(xiàn)多年的多種分類器進(jìn)行了實(shí)驗(yàn),,這些模型包括廣泛使用的卷積網(wǎng)絡(luò)(VGG 和 ResNet [7,18]),、近期出現(xiàn)的架構(gòu)(ResneXt、PyramidNet,、DenseNet [6,10,20]),、已發(fā)布的當(dāng)前最優(yōu)模型 Shake-Drop[21],以及從基于強(qiáng)化學(xué)習(xí)的超參數(shù)搜索而得到的模型 NASNet [23],。此外,,他們還評(píng)估了基于隨機(jī)特征的「淺層」方法 [2,16]??傮w來說,,原始 CIFAR-10 測試集上的準(zhǔn)確率的范圍是 80% 到 97%。


對于所有深層架構(gòu),,研究者都使用了之前在線發(fā)布的代碼來實(shí)現(xiàn)(參見附錄 A 的列表),。為了避免特定模型 repo 或框架帶來的偏差,,研究者還評(píng)估了兩個(gè)廣泛使用的架構(gòu) VGG 和 ResNet(來自于在不同深度學(xué)習(xí)庫中實(shí)現(xiàn)的兩個(gè)不同來源)。研究者基于隨機(jī)特征為模型編寫實(shí)現(xiàn),。


主要的實(shí)驗(yàn)結(jié)果見表 1 和圖 2 上,,接下來將介紹結(jié)果中的兩個(gè)重要趨勢,然后在第 6 部分中討論結(jié)果,。

微信圖片_20180606200314.jpg


表 1:在原始 CIFAR-10 測試集和新測試集上的模型準(zhǔn)確率,,其中 Gap 表示兩個(gè)準(zhǔn)確率之間的差距。? Rank 是從原始測試集到新測試集的排名的相對變化,。例如,,? Rank = ?2 表示模型在新測試集中的準(zhǔn)確率排名下降了兩位。

微信圖片_20180606200406.jpg


圖 2:新測試集上的模型準(zhǔn)確率 vs 原始數(shù)據(jù)集上的模型準(zhǔn)確率,。


4.1 準(zhǔn)確率顯著下降


所有模型在新測試集上的準(zhǔn)確率都有顯著的下降,。對于在原始測試集上表現(xiàn)較差的模型,這個(gè)差距更大,;對于在原始測試集上表現(xiàn)較好的模型,,這個(gè)差距較小。例如,,VGG 和 ResNet 架構(gòu)的原始準(zhǔn)確率(約 93%)和新準(zhǔn)確率(約 85%)的差距大約為 8%,。最佳準(zhǔn)確率由 shake_shake_64d_cutout 得到,其準(zhǔn)確率大致下降了 4%(從 97% 到 93%),。雖然準(zhǔn)確率下降幅度存在變化,但沒有一個(gè)模型是例外,。


關(guān)于相對誤差,,擁有更高原始準(zhǔn)確率的模型的誤差可能有更大的增長。某些模型例如 DARC,、shake_shake_32d 和 resnext_29_4x64d 在誤差率上有 3 倍的增長,。對于較簡單的模型例如 VGG、AlexNet 或 ResNet,,相對誤差增長在 1.7 倍到 2.3 倍之間,。參見附錄 C 中的全部相對誤差的表格。


4.2 相對順序變化不大


按照模型的新舊準(zhǔn)確率順序?qū)ζ溥M(jìn)行分類時(shí),,總體排序結(jié)果差別不大,。具有類似原始準(zhǔn)確率的模型往往出現(xiàn)相似的性能下降。實(shí)際上,,如圖 2 所示,,從最小二乘法擬合中派生出的線性函數(shù)可以對新舊準(zhǔn)確率之間的關(guān)系做出很好的解釋。模型的新準(zhǔn)確率大致由以下公式得出:


微信圖片_20180606200452.jpg

另一方面,,值得注意的是一些技術(shù)在新測試集上有了持續(xù)的大幅提升,。例如,將 Cutout 數(shù)據(jù)增強(qiáng) [3] 添加到 shake_shake_64d 網(wǎng)絡(luò),在原始測試集上準(zhǔn)確率只增加了 0.12%,,而在新測試集上準(zhǔn)確率增加了大約 1.5%,。同樣,在 wide_resnet_28_10 分類器中添加 Cutout,,在原始測試集上準(zhǔn)確度提高了約 1%,,在新測試集上提高了 2.2%。在另一個(gè)例子里,,請注意,,增加 ResNet 的寬度而不是深度可以為在新測試集上的性能帶來更大的好處。


4.3 線性擬合模型


盡管圖 2 中觀察到的線性擬合排除了新測試集與原始測試集分布相同的可能性,,但新舊測試誤差之間的線性關(guān)系仍然非常顯著,。對此有各種各樣的合理解釋。例如,,假設(shè)原始測試集由兩個(gè)子集組成,。在「easy」子集上,分類器達(dá)到了 a_0 的精度,?!竓ard」子集的難度是κ倍,因?yàn)檫@些例子的分類誤差是κ倍,。因此,,該子集的精度為 1 ? κ(1 ? a_0)。如果這兩個(gè)子集的相對頻率是 p_1 和 p_2,,可以得到以下總體準(zhǔn)確率:

微信圖片_20180606200527.jpg


可以重寫為 a_0 的簡單線性函數(shù):


微信圖片_20180606200603.jpg

對于新的測試集,,研究者也假設(shè)有由不同比例的兩個(gè)相同分量組成的混合分布,相對頻率現(xiàn)在是 q_1 和 q_2,。然后,,可以將新測試集上的準(zhǔn)確率寫為:



微信圖片_20180606200623.jpg

此處像之前一樣把項(xiàng)集合成一個(gè)簡單的線性函數(shù)。


現(xiàn)在很容易看出,,新的準(zhǔn)確率實(shí)際上是原始準(zhǔn)確率的線性函數(shù):


微信圖片_20180606200647.jpg

研究人員注意到,,這種混合模型并不是一種真實(shí)的解釋,而是一個(gè)說明性的例子,,說明原始和新的測試準(zhǔn)確率之間的線性相關(guān)性是如何在數(shù)據(jù)集之間的小分布移位下自然產(chǎn)生的,。實(shí)際上,兩個(gè)測試集在不同的子集上具有不同準(zhǔn)確率的更復(fù)雜的組成,。盡管如此,,該模型揭示了即使分類器的相對排序保持不變,分布移位也可能存在令人驚訝的敏感性,。研究人員希望這種對分布偏移的敏感性能夠在之后的研究中得到實(shí)驗(yàn)驗(yàn)證,。


5. 解釋差異


為了解釋新舊準(zhǔn)確率之間的巨大差距,,研究人員探究了多種假設(shè)(詳見原文)。


統(tǒng)計(jì)誤差

近似重復(fù)移除的差異

超參數(shù)調(diào)整

檢測高難度圖像

在部分新測試集上進(jìn)行訓(xùn)練

交叉驗(yàn)證

微信圖片_20180606200708.jpg


表 2:交叉驗(yàn)證拆分的模型準(zhǔn)確率,。


6 討論


過擬合:實(shí)驗(yàn)是否顯示出過擬合,?這是解釋結(jié)果時(shí)的主要問題。簡單來說,,首先定義過擬合的兩個(gè)概念:


訓(xùn)練集過擬合,。過擬合的一個(gè)概念是訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率之間的差異。請注意,,本研究的實(shí)驗(yàn)中的深度神經(jīng)網(wǎng)絡(luò)通常達(dá)到 100% 的訓(xùn)練準(zhǔn)確率,。所以這個(gè)過擬合的概念已經(jīng)出現(xiàn)在已有數(shù)據(jù)集上了。

測試集過擬合,。過擬合的另一個(gè)概念是測試準(zhǔn)確率和潛在數(shù)據(jù)分布準(zhǔn)確率之間的差距,。通過使模型設(shè)計(jì)選擇適應(yīng)測試集,他們擔(dān)心的是這將隱性地使模型適應(yīng)測試集,。測試準(zhǔn)確率隨后失去了對真正未見過數(shù)據(jù)準(zhǔn)確性進(jìn)行測量的有效性,。


由于機(jī)器學(xué)習(xí)的整體目標(biāo)是泛化到未見過的數(shù)據(jù),研究者認(rèn)為通過測試集適應(yīng)性實(shí)現(xiàn)的第二種過擬合更重要,。令人驚訝的是,,他們的研究結(jié)果顯示在 CIFAR-10 并沒有這種過擬合的跡象。盡管在該數(shù)據(jù)集上具有多年的競爭適應(yīng)性,,但在真正的留出數(shù)據(jù)(held out data)上并沒有停滯不前,。事實(shí)上,在新測試集中,,性能最好的模型比更成熟的基線有更大的優(yōu)勢,。盡管這一趨勢與通過適應(yīng)性實(shí)現(xiàn)過擬合所暗示的相反。雖然最終的結(jié)果需要進(jìn)一步的復(fù)制實(shí)驗(yàn),,但研究者認(rèn)為他們的結(jié)果支持基于競爭的方法來提高準(zhǔn)確率,。


研究者注意到 Blum 和 Hardt 的 Ladder 算法分析可以支持這一項(xiàng)聲明 [1],。事實(shí)上,,他們表明向標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)競賽中加入一些小修改就能避免這種程度的過擬合,即通過激進(jìn)的適應(yīng)性導(dǎo)致過擬合,。他們的結(jié)果表明即使沒有這些修改,,基于測試誤差的模型調(diào)優(yōu)也不會(huì)在標(biāo)準(zhǔn)數(shù)據(jù)集上產(chǎn)生過擬合現(xiàn)象。


分布轉(zhuǎn)移(distribution shift),。盡管研究者的結(jié)果并不支持基于適應(yīng)性的過擬合假設(shè),,但仍需要解釋原始準(zhǔn)確率和新準(zhǔn)確率之間的顯著性差異。他們認(rèn)為這種差異是原始 CIFAR-10 數(shù)據(jù)集與新的測試集之間小的分布轉(zhuǎn)移造成的,。盡管研究者努力復(fù)制 CIFAR-10 數(shù)據(jù)集的創(chuàng)建過程,,但它和原始數(shù)據(jù)集之間的差距還是很大,,因此也就影響了所有模型。通??梢酝ㄟ^對數(shù)據(jù)生成過程中的特定變換(如光照條件的改變),,或用對抗樣本進(jìn)行攻擊來研究數(shù)據(jù)分布的轉(zhuǎn)移。本研究的實(shí)驗(yàn)更加溫和而沒有引起這些挑戰(zhàn),。盡管如此,,所有模型的準(zhǔn)確率都下降了 4-15%,對應(yīng)的誤差率增大了 3 倍,。這表明目前 CIFAR-10 分類器難以泛化到圖像數(shù)據(jù)的自然變化,。


論文:Do CIFAR-10 Classifiers Generalize to CIFAR-10?


微信圖片_20180606200731.jpg

論文地址:https://arxiv.org/abs/1806.00451


摘要:目前大部分機(jī)器學(xué)習(xí)做的都是實(shí)驗(yàn)性的工作,主要集中在一些關(guān)鍵任務(wù)的改進(jìn)上,。然而,,性能最好的模型所具有的令人印象深刻的準(zhǔn)確率令人懷疑,因?yàn)槎嗄陙硪恢笔褂孟嗤臏y試集來選擇這些模型,。為了充分了解其中的過擬合風(fēng)險(xiǎn),,我們通過創(chuàng)建一組新的真正未見過的圖像來測量 CIFAR-10 分類器的準(zhǔn)確率。盡管確保了新的測試集盡可能接近原始數(shù)據(jù)分布,,但我們發(fā)現(xiàn),,很多深度學(xué)習(xí)模型的準(zhǔn)確率下降很大(4% 到 10%)。然而,,具有較高原始準(zhǔn)確率的較新模型顯示出較小的下降和較好的整體性能,,這表明這種下降可能不是由基于適應(yīng)能力的過擬合造成的。相反,,我們認(rèn)為我們的結(jié)果表明了當(dāng)前的準(zhǔn)確率是脆弱的,,并且容易受到數(shù)據(jù)分布中微小自然變化的影響。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。