當(dāng)前的分類模型泛化到新數(shù)據(jù)時總會有不同程度的準(zhǔn)確率下降,,傳統(tǒng)觀點認(rèn)為這種下降與模型的適應(yīng)性相關(guān),。但本文通過實驗證明,準(zhǔn)確率下降的原因是模型無法泛化到比原始測試集中更難分類的圖像上,。
機器學(xué)習(xí)的首要目標(biāo)是生成泛化模型,。我們常通過測量模型在測試集上的性能來量化模型的泛化能力。在測試集上的良好性能是指什么,?至少在遵循相同的數(shù)據(jù)清理協(xié)議時,,模型在由相同數(shù)據(jù)源組成的新測試集上也能表現(xiàn)良好。
在本文中,,研究人員通過復(fù)制兩個重要基線數(shù)據(jù)集(CIFAR-10 和 ImageNet)的創(chuàng)建過程來實現(xiàn)這一實驗。與理想結(jié)果相反,,他們發(fā)現(xiàn)很多分類模型未能達(dá)到其原始的準(zhǔn)確率分?jǐn)?shù),。CIFAR-10 的準(zhǔn)確率下降了 3%~15%,ImageNet 的準(zhǔn)確率下降了 11%~14%,。在 ImageNet 上,,損失的準(zhǔn)確率大概需要機器學(xué)習(xí)研究高度活躍時期五年的進(jìn)步來彌補。
傳統(tǒng)觀點認(rèn)為,出現(xiàn)這種下降的原因是模型已經(jīng)適應(yīng)了原始測試集中的特定圖像,,例如,,通過廣泛的超參數(shù)調(diào)整。然而,,本文的實驗表明,,模型的相對順序在新測試集上幾乎保持不變:在原始測試集上具有最高準(zhǔn)確率的模型仍然是新測試集上具有最高準(zhǔn)確率的模型。而且,,準(zhǔn)確率方面也沒有遞減,。實際上,原始測試集上的準(zhǔn)確率每提高一個百分點都意味著新測試集上更大的改進(jìn),。因此,,雖然后來的模型本可以更好地適應(yīng)測試集,但它們的準(zhǔn)確率下降較小,。實驗結(jié)果證明,,全面的測試集評估是改進(jìn)圖像分類模型的有效方法。因此,,自適應(yīng)性不太可能是準(zhǔn)確率下降的原因,。
相反,研究人員基于原始和新測試集的相對難度提出了另一種解釋,。他們證明,,如果新數(shù)據(jù)集只包含候選池中最簡單的圖像,幾乎可以完全恢復(fù)原始的 ImageNet 準(zhǔn)確率,。這表明即使是最好的圖像分類器,,其準(zhǔn)確率分?jǐn)?shù)也對數(shù)據(jù)清理過程的細(xì)節(jié)高度敏感。它還表明,,即使在精心控制的重復(fù)性實驗的良性環(huán)境中,,目前的分類器仍然不能可靠地泛化。
圖 1 顯示了實驗的主要結(jié)果,。為了支持未來研究,,研究人員還發(fā)布了新的測試集和相應(yīng)的代碼。
圖 1:在原始測試集和新測試集上的模型準(zhǔn)確率,。每個數(shù)據(jù)點對應(yīng)于測試平臺中的一個模型(顯示為 95%的 Clopper-Pearson 置信區(qū)間),。該圖揭示了兩個主要現(xiàn)象:1)從原始測試集到新測試集的準(zhǔn)確率明顯下降。2)模型準(zhǔn)確率遵循斜率大于 1 的線性函數(shù)(CIFAR-10 為 1.7,,ImageNet 為 1.1),。這意味著原始測試集上的每個百分點的改進(jìn)會轉(zhuǎn)換為新測試集上超過一個百分點的改進(jìn)。從上圖可以直觀地對比兩邊的斜率,。紅色區(qū)域是 10 萬個 bootstrap 樣本線性擬合的 95%置信區(qū)域,。
論文:Do ImageNet Classifiers Generalize to ImageNet?
論文地址:http://people.csail.mit.edu/ludwigs/papers/imagenet.pdf
摘要:我們?yōu)?CIFAR-10 和 ImageNet 數(shù)據(jù)集構(gòu)建了新的測試集,。這兩個基準(zhǔn)測試集近十年來一直是研究的焦點,增加了過度重復(fù)使用測試集的風(fēng)險,。通過密切關(guān)注原始數(shù)據(jù)集創(chuàng)建過程,,我們測試了當(dāng)前分類模型泛化到新數(shù)據(jù)的程度。我們評估了大量模型,,發(fā)現(xiàn)在 CIFAR-10 上的準(zhǔn)確率下降了 3%~15%,,在 ImageNet 上的準(zhǔn)確率下降了 11%~14%。但是,,原始測試集上準(zhǔn)確率的改進(jìn)能夠為新測試集帶來更大的改進(jìn),。結(jié)果表明,準(zhǔn)確率下降不是由適應(yīng)性造成的,,而是由于模型無法泛化到比原始測試集中更難分類的圖像上,。
實驗總結(jié)
可重復(fù)性實驗的主要步驟如下。附錄 B 和 C 詳細(xì)地描述了此方法,。第一步是選擇信息性數(shù)據(jù)集,。
表 1:原始 CIFAR-10 測試集、原始 ImageNet 驗證集和新測試集上的模型準(zhǔn)確率,。ΔRank 是所有模型完整排序中從原始測試集到新測試集的排名相對差異(參見附錄 B.3.3 和 C.4.4),。例如,ΔRank= -2 意味著與原始測試集相比,,新測試集上的模型下降了兩名,。置信區(qū)間為 95%的 Clopper-Pearson 區(qū)間。由于篇幅限制,,模型的參考資料見附錄 B.3.2 和 C.4.3,。
表 2:三種采樣策略對 ImageNet 測試集的影響。該表顯示了結(jié)果數(shù)據(jù)集中的平均 MTurk 選擇頻率,,以及與原始驗證集相比模型準(zhǔn)確率的平均變化,。所有三個測試集的平均選擇頻率都超過 0.7,但模型準(zhǔn)確率仍然相差很大,。相比之下,,在 MTurk 實驗中,原始 ImageNet 驗證集的平均選擇頻率為 0.71,。在 top-1 和 top-5 中,,平均準(zhǔn)確率的變化分別為 14%和 10%。這表明采樣策略的細(xì)節(jié)對結(jié)果的準(zhǔn)確率有很大影響,。
圖 2:原始 ImageNet 驗證集上的模型準(zhǔn)確率 vs. 新測試集的兩個變體上的準(zhǔn)確率,。每個數(shù)據(jù)點對應(yīng)于測試平臺中的一個模型(顯示為 95%的 Clopper-Pearson 置信區(qū)間)。閾值為 0.7 時,,模型準(zhǔn)確率比在原始測試集上低了 3%,。在 MTurk 工作人員最常選擇圖像的 TopImages 上,模型的性能比在原始測試集上提高了 2%,。兩個數(shù)據(jù)集的準(zhǔn)確率都遵循線性函數(shù)規(guī)律,,類似于圖 1 中的 MatchedFrequency。紅色陰影區(qū)域是 10 萬個 bootstrap 樣本線性擬合的 95%置信區(qū)域,。