Very deep convolutional networks for large-scale image recognition(VGG)

一.abstract

本論文架構是依序著alexnet的理念修改而來，當時alex說由於顯卡記憶體不夠因此卷積網路因而受限不能加深，經過兩三年後顯卡規格提升了因此VGG就是在測試網路的極限，論文中總共實驗了六個模型，每一個模型的架構都與前一個有些許不同，效果也是些許的好一點，一直到最後兩個模型D、E是效果表現最好的，這也是當今仍然盛行的網路VGG16和VGG19，從這篇論文可以得知的結論就是–用多層的小卷積核會比用少層的大卷積核效果還要好，且計算參數也少得許多，這是文中一直強調的重點，且文中處處透露著與當時最好的模型(googlenet-inception v1)比較的言論，一直強調模型很簡單，不像google net還要改結構，且誤差率只差google net一兩趴而已。

二.main idea

用多層的小卷積核會比用少層的大卷積核效果還要好
作者舉一個例子，假設有一個7X7的卷積核，輸入和輸出通道都以C表示，那麼一層卷積層的參數量即是$49C^2$，如果用小卷積核33來構成三層網路那麼也才只要$3(3^2C^2)=27C^2$，不但遠少於大卷積核的參數甚至準確率也提升許多。

三.structure

六種結構非常簡單明瞭，從左到右的效果是由壞至好，黑色粗體的結構就是和前者的比較，其中A-LRN是作者為了證明加入LRN有沒有比較好，結果證實是沒有。

四.result

作者一直在重複實驗網路加深法，一直到19層的時候作者就說沒什麼大的改進了，作者認為或許在更多的資料集訓練的話或許繼續加深還有可以提升的空間。
作者也提到最近很流行1*1的小卷積核，實驗C和D就是在比較到底是1*1比較好還是3*3比較好，實驗證實是3*3比較好。

Darwin的小小AI天地