Feature Pyramid Network for Object Detection
1.abstract:
本篇論文是當時coco競賽中最好的結果,所利用的只是加上一個top-down的架構並且和前面的feature map做個結合的動作即可取到相當不錯的結果(下圖d)。
2.main idea
底下這張圖闡述了本篇論文最核心的思想。
- 圖(a)
金字塔架構的特徵萃取方式是從傳統演算法SIFT/Harr/HoG就已經大量使用方法(如圖a),主要就是利用各種不同特徵層來提高影像辨識效率,但從前的方法都是手工選取的,而如今主流DL方法是能把這些特徵層經由大量的資料來自動學習。 - 圖(b)
剛開始的演算法如同faster-rcnn等只取最高層的特徵 - 圖©
SSD 是最先運用金字塔架構來提升預測準確度的其中一種模型,但是SSD是從中間以及後面自行增加幾層新的特徵層來做預測並沒有充分利用底層高分辨率(high resolution)的特徵層來辨識,這些特徵層對小物體的辨識至關重要 - 圖(d)
因此,本篇論文就提出了新加入top-down的網路架構,利用反卷積的方式製造出與前一層feature map形狀一樣的特徵層,然後再把左右兩邊的特徵層合在一起,這麼做的好處是可以既利用高層的語意特徵又結合低層高分辨率的特徵,從而提高準確率
3.experiments
How important is top-down enrichment?
由下表的(d)可以看出少了top-down的模型在大物體偵測的實驗有良好表現,但小物體就較欠佳了
How important are lateral connections?
論文中表示top-down的網路架構雖然有高語意訊息與高分辨率訊息存在,但由於經由太多層卷積層以至於精確的特徵座標位置移失了,因此需要結合bottom-up的feature map才能提高準確度。表格中的©和(e)相比即可發現有加lateral網路比沒加的多了10個百分點
How important are pyramid representations?
在金字塔的最後一層P2擁有高分辨率以及高語意訊息等特性,因此作者嘗試將所有的anchor都放置在金字塔的最後一層。經由實驗(f)發現效果並沒有比較好,因此顯示出金字塔特徵層的重要性
參考資料:
https://zhuanlan.zhihu.com/p/36461718
https://blog.csdn.net/u011974639/article/details/78244743
https://zhuanlan.zhihu.com/p/35854548