CVPR2022 | 重新審視池化:你的感受野不是最理想的

2022-06-08 09:01:34
前言 本文提出了一種簡單而有效的動態優化池操作( Dynamically Optimized Pooling operation),稱為DynOPool,它通過學習每一層感受野的最佳大小和形狀來優化特徵對映的端到端比例因子。
深度神經網路中任何型別的調整大小模組都可以用DynOPool操作以最小的成本替換。此外,DynOPool通過引入一個限制計算成本的附加損失項來控制模型的複雜性。

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

論文:https://arxiv.org/abs/2205.15254

程式碼:未釋出

背景

儘管深度神經網路在計算機視覺、自然語言處理、機器人、生物資訊學等各種應用中取得了前所未有的成功,但最優網路結構的設計仍然是一個具有挑戰性的問題。而感受野的大小和形狀決定了網路如何聚集本地資訊,並對模型的整體效能產生顯著影響。神經網路中的許多組成部分,例如用於折積和池化運算的核心大小和步長,都會影響感受野的設定。然而,它們仍然依賴於超引數,現有模型的感受野會導致形狀和大小不理想。

本文通過介紹固定大小和形狀的傳統感受野是次優的問題,討論了DynOPool如何通過CIFAR-100上的VGG-16玩具實驗解決這個問題。

 

固定大小和形狀的傳統感受野存在的問題:

1.不對稱分佈的資訊

最佳感受野形狀會根據資料集中固有的空間資訊不對稱性而改變。而大多數情況下固有的不對稱性是不可測量的。此外,通常用於預處理的輸入大小調整有時也會導致資訊不對稱。在人工設計的網路中,影象的長寬比經常被調整以滿足模型的輸入規格。然而,這種網路中的感受野不是用來處理操作的。

為了驗證所提出的方法,作者在CIFAR-stretch-V上進行實驗,如圖1(a)所示,相較於人工設計模型,形狀通過DynOPool動態優化的特徵對映通過在水平方向上提取更具有價值的資訊提高效能。

 

圖1 用來自CIFAR-100的三個不同的合成資料集進行玩具實驗:

(a)隨機裁剪垂直拉伸的影象 (b)在4×4網格中平鋪縮小的影象 (c)放大縮小的影象。

 

2.密集分佈或稀疏分佈資訊

區域性性是設計最優模型的組成部分。CNN通過級聯的方式聚合區域性資訊來學習影象的複雜表示。而區域性資訊的重要性很大程度上取決於每個影象的屬性。例如,當一個影象被模糊化時,大多數有意義的微觀模式,如物體的紋理,都會被抹去。在這種情況下,最好在早期層中擴充套件感受野,集中於全域性資訊。另一方面,如果一幅影象在區域性細節中包含大量類特定的資訊,例如紋理,則識別區域性資訊將會更加重要。

為了驗證假設,作者構建了CIFAR-100資料集的兩個變體,CIFAR-tile和CIFAR-large,如圖1(b)和(c)所示。作者模型在很大程度上優於人工設計的模型。

 

貢獻

為了緩解人工構建的體系結構和操作的次優性,作者提出了動態優化池操作(DynOPool),這是一個可學習的調整大小模組,可以替代標準的調整大小操作。該模組為在資料集上學習的操作找到感受野的最佳比例因子,從而將網路中的中間特徵圖調整為適當的大小和形狀。

論文的主要貢獻:

1、解決了深度神經網路中現有尺度運算元依賴於預定超引數的侷限性。指出了在中間特徵圖中尋找最佳空間解析度和感受野的重要性。

2、提出了一個可學習的調整尺寸大小的模組DynOPool,它可以找到中間特徵圖的最佳比例因子和感受域。DynOPool使用學習到的比例因子識別某一層的最佳解析度和感受野,並將資訊傳播到後續層,從而在整個網路中實現規模優化。

3、證明了在影象分類和語意分割任務中,使用DynOPool的模型在多個資料集和網路架構上優於基線演演算法。它還顯示了精度和計算成本之間的理想權衡。

 

方法

1.動態優化池(DynOPool)

圖2 DynOPool中的調整大小模組

模組通過優化一對輸入和輸出特徵對映之間的比例因子r來優化查詢點q的位置以及獲得中間特徵對映的最佳解析度。DynOPool在不影響其他運算元的情況下,自適應控制較深層接收域的大小和形狀。

圖3 DynOPool整個的優化過程

針對比例因子r梯度不穩定,會產生梯度爆炸導致訓練過程中解析度發生顯著變化的問題,使用a重新引數化r如下:

2.模型複雜性約束

為了最大化模型的精度,DynOPool有時會有較大的比例因子,增加了中間特徵圖的解析度。因此,為了約束計算代價,減少模型規模,引入了一個額外的損失項LGMACs,它由每次訓練迭代t的分層GMACs計數的簡單加權和給出,如下所示:

實驗

表1 人工設計模型與使用DynOPool模型的精度(%)和GMACs比較

圖4 在VGG-16上使用人工設計的Shape Adaptor與使用DynOPool的訓練模型視覺化。

表2 在CIFAR-100資料集上DynOPool和Shape Adaptor的比較

表3 在ImageNet資料集上EfficientNet-B0+DynOPool的效能

表4 基於PascalVOC的HRNet-W48語意分割結果

 

結論

作者提出了一種簡單而有效的動態優化池操作(DynOPool),它通過學習每個層中感受野的理想大小和形狀來優化端到端的特徵對映的比例因子,調整中間特徵圖的大小和形狀,有效提取區域性細節資訊,從而優化模型的整體效能;

DynOPool還通過引入一個額外的損失項來限制計算成本,從而控制模型的複雜性。實驗表明,在多個資料集上,該模型在影象分類和語意分割方面均優於基線網路。

------------------------------------------------------------------------------------

 

CV技術指南建立了一個計算機視覺技術交流群和免費版的知識星球,目前星球內人數已經600+,主題數量達到200+。

知識星球內將會每天釋出一些作業,用於引導大家去學一些東西,大家可根據作業來持續打卡學習。

技術群內每天都會發最近幾天出來的頂會論文,大家可以選擇感興趣的論文去閱讀,持續follow最新技術,若是看完後寫個解讀給我們投稿,還可以收到稿費。

另外,技術群內和本人朋友圈內也將釋出各個期刊、會議的徵稿通知,若有需要的請掃描加好友,並及時關注。

加群加星球方式:關注公眾號CV技術指南,獲取編輯微信,邀請加入。

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

 

徵稿通知:歡迎可以寫以下內容的朋友聯絡我。(掃描這個連結裡的二維條碼)
  1. TVM入門到實踐的教學
  2. MNN入門到實踐的教學
  3. 數位影像處理與Opencv入門到實踐的教學
  4. OpenVINO入門到實踐的教學
  5. libtorch入門到實踐的教學
  6. Oneflow入門到實踐的教學
  7. Detectron入門到實踐的教學
  8. caffe原始碼閱讀
  9. pytorch原始碼閱讀
  10. 深度學習從入門到精通(從折積神經網路開始講起)
  11. 最新頂會的解讀。例如最近的CVPR2022論文。
  12. 各個方向的系統性綜述、主要模型發展演變、各個模型的創新思路和優缺點、程式碼解析等。
  13. 若自己有想寫的且這上面沒提到的,可以跟我聯絡。
宣告:有一定報酬,具體請聯絡詳談。若有想法寫但覺得自己能力不夠,也可以先聯絡本人瞭解

其它文章

計算機視覺入門路線

CVPR2022 | 重新審視池化:你的感受野不是最理想的

CVPR 2022 | 未知目標檢測模組STUD:學習視訊中的未知目標

CVPR2022 | 基於排名的siamese視覺跟蹤

CVPR2022 | 通過目標感知Transformer進行知識蒸餾

CVPR2022丨無監督預訓練下的視訊場景分割

從零搭建Pytorch模型教學(六)編寫訓練過程和推理過程

從零搭建Pytorch模型教學(五)編寫訓練過程--一些基本的設定

從零搭建Pytorch模型教學(四)編寫訓練過程--引數解析

從零搭建Pytorch模型教學(三)搭建Transformer網路

從零搭建Pytorch模型教學(二)搭建網路

從零搭建Pytorch模型教學(一)資料讀取

一份熱力圖視覺化程式碼使用教學

一份視覺化特徵圖的程式碼

關於快速學習一項新技術或新領域的一些個人思維習慣與思想總結