CVPR2022 | 重新審視池化：你的感受野不是最理想的

前言本文提出了一種簡單而有效的動態優化池操作（ Dynamically Optimized Pooling operation），稱為DynOPool，它通過學習每一層感受野的最佳大小和形狀來優化特徵對映的端到端比例因子。
深度神經網路中任何型別的調整大小模組都可以用DynOPool操作以最小的成本替換。此外，DynOPool通過引入一個限制計算成本的附加損失項來控制模型的複雜性。

歡迎關注公眾號CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

論文：https://arxiv.org/abs/2205.15254

程式碼：未釋出

背景

儘管深度神經網路在計算機視覺、自然語言處理、機器人、生物資訊學等各種應用中取得了前所未有的成功，但最優網路結構的設計仍然是一個具有挑戰性的問題。而感受野的大小和形狀決定了網路如何聚集本地資訊，並對模型的整體效能產生顯著影響。神經網路中的許多組成部分，例如用於折積和池化運算的核心大小和步長，都會影響感受野的設定。然而，它們仍然依賴於超引數，現有模型的感受野會導致形狀和大小不理想。

本文通過介紹固定大小和形狀的傳統感受野是次優的問題，討論了DynOPool如何通過CIFAR-100上的VGG-16玩具實驗解決這個問題。

固定大小和形狀的傳統感受野存在的問題：

1.不對稱分佈的資訊

最佳感受野形狀會根據資料集中固有的空間資訊不對稱性而改變。而大多數情況下固有的不對稱性是不可測量的。此外，通常用於預處理的輸入大小調整有時也會導致資訊不對稱。在人工設計的網路中，影象的長寬比經常被調整以滿足模型的輸入規格。然而，這種網路中的感受野不是用來處理操作的。

為了驗證所提出的方法，作者在CIFAR-stretch-V上進行實驗，如圖1（a）所示，相較於人工設計模型，形狀通過DynOPool動態優化的特徵對映通過在水平方向上提取更具有價值的資訊提高效能。

圖1 用來自CIFAR-100的三個不同的合成資料集進行玩具實驗:

(a)隨機裁剪垂直拉伸的影象 (b)在4×4網格中平鋪縮小的影象 (c)放大縮小的影象。

2.密集分佈或稀疏分佈資訊

區域性性是設計最優模型的組成部分。CNN通過級聯的方式聚合區域性資訊來學習影象的複雜表示。而區域性資訊的重要性很大程度上取決於每個影象的屬性。例如，當一個影象被模糊化時，大多數有意義的微觀模式，如物體的紋理，都會被抹去。在這種情況下，最好在早期層中擴充套件感受野，集中於全域性資訊。另一方面，如果一幅影象在區域性細節中包含大量類特定的資訊，例如紋理，則識別區域性資訊將會更加重要。

為了驗證假設，作者構建了CIFAR-100資料集的兩個變體，CIFAR-tile和CIFAR-large，如圖1(b)和(c)所示。作者模型在很大程度上優於人工設計的模型。