RFN-Nest_ An end-to-end residual fusion network for infrared and visible images 論文解讀

RFN-Nest 2021

研究

影象融合分為三步：特徵提取，融合策略，影象重建。

當前端到端的影象融合方法：基於GAN的、還有本文提出的

研究背景：當前設計的融合策略在為特定任務生成融合影象方面是比較困難的。

研究目的：提出一種基於可以學習的融合網路架構（RFN）來實現端到端的影象融合方法(RFN-Nest)。

研究方法：

使用基於殘差架構的殘差網路結構(RFN)來取代傳統融合方法。

使用一種新穎的細節保留損失函數和特徵增強損失函數來訓練RFN。

使用新穎的兩階段訓練策略來完成融合模型的學習。（第一階段訓練自編碼器（帶有Nest），第二階段使用損失函數來訓練RFN）

主要貢獻：

提出了一種可學習的融合網路來取代傳統手工設計融合策略，整體網路變成端到端。

設計了兩階段的訓練策略。先把自編碼器的特徵提取和特徵重建能力訓練好，然後再訓練提出的殘差融合網路結構RFN。

設計了新的損失函數（包括影象細節損失函數和特徵增強損失函數）來訓練RFN（可以保持更多的細節和特徵）。

本文提出的融合方法在公共資料集和上達到了更好的結果（相比於其他主流的融合方法）。

網路結構

整體結構

網路包含三個方面：編碼器、殘差融合網路RFN（用來提取某個尺度的融合特徵的深層次特徵）、解碼器（基於Nest連線）。

編碼-解碼器表現非常強大的特徵提取能力和特徵重建能力，由於RFN是可學習的結構。因此使用兩階段的訓練策略來訓練網路。

設計一種新的損失函數L（RFN）來訓練提出的RFN網路，可以有效保證可見光影象的細節資訊，同時保持紅外影象的顯著特徵。

整體流程：首先將紅外影象和可見影象作為輸入，編碼器可以提取多尺度特徵（淺層深層）。然後RFN會對每個尺度提供的特徵進行特徵融合並對融合特徵進行更深的提取。最後多個RFN將不同尺度的融合特徵送到解碼器中。基於Nest連線的解碼器充分利用多尺度結構的融合特徵來重建融合影象。

RFN（Residual fusion network）

RFN由6個折積層組成，輸入是編碼器某一尺度(m=1，2，3，4）提取的紅外影象特徵和可見影象特徵。輸出是這一尺度的融合特徵。

經過conv1和conv2將兩種特徵串聯起來然後作為後面的輸入（深層RFN保留顯著特徵）。conv6直接將兩種特徵融合（淺層RFN保留影象細節）。

解碼器（Nest）

左邊是負責不同尺度的RFN產生的融合特徵。DCB是折積塊，包含兩個折積層。每一行都有短連線（類似密集連線）。不同行通過跨層連線（將解碼器中多尺度深層特徵連線起來）。

兩階段訓練策略

1.訓練一個自動編碼器網路來重建輸入影象。

編碼器提取輸入影象的多尺度深層特徵，基於Nest的解碼器根據多尺度深層特徵重建輸入影象。在自動編碼器的過程中，使用L(auto)損失函數。

L(auto) = L(pixel) + &L(ssim)

等式右邊分別是畫素損失和結構相似性損失。

L(pixel) = || O - I ||F ^2

(輸出影象畫素 - 輸入影象畫素) 進行範數操作（|| || F^2）。

L(ssim) = 1 - SSIM(O,I)

SSIM是計算輸出影象與輸入影象的結構相似性，SSIM值越大，L(ssim)值越小，代表輸入輸出影象越一致。

2.向自編碼器中加入RFN，固定自編碼器網路的引數等等，使用合適的損失函數訓練RFN。

第一階段訓練的編碼器網路去提取兩個源影象的多尺度深度特徵
一個RFN負責一個尺度的深度特徵，並將深度特徵融合。

設計一個新的損失函數L(RFN)去訓練RFN L(RFN) = & L(detail） + L(feather)

L(detail）表示背景細節保留損失函數，L(feather)表示目標特徵增強損失函數。

大多數背景資訊來自可見光影象。因此L(detail）是針對輸出影象和可見光影象。

L(detail）= 1 - SSIM（O, I(vi)） I(vi)表示輸入的可見光影象

L(feather)可以去約束融合的深度特徵來保留紅外影象顯著結構。 W(vi) 和W(ir)可以控制融合特徵與可見光特徵和紅外特徵的相關影響。通過調節W(vi) 和W(ir)來控制融合資訊中的顯著特徵。M(這裡是4)是不同尺度的數量。W1是一個向量，可以平衡損失幅度。

首先詳細介紹訓練階段和測試階段的實驗設定之後，進行消融實驗，對最後與其他方法進行定性比較。

訓練階段和測試階段，都是將資料集中的影象轉到灰度影象並reshape大小後，進行實驗。使用6個指標進行方法評估，熵（En）、標準偏差（SD）、互動資訊（MI）、融合偽影測量（Nabf）、差異相關性總和（SCD）、多尺度結構相似性（MS-SSIM）。

消融實驗

L（detail）和 L（feature) 的消融實驗：通過設定&=0 或者& = 700 來控制L（detail）是否存在，對實驗結果的影響。

通過實驗發現 & = 700時候 Wir = 6.0 和 Wvi = 3.0 時候實驗效果比較好。

&取值的消融實驗：由上一條可知& != 0 實驗效果更好，這個實驗來確定&具體取哪些值會更好。通過實驗發現 & = 700達到最好的實驗效果。

兩階段訓練策略的消融實驗

本文采取的是兩階段的訓練策略，通過消融實驗來說明為什麼採取兩階段的訓練策略。

一階段的訓練意味著編碼器、解碼器、RFN同時訓練。結構如下圖所示

兩階段訓練是先訓練編碼器-解碼器結構、再固定自編碼器來訓練RFN結構。如下圖所示。

一階段與兩階段除訓練步驟不同以外，採取所有相同的設定進行比較。

通過結果可以看到兩階段訓練達到的實驗效果比一階段實驗效果好。原因如下：

1.編碼器和解碼器在使用一階段訓練策略進行設計時可能不具有理想的特徵提取和重建能力。（自我感覺，應該是自編碼器與RFN一塊訓練可能不具有良好特徵提取和重建能力，要不兩階段訓練策略的第一階段為什麼是訓練自編碼器來獲取特徵提取和重建能力）

2.更重要的是，由於RFN是我們融合網路中的關鍵，因此應仔細訓練它以獲得良好的融合效能。所以採取兩階段訓練。

Nest connection的消融實驗

本文采用的是帶有Nest的解碼器，通過對Nest connection的消融實驗來對比有無Nest的實驗效果。除了有無Nest其它一切都相同。

由下表可知，帶有Nest的實驗效果比不帶Nest的實驗效果更好。

融合策略的消融實驗

本文采用的是基於RFN（基於殘差的可學習的融合網路）融合策略，通過和其他手工設計的融合策略進行比較。

「add」: 提取的源特徵進行相加得到融合特徵。（紅外源特徵與可見光影象特徵，下面也是）

"max": 源特徵中每個元素中選擇最大的值作為融合特徵。

"L1-norm": 根據L1範數計算權重，源影象特徵*權重相加得到融合特徵。

"L*-norm": 計算深度特徵的全域性池化操作中涉及的矩陣的奇異值之和，以獲得融合權值。

「SCA」：使用的空間/通道注意力融合策略。用