一種基於Transformer和混合特徵提取器的紅外與可見光影象融合網路
研究方法:
網路是一個端到端的架構,框架包括三個部分:折積神經網路模組(CNN-module)、Vision Transformer模組(VIT-module)和影象重建模組。 前兩個模組稱為混合塊,即混合特徵提取器。
折積神經網路模組(CNN-module):由細節分支和結構分支兩部分組成。
Vision Transformer模組:有空間transformer和通道transformer兩部分組成。如下圖
影象重建模組: 因為前面影象的大小沒有進行下取樣,所以重建的時候不需要上取樣,只要把影象的通道維度降下來。影象重建器設定了四個折積層,輸入特徵數為64個,每層折積後的特徵通道數為64、32、16、8和1。 每個折積層的核大小為3 3,步幅為1。 為了保持特徵的大小不變,我們使用反射模式來填充影象。
損失函數由畫素損失和感知損失兩部分組成。
畫素損失:由三部分組成,其中LMSE是均方誤差(MSE)損失函數。LSSIM表示結構相似度(SSIM)損失函數。LTV表示總方差(TV)損失函數。
p,q是影象某一點的座標,R(p,q)是融合影象與源影象之間的畫素強度差值,R(p+1,q)和R(p,q+1)是臨近點。通過約束融合影象這一點和臨近點的差值,來保留原影象的梯度資訊,並且抑制噪聲資訊。
畫素損失無法代替感知損失。 例如,兩個相距僅幾個畫素的相同影象,儘管在感知上相似,但當按每個畫素的損失來衡量時,可能會有很大的不同。或者畫素損失不大,但是影象感知差別很大。
我們通過兩個影象特徵圖中的語意資訊來判斷兩個影象的最後的感知,所以我們要從特徵圖入手,上面畫素損失沒有考慮到特徵圖的畫素的重要性。
感知損失:使用預訓練的VGG19網路去提取(融合影象,源影象)多尺度的特徵。主要是想用兩個特徵的語意資訊來確定兩個特徵的感知資訊,進而確定兩個影象的感知資訊。
融合影象和可見光影象的感知損失: 使用提取的相對淺層特徵(第一層)進行計算,由於淺層特徵包含較多的結構資訊和細節資訊。
計算融合影象與紅外影象的感知損失: 使用深層次的特徵(第四層)來計算。因為紅外影象中由更多的顯著特徵,語意資訊。
提出了一種基於VIT和折積神經網路的紅外與可見光影象融合方法。 由於我們的網路是端到端的型別,所以不需要對融合結果進行後期處理。 混合塊整合了CNN-模組和VIT-模組,雙分支CNN-模組具有更強的特徵提取能力。 VIT-module的加入使網路能夠同時考慮影象的區域性資訊和全域性資訊,避免了傳統CNN網路遠端依賴性差的問題。 另外,我們利用預訓練的VGG19網路提取不同的特徵來計算損失,有針對性地保留不同型別的影象資訊。
影象融合的最終目的是與其他計算機視覺任務相結合並使之更好,因此我們接下來將嘗試在其他計算機視覺任務的驅動下利用影象融合來改善原有的結果。
雖然本文的重點是紅外和可見光影象融合,但本文提出的網路可以用於其他影象融合領域。 今後我們將嘗試將該方法應用於多曝光和醫學影象融合。
貢獻點
提出了一種混合特徵提取器,將雙分支CNN和VIT相結合,實現了影象區域性資訊和全域性資訊的同時提取。
對VIT的網路結構進行了改進,使其更適合於影象融合。 另外,將transfomer使用在影象的通道維度上。
設計了一個有針對性的感知損失函數。 通過計算不同深度特徵的損失,融合影象可以保留更多的紋理細節和顯著資訊。
參考原文:https://www.x-mol.com/paper/1613633839666642944?adv