論文:用於視訊超分的迴圈反向投影網路
文章檢索出處: 2019 CVPR
針對視訊超解析度問題,我們提出了一種新穎的體系結構。 使用迴圈編碼器/解碼器模組將連續視訊幀的空間和時間上下文進行整合,該模組將多幀資訊與目標幀的單幀超分網路融合在一起。 與大多數以前通過堆疊或扭曲將幀合併在一起的工作不同,我們的模型是迴圈反向投影網路(RBPN),將每個上下文幀視為單獨的資訊源。
這些源組合在一個迭代的框架中,該框架受多圖超分中反投影概念的啟發。通過顯式表示相對於目標的估計幀間運動,而不是顯式對齊幀。 我們提出了一個新的視訊超分基準,可以進行更大範圍的評估並考慮不同運動方式下的視訊。 實驗結果表明,我們的RBPN在多個資料集上均優於現有方法。
網路結構
RBPN的工作可分為三個階段:初始特徵提取、多次投影和重建。
初始特徵提取:在輸入 I t I_t It進入投影模組之前,將其對映為LR特徵 L t L_t Lt。對於每個相鄰幀 I t − k I_{t-k} It−k,將其與預先計算的 I t I_t It和 I t − k I_{t-k} It−k的密集運動流圖 F t − k F_{t-k} Ft−k和 I t I_{t} It一起串聯起來。然後將這個8個通道的影象對映到鄰居特徵張量 M t − k M_{t-k} Mt−k。
多次投影: 在這裡,我們通過整合SISR和MISR來提取目標幀中的缺失細節,然後生成精煉的HR特徵張量。 該階段接收 I t − k − 1 I_{t-k-1} It−k−1和 M t − k M_{t-k} Mt−k,並輸出HR特徵張量 H t − k H_{t-k} Ht−k。
重建:將所有的特徵圖串聯饋入到重構模組中。 S R t = f r e c ( [ H t − 1 , H t − 2 , . . . , H t − n ] ) {SR}_t = f_{rec}([H_{t-1},H_{t-2},...,H_{t-n}]) SRt=frec([Ht−1,Ht−2,...,Ht−n]),其中 f r e c f_{rec} frec為單折積層。
多次投影
RBPN的多重投影階段使用編碼器/解碼器模組的迴圈鏈。跨時間幀共用的投影模組有兩個輸入: L t − n − 1 ∈ R M l x N l x C l L_{t-n-1} \in \mathbb{R}^{M^l \mathsf{x} N^l \mathsf{x} C^l } Lt−n−1∈RMlxNlxCl和 M t − n ∈ R M l x N l x C m M_{t-n} \in \mathbb{R}^{M^l \mathsf{x} N^l \mathsf{x} C^m } Mt−n∈RMlxNlxCm,然後產生兩個輸出: L t − n L_{t-n} Lt−n和 H t − n ∈ R M h x N h x C h H_{t-n} \in \mathbb{R}^{M^h \mathsf{x} N^h \mathsf{x} C^h } Ht−n∈RMhxNhxCh其中 c l , c m , c h c^l,c^m,c^h cl,cm,ch是相應圖的通道數。
編碼器會產生從投影到特定鄰居幀的估計HR特徵的隱藏狀態。
解碼器解密相應的隱藏狀態,作為編碼器模組的下一個輸入。
baseline:
消融實驗:
量化評估:
僅供學習使用,請勿轉載。