近日,CVPR 2022放榜,基於昇騰CANN的AI論文《Interactive Image Synthesis with Panoptic Layout Generation》強勢上榜。這為AI發燒友們開闢了一條新的影象生成之路隨手選擇幾個類別的基礎元素,並做大小和位置的拖動,便能自動生成一副攝影作品,堪比專業攝影師!
CVPR全稱IEEE Conference on Computer Vision and Pattern Recognition,是計算機視覺領域三大頂會之一,並且是唯一一個年度學術會議。在快速更新迭代的計算機學科中,CVPR已然成為了計算機視覺領域的「頂流」。
本論文基於互動式的影象生成,提出基於全景佈局(Panoptic Layout)輔助影象生成的方法,即PLGAN(Panoptic Layout Generation)演演算法,提高了互動場景下生成影象的品質及其穩定性。該論文在COCO-Stuff和VG兩個公開資料集和自行收集的Landscape風景資料集上,進行了實驗驗證並取得了很好的效果。目前已經在華為Atlas系列伺服器上實現了該演演算法,其配備了昇騰AI處理器提供算力支援,並藉助異構計算架構CANN(Compute Architecture for Neural Networks)充分釋放硬體澎湃算力,發揮極致AI效能。
論文地址:
大多數互動式影象生成方法,都採用生成影象佈局(Layout)為中間結果,來輔助最終的影象合成(例如 Grid2Im [1])。為了解決互動場景下影象生成品質穩定性問題,我們從影象佈局(Layout)構建入手。通常的影象佈局(Layout)有逐畫素填充的語意圖層(例如GauGAN),還有基於Bounding Box的範例影象佈局(Instance Layout)。
語意圖層在空間佈局上逐畫素對應生成的影象,可以很好的控制需要合成的影象,但其構建比較複雜,因此大多數多模態影象生成和互動場景採用範例影象佈局(Instance Layout)。然而,範例影象佈局(Instance Layout)本質上是採用由不同物體的位置方框(Bounding Box)和形狀(Mask)組合而成的,不同物體的位置方框(Bounding Box)之間和形狀邊緣的不匹配,都會出現影象佈局填不滿的情況,在使用者互動的場景下尤其明顯,這使得以此為條件的條件生成模型,在最終生成影象中出現偽影和噪聲,如圖1所示。因此構建一個可以解決此「區域缺失」問題的影象佈局(Layout),是我們所關注的重點。
Figure 1. Scene-to-image synthesis by Grid2Im [1] vs. PLGAN
針對上述問題,引入全景分割[3]的概念,提出了基於全景佈局(Panoptic Layout)的影象合成方法。在全景分割問題中[3],將物體類別分為了可數類(things)和不可數類(stuff),其中可數類(things)指有特定形狀的前景類別,不可數類(stuff)指沒有特定形狀的背景類別。因此引入此概念,將通常的範例佈局(Instance Layout)構建過程中分為Instance分支和Stuff分支分別處理可數類(things)和不可數類(stuff),如下圖所示。
Figure 2. Overview of the PLGAN architecture
Instance分支採用通常的做法,先同時生成位置方框和形狀,然後將其組合成範例佈局(Instance Layout)。對於Stuff分支則使用全新的做法,直接生成填充佈局(Stuff Layout),由於此結果是直接由模型通過Softmax層得到,其在整個影象空間上,不會有空缺部分,以此來解決「區域缺失」問題。因為對於不可數類別,其形狀也不是固定的,這種整體生成的方式對於類別識別來說,不會帶來很大的影響。分別生成的兩個佈局,可以通過ISA-Norm層來聚合到一起,形成最後的佈局(Layout)。從佈局(Layout)到最終的影象生成,我們採用SOTA模型CAL2I[2]方法,得到最終的合成影象。
Figure 3. Illustration of Instance- and Stuff-Aware Normalization.
在實驗設計上,採用對公開資料集的標註資訊做擾動的方式,模擬互動式場景下的輸入,在指標和視覺對比上,都得到了SOTA(state of the art)水平,尤其在輸入擾動的情況下,生成影象的品質更加穩定。
Figure 4. Visual comparison between sample images generated from perturbed BBoxes (Pert BBoxes) on the COCO-Stuff dataset
Figure 5. Visual comparison between instance layouts and panoptic layouts on the COCO-Stuff dataset
昇騰社群(hiascend.com)同步上新基於該論文的AI試玩應用,小夥伴們在給定的畫布中,可以選擇任意元素,大海、沙灘、天空,隨心拼接拆合,然後通過華為Atlas 200 DK推理,可實時生成獨一無二的真實AI風景畫,掃描下方二維條碼即刻體驗。
參考文獻
[1] Oron Ashual and Lior Wolf. Specifying object attributes and relations in interactive scene generation. In Proceedings of the IEEE International Conference on Computer Vision, pages 4561–4569, 2019.
[2] Sen He, Wentong Liao, Michael Yang, Yongxin Yang, Yi-Zhe Song, Bodo Rosenhahn, and Tao Xiang. Context-aware layout to image generation with enhanced object appearance. In CVPR, 2021.
[3] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Doll´ar. Panoptic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019.