人類學習本質上是多模態 (multi-modal) 的,因為聯合利用多種感官有助於我們更好地理解和分析新資訊。理所當然地,多模態學習的最新進展即是從這一人類學習過程的有效性中汲取靈感,建立可以利用影象、視訊、文字、音訊、肢體語言、面部表情和生理訊號等各種模態資訊來處理和連結資訊的模型。
自 2021 年以來,我們看到大家對結合視覺和語言模態的模型 (也稱為聯合視覺語言模型) 的興趣越來越濃,一個例子就是 OpenAI 的 CLIP。聯合視覺語言模型在非常具有挑戰性的任務中表現出了讓人眼前一亮的能力,諸如影象標題生成、文字引導影象生成、文字引導影象操作以及視覺問答等。這個領域在不斷髮展,其零樣本泛化能力也在不斷改進,從而產生了各種實際應用。
本文,我們將介紹聯合視覺語言模型,重點關注它們的訓練方式。我們還將展示如何利用