一文詳解多模態認知智慧

摘要：多模態認知智慧是AI人工智慧當前發展的主流趨勢之一，其核心是以多模態知識的獲取，表示與推理為主要內容的跨模態知識工程與認知智慧，也是為了更好的處理多模態的資料，需要融合多種感知模態和智慧處理技術。

本文分享自華為雲社群《GPT-4釋出，AIGC時代的多模態還能走多遠？系列之三：多模態認知智慧》，作者：碼上開花_Lancer。

上兩篇文章介紹了AIGC未來已來和AIGC的阿克琉斯之踵，瞭解到AIGC當前的發展趨勢和當前的一些不足之處，接下來給大家介紹AIGC時代的多模態技術的發展。

多模態認知智慧是AI人工智慧當前發展的主流趨勢之一，其核心是以多模態知識的獲取，表示與推理為主要內容的跨模態知識工程與認知智慧，也是為了更好的處理多模態的資料，需要融合多種感知模態和智慧處理技術。

01 多模態認知智慧：研究框架

多模態認知智慧是一種融合多種感知模態和智慧處理技術的人工智慧，旨在建立更加豐富、靈活和可信賴的人機互動平臺。為此，需要研究一套完整的多模態認知智慧研究框架，該框架應包含以下幾個方面：

跨模態搜尋：對於使用者輸入的問題或查詢，系統能夠同時從不同型別的媒介（包括文字、圖片、視訊、聲音等）中檢索相關資訊，並將查詢結果進行融合。
跨模態推薦：根據使用者的興趣偏好和歷史行為，系統可以向用戶推薦各種型別的內容，包括文章、音樂、電影、商品等，同時也能夠將推薦內容進行個性化客製化，提高使用者的滿意度。
跨模態問答：對於使用者提出的問題，系統能夠通過多種途徑獲取相關資訊並進行自動回答。例如，使用者可以通過文字或語音提出問題，系統會自動識別問題的語意和意圖，並給出答案或建議。
跨模態生成：系統能夠根據使用者需求，自動生成各種型別的內容，包括文字、音訊、視訊、影象等。例如，系統可以根據使用者提供的關鍵詞生成一段語音介紹、一張圖片、一份文章等。
多模態知識應用：系統能夠通過自動學習和知識圖譜等技術，從多種知識源中獲取資訊，並進行多模態應用。例如，系統可以將影象、文字和語音等不同型別的資訊進行連結和融合，實現多模態資訊展示和分析。這些組成部分相互交織，形成了一個完整的多模態認知智慧研究框架的基礎。在實際應用中，多模態認知智慧技術可以應用於各種領域，包括智慧客服、智慧家居、智慧醫療、智慧交通等。可以預見的是，未來多模態認知智慧技術將會不斷髮展，為人類的生產和生活帶來更多的便利和創新。

（多模態認知智慧研究框架，圖片來自網路）

02 多模態認知智慧：兩種實現路徑

我們明白多模態認知智慧研究框架以後，對於多模態認知智慧，它是怎麼樣實現的呢？

多模態大模型是一種連線主義和經驗主義相結合的實現路徑。它的核心思想是利用海量預訓練資料來構建一個大規模的神經網路模型，能夠自動學習和提取多模態資料中的特徵和關係，並實現對多種語言、影象、音訊等多種形式的資訊進行聯合理解。該方法具有概率關聯、簡單魯棒等優點，但在學習邏輯關係等方面仍有侷限性。多模態知識工程則是一種符號主義的實現路徑，主要依賴專家系統和知識圖譜等手段，通過對精選資料和專家知識的整合和轉化，將其轉換成符號知識，實現對多模態資料的解析和分析。該方法具有易推理、可控、可干預、可解釋等特點，但在資訊損失方面存在一定的問題。綜合來看，多模態大模型和多模態知識工程各有優缺點，需要根據應用場景和需求進行選擇和設計。在未來的研究中，我們需要進一步探索如何更好地結合兩種實現路徑，充分利用它們各自的優勢，實現多模態認知智慧的高效、準確和可解釋性。資料轉換成符號知識的過程往往伴隨著巨大的資訊損失，隱性知識、難以表達的知識是損失資訊中的主體, 在AIGC大模型時代，多模態知識工程依然不可或缺。

（以上圖來自網路）

03 多模態知識圖譜（MMKG）：兩種主流形式

多模態知識工程中有一種常用的方法是利用知識圖譜，這種方法被稱為多模態知識圖譜（MMKG）。與傳統知識圖譜不同，MMKG以多模態資料作為源頭，從多方面描述實體和關係，構建出一個可以跨越多模態的知識體系。在MMKG中，多模態資料不僅僅作為文字元號實體的關聯屬性存在，還可以作為圖譜中的實體存在，可與現有實體發生廣泛關聯。 MMKG的優勢在於它能夠消除多模態資料的異構性，將它們有機地結合在一起，使得系統能夠實現對多模態資料的更加全面和深入的理解。同時，MMKG也能夠提高資料的可發現性和可重用性，使得資料共用變得更加容易。

在實際應用中，例如，假設你需要在家裡搭建一套智慧家居系統，這個系統需要支援語音控制、自動化定時等多種功能。那麼，在建設過程中，MMKG就可以幫助系統對運作環境、裝置狀態、使用者需求等方面的多模態資料進行綜合分析和優化，從而提高系統的智慧性、可靠性和適應性。另一個具有代表性的例子是醫療領域的智慧輔助診斷系統。這類系統會收集包括醫學影像、實驗室檢查、文字記錄等形式的多模態資料，利用MMKG進行知識關聯、特徵提取和預測策略優化等任務。通過這種方式，系統可以在醫生與病人之間架起一座智慧化的橋樑，讓醫療決策變得更加全面、準確和科學。

（以上圖片來自文章X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022）

MMKG已經被應用於多個領域，包括自然語言處理、計算機視覺、語音識別等。例如，在自然語言處理領域，MMKG可以將不同形式的語言資訊連線起來，實現對文字、圖片和音訊內容的跨越式認知和分析；在計算機視覺領域，MMKG可以將影象和視訊資料與其他領域的知識相結合，獲得更具深度和複雜性的認知結果。未來，隨著各種智慧裝置的普及和多模態資料的日益增長，MMKG必將成為實現多模態認知智慧的一個重要手段。我們需要進一步完善MMKG的理論框架和技術體系，在構建更加豐富和高效的多模態知識圖譜的基礎上，實現對多模態資料的更加準確和深刻的認知，推動人工智慧技術的不斷髮展和應用。總之，在多模態資料處理和應用方面，MMKG可以大大增強系統的認知和決策能力，實現人機互動的更加智慧化和自然化，同時也可以促進各領域應用場景的創新和發展。

（以上圖片來自文章《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022》）

04 AIGC多模態大模型VS大規模多模態知識圖譜

在當前的自然語言處理領域中，多模態大模型和多模態知識圖譜都有各自的優缺點。多模態大模型具有關聯推理強、可適應多工、人工成本低、適應能力強等優點，但其可靠程度低、知識推理能力弱、可解釋性不足、訓練成本高等不足之處也不容忽視。而多模態知識圖譜則具有專業可信度高、可解釋性強、可拓展性好等優點，但其推理能力弱、人工成本高、架構調整難等不足之處也同樣存在。針對這些不足之處，目前的研究方向主要包括以下幾個方面：

提升模型可靠性：當前研究團隊正在發掘不同模態的資料之間的潛在關係，並通過改進模型的結構和演演算法等方式提高其預測的準確率，從而提升模型的可靠程度。
強化知識推理能力：加強模型對知識的學習和推理能力，使其能夠對資料背後的知識進行更深入的挖掘和分析，實現真正意義上的知識推理。
提升可解釋性：通過增強模型的可解釋性來提高其通用性和實用性，幫助人類理解和解釋模型的預測結果。
優化訓練成本：通過改進演演算法和平行計算技術等方式降低訓練成本，提高模型的訓練效率和穩定性。
自動化知識圖譜構建：通過自動化抽取和建模技術來降低構建多模態知識圖譜的人工成本，提升其可延伸性和實用性。

當前階段，大模型與知識圖譜仍應繼續保持競合關係，互相幫助，互為補充，未來的研究方向將集中在如何充分利用多模態資料，提高模型的可靠性、推理能力和可解釋性，降低訓練成本和構建成本，實現更加精準和智慧的自然語言處理。那AIGC多模態大模型在多模態知識圖譜的實際場景是怎麼的呢？請期待我的下一篇文章GPT-4釋出，AIGC時代的多模態還能走多遠？系列之四 AIGC for MMKG。

參考：

部分內容參考來自復旦大學教授李直旭《AIGC時代的多模態知識工程思考與展望》

論文：《Google’s PaLM-E is a generalist robot brain that takes commands》

《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022

http://arxiv.org/abs/2206.14268 和http://arxiv.org/abs/2212.05767

點選關注，第一時間瞭解華為雲新鮮技術~