摘要:多模態認知智慧是AI人工智慧當前發展的主流趨勢之一,其核心是以多模態知識的獲取,表示與推理為主要內容的跨模態知識工程與認知智慧,也是為了更好的處理多模態的資料,需要融合多種感知模態和智慧處理技術。
本文分享自華為雲社群《GPT-4釋出,AIGC時代的多模態還能走多遠?系列之三:多模態認知智慧》,作者:碼上開花_Lancer。
上兩篇文章介紹了AIGC未來已來和AIGC的阿克琉斯之踵,瞭解到AIGC當前的發展趨勢和當前的一些不足之處,接下來給大家介紹AIGC時代的多模態技術的發展。
多模態認知智慧是AI人工智慧當前發展的主流趨勢之一,其核心是以多模態知識的獲取,表示與推理為主要內容的跨模態知識工程與認知智慧,也是為了更好的處理多模態的資料,需要融合多種感知模態和智慧處理技術。
多模態認知智慧是一種融合多種感知模態和智慧處理技術的人工智慧,旨在建立更加豐富、靈活和可信賴的人機互動平臺。為此,需要研究一套完整的多模態認知智慧研究框架,該框架應包含以下幾個方面:
(多模態認知智慧研究框架,圖片來自網路)
我們明白多模態認知智慧研究框架以後,對於多模態認知智慧,它是怎麼樣實現的呢?
多模態大模型是一種連線主義和經驗主義相結合的實現路徑。它的核心思想是利用海量預訓練資料來構建一個大規模的神經網路模型,能夠自動學習和提取多模態資料中的特徵和關係,並實現對多種語言、影象、音訊等多種形式的資訊進行聯合理解。該方法具有概率關聯、簡單魯棒等優點,但在學習邏輯關係等方面仍有侷限性。 多模態知識工程則是一種符號主義的實現路徑,主要依賴專家系統和知識圖譜等手段,通過對精選資料和專家知識的整合和轉化,將其轉換成符號知識,實現對多模態資料的解析和分析。該方法具有易推理、可控、可干預、可解釋等特點,但在資訊損失方面存在一定的問題。 綜合來看,多模態大模型和多模態知識工程各有優缺點,需要根據應用場景和需求進行選擇和設計。在未來的研究中,我們需要進一步探索如何更好地結合兩種實現路徑,充分利用它們各自的優勢,實現多模態認知智慧的高效、準確和可解釋性。 資料轉換成符號知識的過程往往伴隨著巨大的資訊損失,隱性知識、難以表達的知識是損失資訊中的主體, 在AIGC大模型時代,多模態知識工程依然不可或缺。
(以上圖來自網路)
多模態知識工程中有一種常用的方法是利用知識圖譜,這種方法被稱為多模態知識圖譜(MMKG)。與傳統知識圖譜不同,MMKG以多模態資料作為源頭,從多方面描述實體和關係,構建出一個可以跨越多模態的知識體系。在MMKG中,多模態資料不僅僅作為文字元號實體的關聯屬性存在,還可以作為圖譜中的實體存在,可與現有實體發生廣泛關聯。 MMKG的優勢在於它能夠消除多模態資料的異構性,將它們有機地結合在一起,使得系統能夠實現對多模態資料的更加全面和深入的理解。同時,MMKG也能夠提高資料的可發現性和可重用性,使得資料共用變得更加容易。
在實際應用中, 例如,假設你需要在家裡搭建一套智慧家居系統,這個系統需要支援語音控制、自動化定時等多種功能。那麼,在建設過程中,MMKG就可以幫助系統對運作環境、裝置狀態、使用者需求等方面的多模態資料進行綜合分析和優化,從而提高系統的智慧性、可靠性和適應性。 另一個具有代表性的例子是醫療領域的智慧輔助診斷系統。這類系統會收集包括醫學影像、實驗室檢查、文字記錄等形式的多模態資料,利用MMKG進行知識關聯、特徵提取和預測策略優化等任務。通過這種方式,系統可以在醫生與病人之間架起一座智慧化的橋樑,讓醫療決策變得更加全面、準確和科學。
(以上圖片來自文章X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022)
MMKG已經被應用於多個領域,包括自然語言處理、計算機視覺、語音識別等。例如,在自然語言處理領域,MMKG可以將不同形式的語言資訊連線起來,實現對文字、圖片和音訊內容的跨越式認知和分析;在計算機視覺領域,MMKG可以將影象和視訊資料與其他領域的知識相結合,獲得更具深度和複雜性的認知結果。 未來,隨著各種智慧裝置的普及和多模態資料的日益增長,MMKG必將成為實現多模態認知智慧的一個重要手段。我們需要進一步完善MMKG的理論框架和技術體系,在構建更加豐富和高效的多模態知識圖譜的基礎上,實現對多模態資料的更加準確和深刻的認知,推動人工智慧技術的不斷髮展和應用。 總之,在多模態資料處理和應用方面,MMKG可以大大增強系統的認知和決策能力,實現人機互動的更加智慧化和自然化,同時也可以促進各領域應用場景的創新和發展。
(以上圖片來自文章《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022》)
在當前的自然語言處理領域中,多模態大模型和多模態知識圖譜都有各自的優缺點。多模態大模型具有關聯推理強、可適應多工、人工成本低、適應能力強等優點,但其可靠程度低、知識推理能力弱、可解釋性不足、訓練成本高等不足之處也不容忽視。而多模態知識圖譜則具有專業可信度高、可解釋性強、可拓展性好等優點,但其推理能力弱、人工成本高、架構調整難等不足之處也同樣存在。 針對這些不足之處,目前的研究方向主要包括以下幾個方面:
當前階段,大模型與知識圖譜仍應繼續保持競合關係,互相幫助,互為補充,未來的研究方向將集中在如何充分利用多模態資料,提高模型的可靠性、推理能力和可解釋性,降低訓練成本和構建成本,實現更加精準和智慧的自然語言處理。那AIGC多模態大模型在多模態知識圖譜的實際場景是怎麼的呢?請期待我的下一篇文章GPT-4釋出,AIGC時代的多模態還能走多遠?系列之四 AIGC for MMKG。
部分內容參考來自復旦大學教授李直旭《AIGC時代的多模態知識工程思考與展望》
論文:《Google’s PaLM-E is a generalist robot brain that takes commands》
《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022
http://arxiv.org/abs/2206.14268 和http://arxiv.org/abs/2212.05767