初窺門徑,從大模型到內容生成看AI新次元

2023-11-21 18:00:36
視訊雲AI進化新紀元。

最近Gartner釋出2024年十大戰略技術趨勢,AI顯然成為其背後共同的主題。全民化的生成式人工智慧、AI增強開發、智慧應用......我們正在進入一個AI新紀元。

從ChatGPT的橫空出世,到開發者大會的驚豔亮相,OpenAI以一己之力掀起生成式AI產業變革。與此同時我們也看到,AI正以超乎想象的進化速度,給雲服務和音視訊帶來了更多機遇與挑戰。

在「雲智深度融合」的行業共識之下,如何用好大模型,構建出符合行業需求的垂直場景模型,如何將生成式AI更好地與實際業務相結合,最大化發揮雲服務「最佳拍檔」的優勢,已成為視訊雲領域甚是關心的話題。

同時,我們也對AI技術在音視訊的進一步滲透,以及視訊雲應用場景的拓寬充滿好奇與期待。

我們對話了「阿里雲視訊雲」視覺演演算法方向負責人劉國棟、媒體服務負責人鄒娟,一起圍繞視訊雲大模型探索與AIGC實踐應用,聊聊阿里雲視訊雲在AI方向的新進展與新思考。

 

01 一場AI的熱力風暴

高熱的OpenAI開發者大會,給大模型與生成式AI風潮再次升溫。在AI的遽變中,我們看到音視訊的「危」與「機」都面臨著更為深刻的變革。同時,我們希望獲得AI的全面加持,在音視訊全鏈路中將雲智進行更深入地融合,從而提升整體音視訊服務水平。

Q1:最近OpenAI開發者大會可以說是AI屆的「科技春晚」,哪些令你印象深刻?

印象深刻的內容有很多,比如,OpenAI最新推出的GPT-4 Turbo模型,拓展到了128K的上下文視窗長度,實現了模型知識庫的全面升級,支援DALL.E 3、GPT4-Vision、TTS等多模態API,以及支援模型微調客製化;在開發者生態構建方面,OpenAI釋出了GPT Assistants API和GPT Store,讓開發者可以更方便地呼叫模型以及共用GPT的創意玩法;首次推出可為特定目的進行自定義的GPT,讓不懂程式碼的使用者也可輕鬆建立自己的ChatGPT版本。

毫無疑問,OpenAI帶來的震撼是巨大的。它不只帶來革命性的技術,而且已經開始構建自己的生態系統了,從煉丹走向商業化。同時,它也讓我們看到AI技術已經進化到了更高層次,特別是在多模態理解與生成,語言理解與生成,以及GPT-4 Turbo作為決策中心的能力等方面,這些都與音視訊技術有著直接或間接的聯絡,讓我們看到了音視訊技術發展的更多可能性。

Q2:你提到AI技術為音視訊帶來更多可能性,與此同時是否也帶來了新的衝擊?音視訊領域對AI的要求是否更苛刻?

在音視訊領域中,我們看到,音視訊服務已廣泛應用於互娛、廣電傳媒、教育、金融等各種行業,對場景的滲透也越來越深。這些行業、場景對體驗的追求愈來愈高,同時使用者希望用得起、更普惠,這都要求音視訊服務具有高度的智慧化。將提升音視訊服務質量寄希望於AI,已逐漸成為業界共識。

隨著AIGC的日新月異,音視訊領域的AI技術也呈現出了新的趨勢,即對演演算法的通用性、理解能力、生成能力都提出了更高的要求。過去純粹的客製化小模型開發、單模態處理和預測正規化不再完美適配,而是走向了泛化能力非常強的預訓練大模型、多模態資訊融合、生成式正規化等技術領域。

通過分析業務中發現的痛點問題,我們總結出幾點視訊雲對AI演演算法的更高要求,即:追求效果效能上的極致體驗,追求演演算法的泛化性、通用性,提升AI自主決策、規劃處理鏈路的能力,降低開發、接入、使用的成本。

音視訊領域對AI的要求無疑比自然語言領域更為苛刻,尤其是AI大模型如何更泛化地與音視訊結合。就像何愷明博士提到的,相比於自然語言處理領域的預訓練模型,在計算機視覺領域,還沒有一個類似的視覺基礎模型來覆蓋大多數任務處理。視訊雲也會對AGI在音視訊方向的進展保持時刻關注。

Q3:在音視訊領域中,如何更好地「取AI之長」,來提升整體音視訊服務水平?

從音視訊的全鏈路視角來看,我們可以在音視訊生命週期的各環節「取AI之長」。無論是音視訊內容的採集、前處理與編碼、視訊的分析與理解、檔案或實時流的處理與傳輸、以及媒體消費側的互動反饋等,都可以從不同的角度和姿勢使用AI技術,為音視訊生命週期的多個模組提供更高效、更高質量的能力加持。

經過多年的實踐,AI對阿里雲視訊雲的賦能也是全棧的,覆蓋了音視訊「生產、處理、傳輸、消費」的全鏈路。當前AI技術與視訊雲業務高度繫結,在視訊云為客戶提供的涵蓋媒體採集、媒資管理、內容生產製作和分發的一站式媒體服務能力集,以及視訊直播、視訊點播、音視訊通訊產品中,AI無處不在。而隨著大模型和AIGC的爆發,AI還將為視訊雲帶來新的業務模式和想象空間。

 

02 視訊雲大模型,讓全鏈路進化

更好的通用性、更強大的理解生成能力,大模型的出現為視訊雲提供了新的思路與解法。然而,大模型在音視訊全鏈路的賦能,既要考慮底層演演算法的原子化能力進化,也要考慮與音視訊具體場景的完美適配,真正實現讓大模型「為我所用」的絕佳效果。

(該部分源自與劉國棟的深入對話編輯而成)

Q4:從演演算法層面上來講,你覺得大模型可以解決以往技術方案中的「沉痾舊疾」嗎?

過去我們在設計演演算法時一般均採用小模型、傳統演演算法或是兩者結合的方法。這樣的設計雖然可以少佔用訓練資源且速度快,部署容易,端側落地性強,但是問題也比較突出,比如模型的泛化能力差,效果上限比較低,理解、生成能力比較差等。

而大模型出現後,它的通用性、多模態協同能力,強大的理解、生成能力等都讓我們驚歎不已,這些正是小模型和傳統演演算法所欠缺的。用大模型方法去重做一遍之前的演演算法,提高演演算法效果的上限是我們認為比較可行的做法。此外,我們也嘗試使用大模型,來處理新的領域或問題,比如端側的大模型設計。

Q5:視訊雲在設計大模型演算法系統時,可以與我們分享一些「智慧化」的思路嗎?

我們根據視訊雲的業務特點,設計和搭建了一套視訊雲大模型演演算法開發的系統架構。整個系統涵蓋了分析、規劃、推理、評價、訓練與微調的全鏈路,並且是可進化、可決策的。

可進化體現在,對於給定的任務,系統會進行從分析到訓練的迴圈過程,並保持整個過程的不斷迭代。可決策是指,系統會先借助視訊雲的知識庫進行檢索,再利用語言大模型給出執行路徑。同時,知識庫本身也在不斷地豐富,我們會把評價高的規劃資訊、解決方法以及業務中沉澱的資料持續輸入到知識庫中,確保決策依據的與時俱進。

Q6:在大模型的演演算法探索上,視訊雲有沒有一套研究路徑或者總結出來的方法論?

基於大模型演算法系統框架,我們不斷地在業務中實踐、演進,提煉出一套通用的大模型演演算法「方法論」,使其能高質量地解決業務中的實際問題。

例如,在完成實際任務時,單純依靠大模型可以實現一些核心基本功能,但離解決得好還有不小距離,因此我們針對性提出了幾種大小模型協同的方法,讓大小模型互相配合,發揮其各自優勢,獲得了比較好的效果。

再比如,在大模型落地過程中,我們發現大模型更多針對通用場景,在音視訊實際業務中往往效果不佳,當然這並不意味這些模型完全不可用。我們基於自己的業務場景,篩選出相對高質量的大模型,再結合已沉澱的資料、知識庫進行大模型微調,使得模型準確度有了大幅提升

另外,針對大模型訓練優化、推理效能、視訊記憶體佔用等方面,視訊雲都在實踐過程中總結出基於大模型的演演算法優化路徑,從而為音視訊業務的智慧化打好基礎、鋪好路。

Q7:相較於圖文生成,視訊生成大模型的技術門檻更高,需要克服的技術挑戰也更多,視訊雲在這方面是怎樣實踐的?

無論是閉源的Midjourney,還是開源的stable diffusion,在影象生成方面都取得了驚人的效果。視訊雲的業務中也需要一些影象生成的能力,特別是雲剪輯、雲導播等產品,其中一個非常直接的需求就是背景影象的生成,我們在開源的stable diffusion等模型以及阿里通義大模型的基礎上,結合視訊雲場景做了一些演演算法創新實踐,使得生成影象與場景更匹配、生成質量更高

對於門檻更高的視訊生成,我們也關注到runway等公司在這方面取得的長足進步,它生成視訊的單幀質量接近sd等的效果,而且幀間一致性表現也挺好,不過離人們的預期還有距離。我們從視訊雲的業務場景出發,選擇視訊編輯賽道,重點開發視訊轉繪功能,即把視訊轉成不同的風格,從而提升剪輯產品的競爭力。此外,我們也選擇較為合適的文生動畫作為視訊生成的一個細分場景進行探索。

Q8:在大模型演演算法實踐方面,目前阿里雲視訊雲在音視訊全鏈路的哪些環節取得了新進展?

在過去近一年的時間內,視訊雲在大模型方面做了深入探索,開發了多個演演算法原子,所做工作涉及音視訊生產、處理、管理、傳輸與分發、播放與消費全鏈路的多個環節。

比如,在音視訊生產環節,我們開發了實景摳圖、人聲克隆、文生圖、圖生圖、AI作曲等多個基於大模型的演演算法。其中人聲克隆,經過演演算法的深入打磨,克隆出的聲音跟本人的原始聲音基本無法分辨。同時,結合語音驅動的數位人技術,人聲克隆還可以打造出高度真實、自然的數位人,目前視訊雲的數位人產品也已上線,受到廣泛關注。

此外,視訊雲在處理、媒資管理以及消費環節,都已經開發了基於大模型的演演算法,在演演算法效果方面有了不錯的提升。

Q9:未來,結合大模型本身的進化(未來的多模態),阿里雲視訊雲的思考以及探索路線?

目前大模型技術發展很快,如何「趁勢而為」,更好地與音視訊業務結合,有很多值得探索的方向,比如之前提到的端側處理等。

我們知道大模型提供了多種解決問題的工具,比如問答、對話、文生圖、圖生圖、視訊描述等等,這些工具正在不斷完善,能力越來越強,但基本都是解決單方面問題。我們希望大模型具有感知、規劃、行動的能力,而這就是當前Agent的概念。這裡的感知是多模態的,可以是音訊、視訊、文字等,不斷提升大模型作為決策大腦的能力,讓它能根據業務的需要,自主分析、規劃行動路徑,排程工具大模型。實際上不只在演演算法方面,在視訊雲的引擎、排程、業務層都已經涉及到非常多AI的能力。

 

03 AIGC,效率效果的「智慧躍遷」

從單純的輔助決策,到像人類一樣思考,甚至再到超越人類的決策效果,也許AIGC的想象空間,只侷限於我們的想象力,但視訊雲的全智慧佈局並不如此,要在音視訊智慧化的高速列車中保持優勢,需要兼顧效率與效果的雙輪提升,更需要視訊雲的長期佈局與頂層設計。

(該部分源自與鄒娟的深入對話編輯而成)

Q10:從業務的視角出發,大模型等AI技術在音視訊場景中落地需要攻克哪些難題?是否需要「頂設」?

大模型在落地音視訊業務時,需要解決兩個問題:

首先,大模型要能與音視訊處理的pipeline進行很好的融合,同時這個融合不能是粗粒度的,而最好是幀粒度的,這樣才能避免多次編碼帶來的效率和畫質損耗。

其次,由於大模型計算比傳統AI計算更復雜,因此需要在演演算法工程優化層面做更多的工作,如利用多執行緒保證實時性、軟硬一體提升效能、演演算法毛刺消除與降級等,這些工作都需要在媒體引擎層面進行整體設計和各種細節處理。

Q11:我們知道阿里雲很早就開始在AI+視訊的領域裡紮根,而AIGC迎來爆發潮,對音視訊而言是否產生了「質的飛躍」?

阿里雲視訊雲長期堅持在AI領域進行技術佈局,將AI與音視訊技術相結合,並廣泛應用於視訊雲的產品中。

事實上2017年我們已經將智慧封面、AI稽核、智慧摘要、智慧集錦、以及多種AI識別能力應用於媒體處理、視訊點播、視訊直播產品中,通過在部分業務環節中引入AI能力進行輔助處理,幫助客戶縮短內容生產環節的耗時,助力其更快地釋出視訊內容。

如今AI技術爆發,我們看到它對音視訊的賦能完成了從效率高到效果優的飛躍,以前我們認為AI的產出不如人工產出效果好,但現在這個局面已經發生了改變,無論是AI修復的影象畫質,還是AI生成的素材質量,亦或AI可以像人一樣去理解媒資內容,分析與提煉視訊結構時甚至比人更細緻,如今似乎已經到了音視訊所有業務重新用AI去審視一遍,大部分場景可以用AI重構的時候。

Q12:針對用AI及大模型重構業務,目前阿里雲視訊雲已經開展了哪些技術實踐?

媒體內容生產有三大板塊:媒資、生產製作、媒體處理,目前阿里雲視訊雲在這三個板塊都應用了AIGC技術,並在不少場景進行了技術實踐。

比如在媒資領域,我們的方向是實現基於語意分析和自然語言理解的新媒資體系,將視覺內容、音訊、文字內容統一到一個高維空間內,避免像傳統的智慧標籤一樣,將視訊轉換到文字時,出現語意的丟失或不一致。而針對搜尋文字也無需使用多關鍵詞組合的方式,可以直接輸入自然語言,不再依賴分詞進行搜尋,整體相較於傳統的智慧標籤,具有更好的泛化性。

在媒體處理板塊,我們的技術實踐則聚焦在效果優化上,無論是針對高清畫質的增強,還是低清畫質的修復,以及針對聲音的智慧全景聲處理,我們令AI演演算法與音視訊前處理演演算法,前處理演演算法與編碼器有更好的配合,儘量保持真實感與細節還原,使用者使用普通的播放裝置也能享受高清晰度的音視訊體驗。

在生產製作的虛擬演播室場景,我們將基於大模型的分割演演算法進行了裁剪與優化,以支援實時場景的效能,同時實現了多層分割與多實體摳像,可以根據需求動態調整實景摳像的目標範圍。另外,對於摳像邊緣和光影的處理較之前會更加逼真,對於複雜背景的降噪也更強大,哪怕在新聞外場或者展會現場,複雜的拍攝背景+頭髮絲飛揚的人物,也能擁有比較完美的alpha通道成像,再結合RTC技術與虛擬背景融合,讓多人實時互動虛擬演播效果提升一個臺階。

Q13:在AIGC的發展推動下,目前視訊雲媒體服務與LVS上海站分享時相比,解鎖了哪些新場景、新能力?

LVS上海站是在7月底,在最近的3個多月,視訊雲媒體服務在AIGC方面有了更多的技術實踐與應用,雲剪輯、媒資、實時流製作、媒體處理都上線了新的AI能力,比如基於語意分析的自然語言媒資搜尋、基於複雜背景的實景摳像、數位人智慧剪輯合成等,這些能力大多用到了基於大模型的AIGC技術。

Q14:未來在AIGC的助力下,媒體內容生產的智慧化程度有可能達到什麼水平?會「類人」嗎?

我認為媒體內容生產的未來趨勢是進入全智慧時代,即:AI從「向人學習」,到「像人一樣」,最終到部分場景「超越人」,比如AI可以自主創作有故事的視訊,可以對媒資內容進行全語意理解,可以自行優化音視訊編碼和前處理,可以嘗試做一些決策處理等等,我們期待那一天的到來。

 

04 視訊雲,AI不止

Topic 1:《AI新正規化下,阿里雲視訊雲大模型演演算法實踐》

本次演講將分享阿里雲視訊雲大模型演算法系統架構,以及實操中的關鍵技術,此外還將展現大模型演演算法典型實踐案例,以及對於未來大模型落地更多可能的思考。

Topic 2:《AIGC時代下,阿里雲視訊雲媒體內容生產技術實踐》

本次演講將分享阿里雲視訊雲媒體服務的整體技術架構,融合AI與傳統媒體處理的一體化媒體引擎的關鍵技術,還將分享如何應用AIGC技術,重構媒體內容生產的三大模組—內容創作、媒體處理、媒資管理,以及AIGC落地相關場景的技術實踐。

於AI中見天地

從大模型到內容生成

期待阿里雲視訊雲的AI主題與實踐分享