質效兩全:媒體服務的創新「頂設」

2023-07-20 12:11:47

做媒體服務,一定要有刻入骨髓的抽象思維。

視訊化浪潮洶湧、生成式人工智慧AIGC極速迭代、體驗需求和應用場景愈發多樣......面對「視訊生產力」的變革,我們能否透過紛繁複雜的表象,洞察音視訊行業的「真正需求」?

是否存在一套優雅的媒體服務設計,滿足多方需求?如何「落地」實現價值?保持「持續生命力」的關鍵又是什麼?

隨著AIGC和大模型的能力加持,媒體服務的「全智慧」又將如何演進?

本文由IMMENSE、「阿里雲視訊雲」媒體服務負責人鄒娟和LiveVideoStack策劃、採訪而成。

再探「真正需求」

大視訊行業的真正「需求」是什麼?

在視訊化領域,關鍵無外乎是視訊的生產與視訊的消費。那麼,關於大視訊行業的真正「需求」,我們也可以從視訊生產端視訊消費端兩個維度來討論。

對於視訊生產端而言,快速、高效地生產視訊可以搶佔釋出先機、吸引觀眾;而提供更優質、創新、綜合體驗好的視訊內容可以留住觀眾

對於視訊消費端而言,最重要的是「體驗」:題材新穎、有趣,內容豐富且有「獲得感」;視訊的畫面和聲音感官效果好;獲取的資訊是「第一手」、最新鮮的......

看似需求多樣,實則無論是生產還是消費的需求,可以歸結為兩個關鍵詞:「高時效」 和「高質量」。

規模化下,「高時效」和「高質量」可以兩全嗎?

「高時效」需要生產力和生產效率的提升,意味著相同時間內生產更多視訊內容,這也會帶來規模(數量、時長、行業、場景)的擴大。

在規模化之下,「高時效」與「高質量」看似難兩全,但隨著「雲端計算」與「人工智慧」時代的到來,局面便大不相同了。

雲端計算既能提供海量、高並行、彈性的視訊處理能力,還能將多種視訊業務、多個視訊場景,用最優的組織和排程方式,錯峰亦或是混跑,這便實現了兩個維度的「規模化」。在此之上,雲可以將單個視訊的高質量特性完美復刻,從而快速實現「高質量」視訊的規模化

在此基礎上,隨著AI的不斷髮展和深入,智慧能力在某些場景上比傳統人力更精準、更高效,這也同樣促成了規模化下的「高時效」與「高質量」

新數智時代,雲和AI走向深度融合,而隨著AIGC的大爆發,AI不再僅僅作為單點能力應用在某個環節,一切皆向著「全智慧」演進。

「頂層設計」與「發動機」

雲廠商面對「內容生產革命」,下一步「劍指何方」?

雲廠商,天然的To B角色。由於不同行業、不同業務場景、不同需求的客戶,所需的功能、效能、時效性、實現效果大相徑庭。

因此,對雲廠商來講,開放、靈活、多場景的問題是必然需要解決的。

展開來說,視訊的全鏈路從採集開始,歷經製作、處理、管理、分發、消費,每一個環節包含了非常多所需的媒體原子能力。在面對不同場景以及不同行業的客戶需求時,對這些原子能力的使用深度和組合方式,是十分不同的。

因此,經總結提煉和抽象後形成的統一「頂層設計」,便是雲廠商的「制勝法寶」。

求本溯源,我們如何在「頂層」尋求解決之道?

首先,是將媒體原子服務「打散」,再「重組」。

這裡,一是需要將視訊全鏈路的媒體原子服務作細粒度拆分,並把每個服務做深做透;二是以一套靈活的編排機制,將這些原子服務依照客戶的設想、場景、業務流,實現自由搭建和組裝。

再者,是底層媒體技術的統一設計。

視訊處理流程由解封裝、解碼、前處理、編碼、封裝這幾個主要環節構成,我們需要一個下接演演算法、上聯排程的「媒體引擎」,構建統一的媒體處理框架,將這些環節組織起來、支援多種演演算法、靈活整合外掛、處理各類格式。

媒體原子服務的「打散」和「重組」,構建了媒體服務「最上層」可靈活編排的業務流,而統一「媒體引擎」是媒體任務在底層「執行層」實現高時效、高效能及豐富功能的基石。

最後,在二者之間,還需要統一的「媒體分散式服務架構和媒體後設資料體系」做一層連線,其中包括了:跨產品跨場景的統一媒資OneMediaID、統一工作流、統一的媒體業務流訊息處理機制、統一的媒體任務管道排程機制等。

由此,形成了一套統一頂設的「媒體服務」。

其中,媒體引擎是當之無愧的「發動機」?

我們講到了「媒體引擎」,它是整個媒體服務的底層核心,是所有媒體處理和媒體生產製作任務的執行器,既需要處理傳統的媒體處理類的任務,也需要處理各式各樣AI任務,從而真正實現下接演演算法,上聯排程。

「媒體引擎」同時涉及「編排層」技術,以及「核心層」技術。這裡的「編排」並不是指業務流的「編排」,而是單任務處理各環節的「編排」和運算元的「編排」

通過統一的編排Pipeline及策略,「媒體引擎」能靈活支援不同任務的多種引數組合,並使得這些引數組合的執行效果達到畫質、效能、位元速率、時效性等多維權重的綜合最佳。

此外,「媒體引擎」還負責對任務進行最優的執行策略。

比如:是整段執行還是並行執行?是切片級別並行還是幀級別並行?是否需要呼叫特殊的元件甚至使用特殊的機型?以及運算元是否存在依賴關係?.....我們把媒體引擎的這類決策能力稱為「media worker brain」。

在這樣的大腦調配之下,對任務最優執行策略的追求,亦是對「高質量」和「高時效」追求的一脈相承。

持續的生命力:靈活、開放、多業務

一個平臺的持續生命力,源於什麼?

反覆強調「頂層設計」,因為作為ToB的雲廠商,阿里雲視訊雲一定要解決多業務、靈活、開放的問題。

我們既需要考慮不同客戶業務的個性與特色,又不能全部case-by-case地貼身客製化,因此我們一定要有「刻入骨髓」的抽象思維,需要時時刻刻總結、提煉、抽象,對產品、模組、服務、API的設計皆是如此。

於是,「頂層設計」可以避免每個業務板塊或模組在各自「舒適」的體系裡「野蠻發展」,一切皆從全域性來規劃權衡

仔細看來,媒體服務的「頂設」先基於已有需求及客戶場景,按照媒體服務的5大模組(媒體匯聚、媒體處理、媒體生產與製作、媒體管理、媒體消費),將媒體能力進行梳理、總結,並以「可複用」為依據,將其進一步打碎成細粒度的原子媒體能力,經過一層或多層的共性抽象,實現不同範圍的Service。

比如:在媒體生產製作模組,媒體服務既提供了偏原子的VideoDetext去字幕服務,也提供了更綜合的剪輯合成服務。

同時,需要將相對固定的和經過變化的部分進行分離,提供一些系統內建的媒體流程,降低客戶的開發難度,而針對客戶希望有更高靈活度的場景,還設計了類似可程式化的指令碼或策略進行自定義。

開放性也是媒體服務頂層設計的另一個關注點。

智慧媒體服務的開放性體現在:除了支援阿里雲產品的相關協定和能力之外,還支援國際或國內的標準協定及部分第三方廠商的協定和能力。

比如,在低延時傳輸這個領域,智慧媒體服務除了支援自家的RTS之外,還支援LL-HLS、LHLS、Dash/CMAF等;

再比如,我們除了支援阿里雲OSS作為媒體處理服務的輸入輸出之外,還支援AWS的S3、以及HTTP URL等;

還有,我們除了可以支援自研音視訊及AI演演算法之外,也支援接入經過安全校驗的三方AI運算元等。

我們相信,只有開放與合作,才能讓技術持續煥發生命力。

「頂設」落地,能讓「高時效」再高一節嗎?

當「頂設」幫我們突圍了多業務、靈活、開放的壁壘,自然而然,就帶來了更高的「高時效」。

深入其中,這包含4個維度的技術:

一是在工程架構層面,設計並實現「並行」處理框架,將整段視訊或時間線Timeline先分片Split,做「並行」處理後再進行「合併」,這項技術適合「中長視訊」或輸入為「多個素材」的場景;

二是針對「單片」任務進行「效能優化」,包括演演算法優化、指令集優化、演演算法在引擎層的工程優化、pipeline優化以及演演算法和排程的聯合優化等,使得任務在考慮原始檔適配、任務引數特性、機型及設定、資源水位等多維度情況下實現最優執行;

三是在「分散式服務層」優化媒體業務流的編排,讓流程的Activities在更廣的範圍內自由連線,如:邊錄邊轉、邊播邊轉等,這可以讓不同的產品和服務通過同一流程串聯起來,從而實現跨場景甚至跨產品的流程提速;

四是「AI能力」的加持,無論是在演演算法層、引擎層還是在分散式的服務層,在處理規模化視訊時,可以將AI帶來的優勢極致發揮,實現「高時效」的進一步提升。

如果一切都在無限解決媒體服務的「高時效」,那「高質量」的完美實現,在當下可以更多的利用AI能力。

AI:日新月異的「加速力」

還追得上AI的迭代和AIGC的演進嗎?

大模型和AIGC技術的發展,可以用「日新月異」來形容,其迭代速度史無前例,湧現出的各類垂直應用模型,也使得音視訊行業的應用場景更加廣泛和多樣化。

更重要的是,大模型以及AIGC可以運用更大量的資料、更復雜的演演算法、以及更強力的算力支撐,大大提高音視訊處理的精度和效果,帶來無限想象。

在這場AIGC風暴之前,我們的媒體服務已先行佈局,讓AI能力可以靈活參與視訊的各種智慧化場景,將AI的迭代和AIGC的演進,納入智慧化的「頂層設計」。

針對AIGC的演進(以內容創作領域為例),從序曲開始,我們設定了五個階段:

➤ 第一階段(序曲):AI負責素材的預處理,並按預設模版進行編排,實現視訊全智慧生產的第一個階段。

➤ 第二階段:在素材預處理之上,還能完成本屬於視訊創意環節的編排工作(指令碼設計/Timeline設計),從而實現智慧批次混剪。

➤ 第三階段:面向特定場景和特定要求的成品,由AI根據已有成片反向解構分鏡頭,負責素材的搜尋、篩選(以及部分素材生成)、處理、編排,並最終制作合成。

➤ 第四階段:面向特定場景,AI負責理解場景的要求,包括素材的搜尋、篩選(以及部分素材生成)、處理、編排,並最終制作合成。

➤ 第五階段:針對多種場景,依據海量豐富的資料,AI能夠自行發掘創意點,真正擁有「創作力」。

簡扼來說,AI逐步滲透業務,從能力到場景,先單例後普適、先局面再整體、先執行再創意,完成AI從輔助業務到對業務全智慧變革的演進。

可以看出,從前的AI只是輔助創作,而今天的AI已然可以成為創作的主角。

再往前看,無論元宇宙還是Web3.0,下一代網際網路的繁榮需要海量的數位內容,對內容的數量、形式和互動性都提出了更高的要求。

舉例來說,很多基於大模型的影象增強、實景摳圖等技術,在效果上已優於傳統AI演演算法;再比如,運用Text to Video(文字轉化為視訊)生成幾秒空鏡頭、Image to Video(影象轉化為視訊)生成一段連續動作的視訊,不僅能解決高質量的問題,還能實現「無中生有」的突破之作。

未來,運用AIGC的能力,智慧媒體服務在生產製作領域,可以極大提升「一鍵成片」的效果,在智慧生成、時間線的智慧編排,以及智慧剪輯和包裝等各環節,都將逐一擊破生產製作的效率、質量痛點;在媒資領域,也能運用AIGC生成視訊摘要等,為媒資管理提供更多新能量。當然,全方位的探索都在進行中。

大模型時代的AIGC,期待不止。

7月28日下午

LiveVideoStackCon2023上海站

阿里雲視訊雲專場

阿里雲智慧資深技術專家

《從規模化到全智慧:媒體服務的重組與進化》

一起探索媒體服務的創新「頂設」!