統一「頂設」的智慧媒體服務。
鄒娟|演講者
大家好,首先歡迎各位來到LVS的阿里雲專場,我是來自阿里雲視訊雲的鄒娟。我本次分享的主題為《從規模化到全智慧:智慧媒體服務的重組與進化》。
本次分享分為以上四部分,一是媒體服務(Mediaservices)面臨的技術難題;二是如何使用統一「頂設」進行媒體服務的架構重組與規劃設計;三是阿里雲視訊雲服務不同企業客戶不同場景需求面臨的技術挑戰、解法以及關於智慧化演進的思路和實踐;四是關於智慧媒體服務的未來展望。
第一部分主要介紹媒體服務(Mediaservices)的技術難題。
在此之前我們先對「媒體服務」的含義進行解釋,我們將「媒體服務」定義為:客戶音視訊相關業務中,媒體層技術和服務能力的集合。
媒體服務當前面臨的技術難題可以總結為三大類:一是如何靈活支援不同行業、市場、客戶、場景的音視訊業務;二是如何在此基礎上滿足這些迥異的業務場景的規模化需求;三是隨著AIGC的興起,在將AI技術融入媒體服務迭代的過程中,如何平衡短期利益和長期技術方向,做好長短期結合的智慧化演進。
接下來對三類問題進行具體分析,首先是關於多種音視訊業務如何靈活支援。
當前視訊雲領域包括視訊點播、視訊直播和音視訊通訊三大核心業務,他們的鏈路基本相同,均涵蓋生產、處理、分發和消費四個主要部分。
我們的「舊有思路「是針對業務構建全鏈路的產品技術,而不同業務在相同環節可能擁有類似的媒體能力,如VOD產品中的「媒體處理MPS」與Live產品中的「直播轉碼」就非常類似,當隨著視訊社會化趨勢不斷髮展,衍生出更多垂直的音視訊業務時,沿用這種思路無疑會帶來較多重複開發。
其次,不同場景的規模化需求大相徑庭。
ToB雲業務的規模化不僅包括大家印象中的「傳統」大規模,如:海量、高並行、低成本等,還涵蓋了諸如業務流多場景、多租戶的要求,不同場景對媒體服務能力深度+廣度的多樣性要求等,因此ToB需要多個角度的總結、提煉和抽象。
第三是關於如何規劃長短期結合的智慧化演進。
針對短期,我們目前重點關注工業級AI應用的效果,當前AI的角色仍以輔助為主,多數業務為視訊的檢測、識別、分割等。
當前大模型及應用如雨後春筍般層出不窮,但離AGI時代的真正到來還有一定距離,我們需要關注相關的研究和技術儲備如何從短期落地的狀態平滑過渡,並規劃一條銜接長短期演進的技術路線。
基於以上背景,我們首先對音視訊業務的媒體能力進行了框架式的統一頂設,定義為第0層重組。
重組前,媒體服務的各項能力已經存在於視訊點播、直播、音視訊通訊等業務中,因此該過程並非從0到1造輪子,而是將既有媒體原子能力進行打散、重組,從而更好的實現資源複用,解決更多新業務自由搭建的問題。
重組後,媒體服務的整體框架如上圖所示,最底層是基於雲原生技術的儲存、分發、傳輸等IaaS基礎設施,在此之上是媒體PaaS服務的演演算法底座,媒體的PaaS層能力按照音視訊生命週期劃分為媒體匯聚、媒體生產製作、媒體處理、媒體消費和媒資管理5個板塊,上層則是基於PaaS層搭建的PaaS+解決方案和各種行業場景應用。
將PaaS層5個板塊進行服務的細粒度拆分,各項能力進一步內聚和豐富,形成媒體全景能力集,詳見上圖,列舉了一些媒體服務的典型能力。
這些從不同業務中總結並提煉出的媒體服務能力,對相似性做抽象,對部分差異性做融合&增強,外加將多個服務的輸入輸出引數體系標準化,不僅可以提供阿里雲視訊雲的自研服務,還具備一定的開放性,從框架層面允許通過安全認證的第三方服務的接入。
如此一來,重組後的媒體服務除了作為直播、點播等已有業務的媒體能力底座外,還為快速拓展新業務和新場景(如汽車、IOT、行業+等)提供了有效的支援。
在第0層重組做好整體規劃的基礎上,我們構建了統一的「媒體引擎」,進一步完成媒體服務的第1層重組。作為底層技術核心,它是媒體任務在「執行層」實現高時效、高效能及豐富功能的基石。
首先,作為持續發展的雲原生服務,媒體引擎需要充分利用不同時期的機器資源,這就要求引擎層具備異構和軟硬一體能力,支援CPU、GPU、ARM和ASIC等裝置資源。其次,媒體引擎整合的演演算法既包括媒體處理演演算法與AI演演算法,也包括自研演演算法和二三方演演算法,它對演演算法整合進行了統一設計,通過演演算法效果/效能/成本自測系統、編碼規範及合規自查系統、流量回放和陪跑系統保證引擎的穩定性與基礎效能。第三是構建了統一的媒體處理框架,並通過單任務的分散式媒體計算引擎和複雜任務決策引擎實現底層資源的最優組織和複雜任務的最佳決策與反向排程。
近幾年分散式雲逐漸興起,很多行業客戶的視訊服務部署在邊緣雲或混合雲中,為了實現一套程式碼多雲部署,我們進行了媒體服務的第2層重組。
這裡主要面臨兩大挑戰,一是不同環境依賴的元件不同,需要將依賴元件細化後進行動態設定;二是在最終部署前需要完成大量的多環境統一CICD和標準化一鍵部署方案。它本質上是一項統籌程式設計和持續整合的工作。
媒體服務的第3層重組主旨是通過定義統一的媒體資料協定及流轉框架,消除資料在不同服務間轉換造成的損失。
而媒資的核心角色之一正是媒體服務的資料底層,因此第3層重組最重要的工作是構建視訊雲不同產品服務間的統一媒資系統,設計上主要分三層:
最底層是統一媒資的資料底座,1)對直播、點播等不同服務的媒體資訊構建OneMediaID,2)通過媒體流程引擎和開放服務註冊構建統一工作流,3)通過統一任務處理流程、管道定義、引數模板構建統一媒體處理協定框架。
中間層為關於媒資庫的統一設計,設計標準對標廣電媒資,核心思路是通過統一的包括多種實體定義(如基於文字的關係型後設資料庫和基於特徵值的向量後設資料庫)的動態後設資料體系來支援不同形態媒資實體儲存。
頂層為媒資的體系化,核心是兩個體系:後設資料體系與儲存檔案體系。關鍵詞則是媒資體系的靈活性和自構建能力,提供不同客戶可自定義媒資Structure和Value體系的能力。
接下來介紹關於媒體服務的進階技術,阿里雲ToB業務當前面臨的最大挑戰是不同場景、不同客戶帶來的規模化技術挑戰。
與C端業務支援相對聚焦的場景不同,雲視訊業務因其多行業、多市場、多客戶、多場景應用的背景使得高可靠、低成本、高時效等規模化難度倍增。因此規模化對於視訊雲廠商而言,既是「特有」的機會,也是挑戰。
阿里雲視訊雲規模化技術的整體實現思路請見下圖:
首先,我們採用了雲原生架構作為整體實現框架,利用雲的先天優勢做好彈性和按需處理,並且在視訊雲的IaaS層實現軟硬一體、雲邊一體和雲端一體。其次,媒體服務規模化技術的實現依賴演演算法、引擎、排程、分散式服務四層的相互配合,缺一不可。
以一個長視訊超分加HDR的處理任務為例,分散式服務層在接受任務後負責進行流程分析和編排,並將任務指令傳送至排程層,排程層負責依據任務引數進行預處理和並行拆分,引擎層負責依據拆分結果組織最優演演算法完成任務執行。單一任務尚且如此,海量任務高效且有質量的完成則更需要四層之間的配合。
規模化技術中的一項關鍵點為媒體引擎的單任務優化。
無論多麼海量和大規模的媒體處理與生產任務,最終仍需被拆分為單任務進行處理,它可被看做規模化的基石。從上圖中媒體處理的標準流程來看,引擎側需綜合考慮單任務全鏈路環節的穩定性、成本、效能以及時效性。
我們通過末端異常感知(穩定性優化)、多維度效能優化(利用演演算法工程優化、指令集優化、硬體加速優化和結合業務策略優化來優化單幀處理時間,進一步降低成本)、任務Quota動態調整(排程層依據引擎層動態反饋最優調整資源池設定,以節約成本)和單任務的分散式處理(將複雜任務拆分處理)實現單任務優化。
媒體引擎對基礎設施的多樣性支援,配合逐層遞進的分散式媒體排程與PaaS服務,可放大規模化效果。
媒體引擎可以更好地聯合排程層做好水位和資源池控制,實現降本增效。而業務層和引擎層程式直接接觸業務特性本身,對其非常敏感,我們還可以和業務層的規則引擎更好配合,將不同客戶場景要求、任務處理模式(標準模式、注重時效性的高倍速模式、注重資源獨佔的獨享模式和注重成本的閒時模式)與任務排程、資源排程、原子服務在引擎層的執行進行逐層遞進的配合,從而完成多場景和海量視訊的高並行處理。
接下來介紹三個關於規模化技術的實踐。首先,是最常見的關於短視訊高時效性與成本平衡的實踐。
短視訊時長短、數量多,客戶對視訊處理的耗時容忍度較低,同時對成本控制的要求較高。在該場景下我們主要考慮多指標的兼顧與平衡,採用了單任務效能優化、媒體檔案預處理,媒體處理多策略選擇的三重優化策略。
比如可通過準確分析音視訊流資訊的秒級預處理為下一步決策提供依據,在某短視訊場景中,客戶選擇以可播放作為媒體處理主策略的牽引,如果源片可播即優先播放源片,如果源片不可播,可以優先播放低解析度轉碼檔案,實現快速播放,如果源片有熱度,需要高質量呈現,可動態替換播放地址為高畫質轉碼視訊,或者直接使用動態多位元速率根據裝置與網路的情況,動態選擇適合的檔案切片播放,最終再結合上圖所示策略有針對性的進行單任務效能優化。
第二個實踐是關於長視訊的倍速處理。
在長視訊的轉碼與剪輯處理中,時效性無疑是最大的痛點,尤其是當客戶的行業是新聞資訊等需要快速分發的場景時,則顯得更加重要。與我們上個版本的的高倍速並行處理技術相比,最新版本增加了三個特性:1)高倍速並行框架既支援單入多出的轉碼場景,也支援輸入為多軌道/素材/效果編排的時間線的剪輯場景;2)無論時間線(timeline)的格式如何,我們均支援在任意位置split,精度到幀級別;3)不依賴客戶的主動設定,智慧判斷timeline是否適合分片以及如何分片能拿到最高的收益。
第三個實踐是關於高並行的實時媒體處理與生產。
它的特點與非實時的基於檔案的媒體生產完全不同,這場場景最大的痛點是在出現突發狀況的情況下保證穩定性和實時畫面質量,由此我們採用了多資源池隔離&容災互備、彈性伸縮、單流自動逃逸、多維度降級策略、無縫遷移、幀級別流同步等技術來保障這一點,還會與串流媒體網路的QoS緊密配合,保證客戶觀看實時流的體驗。
那麼該如何理解「規模化」與「全智慧」的關係?
「規模化」和「全智慧」看似無關,實際在雲端計算場景下它們關聯密切,規模化全場景意味著AI對多業務的滲透,而AI的加入對媒體業務的時效性有較大提升,AI+雲端計算則令海量的視訊智慧處理成為可能。總體來看,全智慧是實現規模化有效的手段和方法,並且隨著大模型技術的發展,以前AI最被詬病的效果問題也有了相當的改善,媒體處理與生產的質量得到顯著提升。我們在規模化程序中也會沿用媒體服務的頂層設計思路,持續實踐全智慧應用。
接下來分享關於全智慧三個階段的實踐。
階段1主要為較零散的智慧輔助處理,嚴格意義上還不能屬於全智慧生產。
以生產製作、媒資和媒體處理的應用為例,在生產製作的五個主要環節中,可以看到AI的主要任務是進行預處理和預分析,為人的決策提供依據。在渲染與合成中涉及的AI特性也僅為一些單一場景的特性,會針對特定場景進行規模化微調。
在媒資與媒體處理的環節中,AI主要針對視訊進行單一維度的內容理解,生成一些標籤和特徵值作為下一步驟的資料支援,人的參與至關重要,也難以進行全流程的規模化。
階段2為全智慧的初級階段。
以生產製作領域為例,主要在階段1的基礎上增加了「素材智慧挑選」和「時間線編排智慧」兩項功能。
案例視訊:https://v.youku.com/v_show/id_XNTk3MDQyNzc4OA==.html
如上面的例子,根據有限的素材進行批次混剪,幫助客戶進行短視訊行銷。在這個階段我們嘗試在無人干預的情況下規模化製作視訊,將原始素材通過畫面分析和AI預處理加工為中間片段,使用美學、豐富度優先等多種策略進行素材挑選,並參考短視訊模板規則進行時間線的部分智慧生成,最終實現利用有限素材,智慧生成多個不同的行銷成品視訊。
階段3為全智慧的進階。仍然以生產製作為例,在前2個階段的基礎上,我們增加了「素材生成智慧」和「時間線處理智慧」兩項功能。
隨著AIGC大模型的火爆,部分視訊素材可以由人工拍攝轉變為AI生成,解決了視訊生產製作過程中的一項難題。而時間線的智慧處理則將階段2時間線編排中的軌道、素材、效果物件的進行綜合智慧處理,如驅動數位人、摳像與替換、疊加與增強等。
案例視訊:https://v.youku.com/v_show/id_XNTk5NjA4OTAxNg==.html
如上視訊為生成的成片效果,短短20s的視訊(該視訊為程式設計師自主生成,可忽略美學效果)囊括了視訊摘要與搜尋、素材片段擷取、圖/文生圖/視訊、數位人、人聲復刻等多項AI技術,在這個階段的實踐中,AI已經全面覆蓋了視訊製作的各個環節。
那麼現在的AIGC足夠做出完美成片了嗎?
從視訊生產製作業務本身的創意、素材、編排、剪輯與包裝、渲染與合成等角度來看:AIGC很難提供原創的創意;在素材生成方面,AI已經取得了比較明顯的進展,但在素材及其片段的挑選方面基本還靠人工,比如文生圖一般都會提供多張供使用者挑選;時間線編排仍然以人工編排或模版套用為主,完全的智慧化尚處於起步階段;在剪輯與包裝、渲染與合成方面,AI以傳統的場景驅動和散狀支援為主。
總體上,當前AIGC在視訊生產製作領域主要是用於生成素材,成片以人工或固定邏輯串接為主,雖然其成長空間是巨大的,但此刻距離完美成片仍有很長的路要走。
事實上,在AIGC火爆之前,媒體服務在生產製作領域,就針對全智慧進行了佈局。
我們從生產製作的業務流程(創意、素材、編排、剪輯與包裝、渲染與合成)出發,推演全智慧的發展趨勢。另一方面,生產製作的輸出=媒資與媒體處理的輸入,我們認為這會進一步帶動媒資、媒體處理的全智慧。
從上圖可以看出,當前處於第三和第四階段的初期,我們相信第五階段終將到來,AI能夠依據海量豐富的資料自行發掘創意點,做有故事的視訊,真正擁有「創作力」。
關於智慧媒體服務的未來展望,基於當下大模型的發展趨勢,我們認為基礎大模型將像作業系統、瀏覽器一樣成為AI基礎設施與開發平臺底座,智慧媒體服務也會基於新一代智慧底座圍繞專業化、多場景、開放性、沉浸式和通用智慧再度進化:
一是為行業化視訊應用功能百花齊放做好PaaS層支援;二是利用AI進行內容創作的門檻大幅降低,大眾式的視訊內容創作可能即將來臨;三是視訊賽道的整體內容質量將大幅提升;四是對音視訊體驗有極致要求的場景比例將持續擴大;五是傳統網際網路媒資將演進為智慧數位資產管理;六是媒體服務支撐的各個領域,基於大模型的企業垂直應用,將快速搭建與生成。無論技術如何演進,智慧媒體服務為企業提供豐富、靈活、高效、智慧的媒體能力的初衷依然不會改變。
我今天的分享就到這裡,謝謝大家!