我們在尋找「網路」的全盤解法。
音視訊數位化在消費領域的紅利儼然見頂,而產業級視訊應用啟用了更多場景下的業務模式。與此同時,音視訊客戶也從單一的業務需求,趨向於多種業務並行存在的需求。
固有的網路能滿足新興的業態嗎?延時與成本之間存在區間最優解嗎?業務的升級切換如何不再費時費力?在成本可控下網路的穩定性怎樣保障?
一張多元融合的串流媒體傳輸網路可否解決全盤之困?
面向未來的串流媒體傳輸網路,又將從何揭開其神祕面紗?
本文由IMMENSE、「阿里雲視訊雲」通訊服務負責人黃海宇和LiveVideoStack策劃、採訪而成。
降本還是網路最大痛點嗎?「後設資料」是新主角嗎?
網路基礎設施升級、音視訊傳輸技術迭代、WebRTC開源等發展,音視訊業務在消費網際網路領域蓬勃發展,並逐漸向產業網際網路領域加速滲透。
然而,行業紅利期退卻之後,以往隱蔽的音視訊業務現象,逐漸顯露。
一方面,「降本」是持續熱議的話題。而在音視訊應用中,網路傳輸在IT成本中佔比很高,例如,在一個典型的直播應用中,網路傳輸成本佔總成本70%以上。於是,在降本增效的大背景下,降低網路傳輸成本,是行業客戶和雲廠商共同面臨的課題。
另一方面,「延時」帶來更多價值和空間。從消費端的實時互動,到產業端的實時遠端,對視訊流的延時要求越來越高, 在雲渲染、雲遊戲、數位虛擬場景中,涉及複雜的編碼、解碼、傳輸環節,而最複雜的瓶頸就在於傳輸網路的時延,但網路的構成與影響因素高度複雜,對其延時的提升也是極大挑戰。
與此同時,新趨勢的生長也帶來更多挑戰。
不久前,蘋果Vision Pro在 WWDC 2023 亮相,推出其首個空間計算裝置,將熱度漸消的元宇宙重新拉回大眾視野。
圖片來源於網路
對未來的想象,不再侷限於頭盔上的渲染視訊,更涉及到雲端的互動與合成。然而,元宇宙的真正繁榮,不僅需要MR硬體終端的效能升級,更取決於串流媒體傳輸網路的迭代演進。
我們發現,當下的海量視訊主要基於傳統拍攝模式而生,可以預想,未來源自渲染合成的視訊比例將顯著增加,這一趨勢勢必帶來海量的計算和傳輸需求,同樣也帶來計算成本和傳輸成本的極大考驗。
同時,這也意味著網路需要承載更加不可估量的資料量級,這其中,不僅有常規的音視訊,更涵蓋更多維度的資料傳輸,比如基於遠端場景、雲遊戲下的控制信令資料、用於控制渲染視訊生成的「後設資料」,可以表達更復雜的立體場景資訊。
如此來看,需要一張承載多元內容的強大網路,同時提供高效能的雲邊計算能力,其作為新基建才能支撐未來式的視訊化業態。
「Unified」能解決所有關鍵嗎?
更低成本、更低延時、更多算力結合、更多維內容傳輸,這些無疑都是傳輸網路的趨勢關鍵,而怎樣的招式可以全盤解決?也許是「Uni」。
Uni源於Unified,意味著「統一」。
在網路上,我們正在探索落地更好的「Uni」技術、真正的「Uni」能力,創造由「Uni」帶來的業務價值。
阿里雲視訊雲基於廣泛的異構節點,構建了全分散式、超低延時、多業務支撐的多元融合串流媒體傳輸網路——MediaUni。
這是在我們的全球實時傳輸網路GRTN之上,以「大一統」的理念對網路深化設計,實現網路底座的全新升級。
MediaUni打通底層資源,統一技術架構,以一張串流媒體傳輸網路,實現音視訊應用中多形態的內容傳輸,並滿足更低成本、更低延時的多元融合業務需求。
任何延時的業務,都能跑在一張網上?
得益於底座能力和關鍵技術的持續突破,音視訊服務已實現了從傳統的點播、直播,到實時音視訊的深化發展,未來,還將撬動傳統行業中眾多強實時、強互動場景的數位化升級。
其中,「時延」首當其衝成為最需攻克的難題之一。
以一張網,MediaUni能夠支撐全域延時的業務:
從普通直播(HLS/FLV)、到基於WebRTC技術的超低延時直播RTS(約1s左右延遲)、再到實時音視訊傳輸(如直播連麥、遠端監考等場景),同時,更可支援對延遲要求極高的雲渲染、實時遠端控制等業務,實現所有業務真正跑在一張網上。
延時「搶跑」,怎樣實現?
從根本上看,網路的延遲源自兩方面:物理的延遲與IP網路的不可靠。
為對抗物理的延遲,MediaUni基於全球3200+邊緣下沉節點的就近分佈,縮短了與使用者之間的「最後一公里」,縮短資料的傳輸路徑,以便更快感知傳輸網路質量的變化。
通過將渲染服務部署到靠近使用者的節點,阿里雲視訊雲在雙11支援淘寶直播全真虛擬互動空間「未來城」,實現超萬路並行線上的虛擬直播,並在2023央視春晚,以低延時傳輸雲渲染技術打造了首個元宇宙廟會,實現極致的超低延時體驗。
淘寶3D虛擬電商空間「未來城」
在對抗IP網路的不可靠性上,MediaUni設計了實時感知系統,實現對節點的負載、鏈路的網路狀況、以及業務關鍵資訊的秒級感知,並基於感知資料,智慧調整排程策略與路由策略,可以更好地分配物理資源,選擇服務質量更高的物理鏈路。
同時,通過不斷迭代的QoS技術,在擁塞控制、FEC、多徑傳輸等方向持續優化,對抗網路中的丟包、延遲與亂序,以滿足更低的網路延時。
目前,科學界公認的人類極限反應速度為100毫秒,一般人的反應在0.2~0.3秒間,在百米賽跑中,槍響後的0.1秒內起跑會被視為「搶跑」,而MediaUni支撐實現的雲渲染場景,已突破60ms以內的端到端互動延時,可謂音視訊延時的「搶跑」。
延時vs成本,網路可以handle?
眾所周知,在網路優化到一定程度以後,延時和傳輸成本會成為一對矛盾。
例如,在頻寬允許範圍內,為對抗丟包,協定棧不惜代價進行重傳或增加FEC,有效降低傳輸的延遲,但會因此付出更高的傳輸成本。
在行業普遍追求「快與更快」之際,低延時與低成本之間,是否有兩全之法?
對此,MediaUni的精要在於將降低延時的手段與增加傳輸成本進行量化,再根據業務的場景提供ROI最高的綜合方案,將每個bit的傳輸價值都發揮到極致。
➤ 對於普通的娛樂直播,其互動方式為彈幕,可以採取5s左右的FLV直播;
➤ 對於世界盃等賽事直播,可選用延遲1s左右的低延時直播;
➤ 對於電商直播,通過AB測試發現,採用延時低於1s的互動直播,能夠對GMV有一定的提升。
由此可見,能夠針對不同業務場景進行網路的精細化運營,自由選擇成本可控的業務延時,才是真正的「延時自由」。
業務複用,就是最大的技術普惠?
依託於強大的底層基礎設施資源,和長期積累的音視訊技術能力,相比於其他賽道玩家,雲廠商在網路服務中具備規模優勢。
此外,通過一張網路支援多元業務,「業務複用」本身將持續釋放技術紅利。
「紅利」可以透過三點顯現:
第一,業務混跑,驅動資源複用率的提高。
不同業務的錯峰複用率會更高,從而帶來更高的計算資源、網路資源複用率,如大部分會議、遠端監控等業務都處於白天工作時間,這與網際網路娛樂等「夜間經濟」形成很好的錯峰執行。
第二,技術複用,帶來研發邊際成本的降低。
在串流媒體傳輸中,無論是音視訊還是訊息信令的傳輸,無論是直播還是實時通訊業務,都需要解決基於大量節點的路由問題、全域性的快速資訊感知問題、協定棧優化抗弱網問題。
通過使用一張網路支援多元業務,可以複用這些基礎技術,使得在同樣的研發投入上,獲取更優的技術指標。
第三,雲產品的使用更便捷、更高效。
由於多業務的支撐,使用者可以更方便地升級服務或者組合出新的場景化方案。
例如,通過阿里雲控制檯,使用者只需「一鍵升級」,就可以將延時5s左右的普通直播,切換成延時僅為1s的超低延時直播RTS,或者延時在400ms以內的互動直播。
從資源利用、研發成本,再到產品使用,一張多元融合的網路實現了最極致的紅利釋放。
支援的業務多了,會打架嗎?
在駕馭「Uni」之下的多元業務時,MediaUni不可避免面臨著許多技術挑戰。
其中,最大的挑戰,來自於多業務複用之後對工程能力的要求。
一張網路支援多個業務以後,需要解決業務之間相互影響的問題,解決業務功能快速迭代的問題。
而MediaUni,通過良好的模組化設計來進行業務的隔離,減少不同業務的相互影響;同時,MediaUni構建了可程式化能力,對於一些簡單的業務需求,可以通過執行時可程式化來解決,從而滿足業務功能的快速迭代。
再者,多元業務複用的另一個技術挑戰,來源於資源的複用,即不同業務對資源消耗的瓶頸可能不同,例如直播的瓶頸在於頻寬,音視訊通訊中複雜的QoS策略可能帶來CPU的瓶頸,這時候需要更智慧的排程系統來對不同業務進行編排。
一張傳遞「人類五感」的網
在過去的幾十年中,通過一代代技術人的努力,人類的視覺和聽覺已經得到了較好的數位化呈現,實現瞭如今低延時、高可靠的音視訊體驗。然而,人類的感覺除了視覺與聽覺之外,還包括嗅覺、味覺、觸覺等。
可預見的是,沉浸式XR作為面向未來的互動形態,將需要同時對嗅覺、味覺、觸覺等感官資訊進行完全模擬和實時互動,從而實現使用者體驗擴充套件與人機互動,給使用者創造身臨其境、感同身受的逼真體驗。
面向未來的串流媒體傳輸網路,將實現更多維資料的高效傳輸。
未來,網路將支撐多種感覺(如味覺、嗅覺、觸覺甚至情感等)的互動通訊,人類多維感知的資料化、互動共同作業,也將在同一張網內進行。
如同遊戲手柄上的震動一般,刺激著一個復刻真實世界的真正元宇宙誕生。
三管齊下,優先佈局
為了支援未來多感官的音視訊應用,串流媒體傳輸網路將具備毫秒級的延時、與計算的緊密結合、後設資料的傳輸能力三大關鍵特徵,而MediaUni多元融合串流媒體傳輸網路正在這三個方面化深度演進。
➢ 高質量的毫秒級延時
在音視訊全鏈路延時中,網路傳輸延時,是其中最困難、優化空間最大的部分。
MediaUni通過大量的節點覆蓋和極具媒體特性感知的QoS優化,在雲渲染場景已達60ms以內的端到端延時,並持續探索更低延時的傳輸能力,未來將在20-100ms之間尋求延時的極致與質量的平衡。
➢ 收放自如的算網
網路天然就靠近使用者,我們希望通過網路連線分散式資源,有效促進算力資源的按需「流動」,彌補終端算力的不足。
利用全球廣域的分散式計算能力,MediaUni正在實現計算與傳輸的統一排程,已將部分實時媒體處理的業務部署在傳輸網路上,並支援實時啟動處理任務,在降低使用者延時的同時,有效優化媒體的網路傳輸成本。
➢ 後設資料傳輸
後設資料(Metadata),越來越成為音視訊產品的一部分,結合後設資料自定義音視訊功能,可以更好滿足場景的個性化需求。尤其在通向「人類五感」傳輸的網路世界裡,多維感官的資料化、精準化,更需要後設資料的支撐。
在音視訊傳輸之外,MediaUni也支援更多維度的資料內容,例如訊息信令的傳輸,進而可以擴充套件到更豐富的IM、多場景遠端控制、元宇宙等業務。未來,隨著多感官網路通道的真正開啟,MediaUni將發揮更大的能量。
面向未來,MediaUni將如何實現「多元融合」下的新升級?
敬請期待7月28日
LiveVideoStackCon2023上海站
阿里雲視訊雲專場
阿里雲智慧高階技術專家帶來演講
《MediaUni:面向未來的串流媒體傳輸網路設計與實踐》
一同走進「多元融合」的網路世界!