我們在尋找「網路」的全盤解法。

音視訊數位化在消費領域的紅利儼然見頂，而產業級視訊應用啟用了更多場景下的業務模式。與此同時，音視訊客戶也從單一的業務需求，趨向於多種業務並行存在的需求。

固有的網路能滿足新興的業態嗎？延時與成本之間存在區間最優解嗎？業務的升級切換如何不再費時費力？在成本可控下網路的穩定性怎樣保障？

一張多元融合的串流媒體傳輸網路可否解決全盤之困？

面向未來的串流媒體傳輸網路，又將從何揭開其神祕面紗？

本文由IMMENSE、「阿里雲視訊雲」通訊服務負責人黃海宇和LiveVideoStack策劃、採訪而成。

網路新基建，若隱若現

降本還是網路最大痛點嗎？「後設資料」是新主角嗎？

網路基礎設施升級、音視訊傳輸技術迭代、WebRTC開源等發展，音視訊業務在消費網際網路領域蓬勃發展，並逐漸向產業網際網路領域加速滲透。

然而，行業紅利期退卻之後，以往隱蔽的音視訊業務現象，逐漸顯露。

一方面，「降本」是持續熱議的話題。而在音視訊應用中，網路傳輸在IT成本中佔比很高，例如，在一個典型的直播應用中，網路傳輸成本佔總成本70%以上。於是，在降本增效的大背景下，降低網路傳輸成本，是行業客戶和雲廠商共同面臨的課題。

另一方面，「延時」帶來更多價值和空間。從消費端的實時互動，到產業端的實時遠端，對視訊流的延時要求越來越高，在雲渲染、雲遊戲、數位虛擬場景中，涉及複雜的編碼、解碼、傳輸環節，而最複雜的瓶頸就在於傳輸網路的時延，但網路的構成與影響因素高度複雜，對其延時的提升也是極大挑戰。

與此同時，新趨勢的生長也帶來更多挑戰。

不久前，蘋果Vision Pro在 WWDC 2023 亮相，推出其首個空間計算裝置，將熱度漸消的元宇宙重新拉回大眾視野。

圖片來源於網路

對未來的想象，不再侷限於頭盔上的渲染視訊，更涉及到雲端的互動與合成。然而，元宇宙的真正繁榮，不僅需要MR硬體終端的效能升級，更取決於串流媒體傳輸網路的迭代演進。

我們發現，當下的海量視訊主要基於傳統拍攝模式而生，可以預想，未來源自渲染合成的視訊比例將顯著增加，這一趨勢勢必帶來海量的計算和傳輸需求，同樣也帶來計算成本和傳輸成本的極大考驗。

同時，這也意味著網路需要承載更加不可估量的資料量級，這其中，不僅有常規的音視訊，更涵蓋更多維度的資料傳輸，比如基於遠端場景、雲遊戲下的控制信令資料、用於控制渲染視訊生成的「後設資料」，可以表達更復雜的立體場景資訊。

如此來看，需要一張承載多元內容的強大網路，同時提供高效能的雲邊計算能力，其作為新基建才能支撐未來式的視訊化業態。

「Unified」能解決所有關鍵嗎？

更低成本、更低延時、更多算力結合、更多維內容傳輸，這些無疑都是傳輸網路的趨勢關鍵，而怎樣的招式可以全盤解決？也許是「Uni」。

Uni源於Unified，意味著「統一」。

在網路上，我們正在探索落地更好的「Uni」技術、真正的「Uni」能力，創造由「Uni」帶來的業務價值。

阿里雲視訊雲基於廣泛的異構節點，構建了全分散式、超低延時、多業務支撐的多元融合串流媒體傳輸網路——MediaUni。

這是在我們的全球實時傳輸網路GRTN之上，以「大一統」的理念對網路深化設計，實現網路底座的全新升級。

MediaUni打通底層資源，統一技術架構，以一張串流媒體傳輸網路，實現音視訊應用中多形態的內容傳輸，並滿足更低成本、更低延時的多元融合業務需求。

延時可以是自由的

任何延時的業務，都能跑在一張網上？

得益於底座能力和關鍵技術的持續突破，音視訊服務已實現了從傳統的點播、直播，到實時音視訊的深化發展，未來，還將撬動傳統行業中眾多強實時、強互動場景的數位化升級。

其中，「時延」首當其衝成為最需攻克的難題之一。

以一張網，MediaUni能夠支撐全域延時的業務：

從普通直播（HLS/FLV）、到基於WebRTC技術的超低延時直播RTS（約1s左右延遲）、再到實時音視訊傳輸（如直播連麥、遠端監考等場景），同時，更可支援對延遲要求極高的雲渲染、實時遠端控制等業務，實現所有業務真正跑在一張網上。

延時「搶跑」，怎樣實現？

從根本上看，網路的延遲源自兩方面：物理的延遲與IP網路的不可靠。

為對抗物理的延遲，MediaUni基於全球3200+邊緣下沉節點的就近分佈，縮短了與使用者之間的「最後一公里」，縮短資料的傳輸路徑，以便更快感知傳輸網路質量的變化。

通過將渲染服務部署到靠近使用者的節點，阿里雲視訊雲在雙11支援淘寶直播全真虛擬互動空間「未來城」，實現超萬路並行線上的虛擬直播，並在2023央視春晚，以低延時傳輸雲渲染技術打造了首個元宇宙廟會，實現極致的超低延時體驗。

淘寶3D虛擬電商空間「未來城」

在對抗IP網路的不可靠性上，MediaUni設計了實時感知系統，實現對節點的負載、鏈路的網路狀況、以及業務關鍵資訊的秒級感知，並基於感知資料，智慧調整排程策略與路由策略，可以更好地分配物理資源，選擇服務質量更高的物理鏈路。

同時，通過不斷迭代的QoS技術，在擁塞控制、FEC、多徑傳輸等方向持續優化，對抗網路中的丟包、延遲與亂序，以滿足更低的網路延時。

目前，科學界公認的人類極限反應速度為100毫秒，一般人的反應在0.2～0.3秒間，在百米賽跑中，槍響後的0.1秒內起跑會被視為「搶跑」，而MediaUni支撐實現的雲渲染場景，已突破60ms以內的端到端互動延時，可謂音視訊延時的「搶跑」。

延時vs成本，網路可以handle?

眾所周知，在網路優化到一定程度以後，延時和傳輸成本會成為一對矛盾。

例如，在頻寬允許範圍內，為對抗丟包，協定棧不惜代價進行重傳或增加FEC，有效降低傳輸的延遲，但會因此付出更高的傳輸成本。

在行業普遍追求「快與更快」之際，低延時與低成本之間，是否有兩全之法？

對此，MediaUni的精要在於將降低延時的手段與增加傳輸成本進行量化，再根據業務的場景提供ROI最高的綜合方案，將每個bit的傳輸價值都發揮到極致。

➤ 對於普通的娛樂直播，其互動方式為彈幕，可以採取5s左右的FLV直播；

➤ 對於世界盃等賽事直播，可選用延遲1s左右的低延時直播；

➤ 對於電商直播，通過AB測試發現，採用延時低於1s的互動直播，能夠對GMV有一定的提升。

由此可見，能夠針對不同業務場景進行網路的精細化運營，自由選擇成本可控的業務延時，才是真正的「延時自由」。

多元融合，紅利釋放

業務複用，就是最大的技術普惠？

依託於強大的底層基礎設施資源，和長期積累的音視訊技術能力，相比於其他賽道玩家，雲廠商在網路服務中具備規模優勢。

此外，通過一張網路支援多元業務，「業務複用」本身將持續釋放技術紅利。

「紅利」可以透過三點顯現：

第一，業務混跑，驅動資源複用率的提高。

不同業務的錯峰複用率會更高，從而帶來更高的計算資源、網路資源複用率，如大部分會議、遠端監控等業務都處於白天工作時間，這與網際網路娛樂等「夜間經濟」形成很好的錯峰執行。

第二，技術複用，帶來研發邊際成本的降低。

在串流媒體傳輸中，無論是音視訊還是訊息信令的傳輸，無論是直播還是實時通訊業務，都需要解決基於大量節點的路由問題、全域性的快速資訊感知問題、協定棧優化抗弱網問題。

通過使用一張網路支援多元業務，可以複用這些基礎技術，使得在同樣的研發投入上，獲取更優的技術指標。

第三，雲產品的使用更便捷、更高效。

由於多業務的支撐，使用者可以更方便地升級服務或者組合出新的場景化方案。

例如，通過阿里雲控制檯，使用者只需「一鍵升級」，就可以將延時5s左右的普通直播，切換成延時僅為1s的超低延時直播RTS，或者延時在400ms以內的互動直播。

從資源利用、研發成本，再到產品使用，一張多元融合的網路實現了最極致的紅利釋放。

支援的業務多了，會打架嗎？

在駕馭「Uni」之下的多元業務時，MediaUni不可避免面臨著許多技術挑戰。

其中，最大的挑戰，來自於多業務複用之後對工程能力的要求。

一張網路支援多個業務以後，需要解決業務之間相互影響的問題，解決業務功能快速迭代的問題。

而MediaUni，通過良好的模組化設計來進行業務的隔離，減少不同業務的相互影響；同時，MediaUni構建了可程式化能力，對於一些簡單的業務需求，可以通過執行時可程式化來解決，從而滿足業務功能的快速迭代。

再者，多元業務複用的另一個技術挑戰，來源於資源的複用，即不同業務對資源消耗的瓶頸可能不同，例如直播的瓶頸在於頻寬，音視訊通訊中複雜的QoS策略可能帶來CPU的瓶頸，這時候需要更智慧的排程系統來對不同業務進行編排。

未來的N種可能

一張傳遞「人類五感」的網

在過去的幾十年中，通過一代代技術人的努力，人類的視覺和聽覺已經得到了較好的數位化呈現，實現瞭如今低延時、高可靠的音視訊體驗。然而，人類的感覺除了視覺與聽覺之外，還包括嗅覺、味覺、觸覺等。

可預見的是，沉浸式XR作為面向未來的互動形態，將需要同時對嗅覺、味覺、觸覺等感官資訊進行完全模擬和實時互動，從而實現使用者體驗擴充套件與人機互動，給使用者創造身臨其境、感同身受的逼真體驗。

面向未來的串流媒體傳輸網路，將實現更多維資料的高效傳輸。

未來，網路將支撐多種感覺（如味覺、嗅覺、觸覺甚至情感等）的互動通訊，人類多維感知的資料化、互動共同作業，也將在同一張網內進行。

如同遊戲手柄上的震動一般，刺激著一個復刻真實世界的真正元宇宙誕生。

三管齊下，優先佈局

為了支援未來多感官的音視訊應用，串流媒體傳輸網路將具備毫秒級的延時、與計算的緊密結合、後設資料的傳輸能力三大關鍵特徵，而MediaUni多元融合串流媒體傳輸網路正在這三個方面化深度演進。

➢ 高質量的毫秒級延時

在音視訊全鏈路延時中，網路傳輸延時，是其中最困難、優化空間最大的部分。

MediaUni通過大量的節點覆蓋和極具媒體特性感知的QoS優化，在雲渲染場景已達60ms以內的端到端延時，並持續探索更低延時的傳輸能力，未來將在20-100ms之間尋求延時的極致與質量的平衡。

➢ 收放自如的算網

網路天然就靠近使用者，我們希望通過網路連線分散式資源，有效促進算力資源的按需「流動」，彌補終端算力的不足。

利用全球廣域的分散式計算能力，MediaUni正在實現計算與傳輸的統一排程，已將部分實時媒體處理的業務部署在傳輸網路上，並支援實時啟動處理任務，在降低使用者延時的同時，有效優化媒體的網路傳輸成本。

➢ 後設資料傳輸

後設資料（Metadata），越來越成為音視訊產品的一部分，結合後設資料自定義音視訊功能，可以更好滿足場景的個性化需求。尤其在通向「人類五感」傳輸的網路世界裡，多維感官的資料化、精準化，更需要後設資料的支撐。

在音視訊傳輸之外，MediaUni也支援更多維度的資料內容，例如訊息信令的傳輸，進而可以擴充套件到更豐富的IM、多場景遠端控制、元宇宙等業務。未來，隨著多感官網路通道的真正開啟，MediaUni將發揮更大的能量。

面向未來，MediaUni將如何實現「多元融合」下的新升級？

敬請期待7月28日

LiveVideoStackCon2023上海站

阿里雲視訊雲專場

阿里雲智慧高階技術專家帶來演講

《MediaUni：面向未來的串流媒體傳輸網路設計與實踐》

一同走進「多元融合」的網路世界！

多元融合：串流媒體傳輸網路的全盤解法

網路新基建，若隱若現

延時可以是自由的

多元融合，紅利釋放

未來的N種可能