多維評測指標解讀2022MSU世界編碼器大賽結果

2023-04-28 12:01:00

 

是極致效能,更是最佳商用。

19項第一之上,是63%的極致頻寬降低

近日,2022 MSU世界視訊編碼器大賽成績正式揭曉。報告顯示,阿里媒體處理服務MPS(Alibaba Media Processing Service)s264及s265編碼器共計斬獲19項評測第一,相較大賽指定基準編碼器(AWS Elemental MediaConvert),可再節省高達63%的位元速率,極大幅降低頻寬和儲存成本。

MSU世界視訊編碼器大賽是視訊編碼壓縮領域最具權威和影響力的全球頂級賽事,迄今為止已舉辦17屆。僅在今年的雲轉碼賽道中,就有國內外8家參賽單位的19款編碼器參加比賽,包括微軟、亞馬遜、騰訊等知名科技企業。

此次,阿里雲視訊雲自研s264編碼器在H264主觀賽道及客觀賽道全面領先,獲得了19大細分賽道中的15項第一,並在相同主觀質量下至少可節省16%的頻寬、儲存成本,在轉碼效率上較友商領先13倍;同時,自研s265編碼器在相當的頻寬及儲存成本下,具有較友商2~6倍的轉碼效率及更精準的位元速率控制。

480p Comparison

720p Comparison
1080p Comparison
1080p Subjective Comparison(主觀賽道)

為了全面地評測參賽編碼器的水平,MSU比賽採用了PSNR、SSIM、VMAF等多個經典客觀指標,和基於人眼打分的主觀指標:

PSNR,基於對應畫素點計算原始視訊和失真視訊之間的誤差來評價失真視訊的質量,是目前視訊質量評估中最傳統最基本的評估準則,但是由於PSNR並未直接考慮人眼視覺特性,因此其評價結果與人的主觀感受並不完全一致;
SSIM,從亮度、對比度和結構資訊三個方面來估計失真影象的視覺質量,旨在比較原始視訊和失真視訊的結構相似度,研究感知結構的損傷來評估視訊質量,可以更好地反映人眼主觀特性;
VMAF,是將人類視覺建模與機器學習相結合的一種視訊質量評價指標,將不同評估維度的演演算法進行「融合」,旨在得到一個能準確反映主觀意志的畫質評價標準,但人眼視覺系統是一個複雜系統,該指標還需有大量有效的、符合實際評測環境的資料集。
人眼主觀質量,代表了視訊質量的黃金標準(golden standard),因為人是視訊最終的消費者,因此主觀質量評估是站在觀測者的角度,真實反映人的視覺感受和審美水平,避免各種客觀質量模型都無法全面模擬人的視覺系統的問題。

觀察MSU賽事會發現,其中的「SSIM」也被MSU主辦方選為主要評價指標。

「For objective quality measurements we used YUV-SSIM metric (see Appendix F.1) as a main objective indicator, and other metrics (PSNR, VMAF) as an additional quality metrics. Our team is constantly researching the area of objective video quality metrics to find good solutions for large comparisons.」

在編碼器的實際開發過程中,為了降低測試難度和測試成本,往往以客觀評價為主,但在最終版本釋出時,仍然將主觀質量作為最重要的評價依據。實踐表明,對編碼器採用這樣的評價方法,不僅可以保證編碼器的開發效率,同時也可以保證編碼影象質量符合人眼的主觀特性。

雲轉碼,何為最佳商用?

無論是主觀還是客觀指標,在大眾的有限焦點中,往往過度關注單維的畫面質量,而忽略了更為關鍵的應用指標——轉碼速度和位元速率控制。

本次賽事中,除編碼視訊的畫面質量外,MSU大賽主辦方還評測了各雲轉碼廠商的轉碼速度、位元速率控制(位元速率準確度)等重要指標,可全方位地評價各廠商的編碼器效能及商用價值。而真實效能和商用價值,也正是編碼器的核心所在。

首先,是轉碼速度。

我們知道,位元速率越高,視訊壓縮程度越低,相反,位元速率越低,表示視訊壓縮程度越高,該指標在保證畫質的同時,最直接影響的是頻寬及儲存成本。

同時,轉碼速度越快,則意味著轉碼任務的時效性高,在實際商用場景中,速度帶來的效率提升不言而喻,轉碼效率更高也意味著功耗更低。

如下圖所示,在相同質量下,縱座標表示各廠商編碼器相對於基準編碼器輸出檔案的平均位元速率(bitrate)大小;橫座標表示,在相同質量下,較基準編碼器所需的編碼時間比例。

以H264 1080P,YUV(6:1:1)SSIM metric子賽道為圖例

正如橫(Faster)縱(Better)箭頭所指,越靠近圖片左上角則表示:在相同質量下,該編碼器的位元速率越低,轉碼速度越快。可見,除了前文提到的主客觀畫質卓越,阿里MPS s264在編碼器效能及商用價值維度更加處於領先之勢。

同樣在HEVC/AV1賽道中,根據下圖所示,縱向對比,阿里MPS s265編碼器在質量相同的情況下,較大賽基準編碼器可節省高達63%的位元速率。同時,橫向對比,在相同質量及相當的頻寬、儲存成本情況下,具有較友商2~6倍的轉碼效率。

以HEVC 1080P,YUV(6:1:1)SSIM metric子賽道為圖例

值得一提的是,如下圖,MSU官網首頁結果顯示:阿里MPS轉碼速度最快,轉碼所需時長波動最小,這背後意味著阿里雲視訊雲能夠提供更加穩定可靠、實時滿足商用要求的相關轉碼服務,而這也是雲廠商技術實力和綜合能力的體現。

橫座標表示轉碼時長,圖例長度表示轉碼時長的波動

再者,是位元速率控制。

位元速率控制精準率也是實際商用中需要參考的重要指標,為什麼這麼說?

在實際商用中,客戶對畫面質量與成本是十分敏感的。若碼控不佳,編碼器實際輸出位元速率可能與目標位元速率差異較大,對客戶的實際體驗產生較大影響。

例如,當客戶的需求是降低頻寬、儲存成本時,編碼器實際輸出位元速率可能比目標位元速率高出很多,這會導致客戶頻寬、儲存成本的增加;而當客戶的需求是畫質的高度保真時,編碼器輸出的視訊位元速率可能低於目標位元速率很多,這會導致整體畫質受損嚴重、無法滿足終端客戶需求。綜合來看,高度不穩定的碼控最終將導致商業價值的受損。

可見,位元速率控制的基礎性和必要性。

針對位元速率控制,下圖則表示HEVC/AV1賽道的實際輸出位元速率與預設目標位元速率的比例,無限接近1表示該編碼器位元速率控制的精準度越高。

以下圖舉例,假設客戶需要將視訊壓縮至500M,如果位元速率控制不佳,實際輸出位元速率和預設目標位元速率之間差距少則2倍,多則7倍,則輸出視訊可能在1000M到3500M之間隨機產生。

因此,一款最佳編碼器,其核心目標並非比拼單一效能的指標,而是在極致質量、極致位元速率、極致效率和成本之間,尋求最極致的多維度平衡,最終為賽道和客戶帶來最有效的應用突破,而這更是一款商用編碼器所具備的最佳品格。

「軟硬一體」的自我進化

從MSU大賽視角,轉移到商業落地,能夠看到更多的技術突破和應用創新。

阿里MPS主要基於視訊雲自研的兩大編碼器s264和s265,覆蓋直播,點播,RTC場景,從核心、前處理到碼控各個部分,基於不同應用場景開發了100多個演演算法。

此外,阿里雲視訊雲與平頭哥資料中心解決方案團隊聯合,針對倚天ECS進行s264,s265編碼器的深度優化,打造了ARM友好的視訊編碼器。

在ARM視訊編碼優化上,重構了視訊編碼資料結構,並行框架,重新調優了快速演演算法策略,從軟體,組合,硬體層面跨層深度優化,打造極致成本。

未來,阿里雲視訊雲會基於倚天ECS的超強算力,聚焦視訊編解碼、視訊處理持續挖掘算力空間,通過「軟硬一體」的聯合優化,持續塑造極致效能。