算力時代,視訊雲需要怎樣的 CPU?
在資料爆發式增長及演演算法日益精進的大背景下,屬於「算力」的時代儼然到來。隨著視訊成為網際網路流量的主角,日趨飽和的音視訊場景滲透率、人類對「感官之限」的追求與突破、更多元化的場景探索及技術需求,為視訊編碼能力和底層算力及硬體支援帶來更大的挑戰。
「視訊雲作為音視訊行業的基礎設施,能極大地簡化視訊從採集、處理、編碼、傳輸到分發的全鏈路流程。」正如阿里雲視訊雲技術負責人在《芯事》訪談中所提到的,阿里雲視訊雲與倚天 710 一起,正在踏上視訊普惠千行百業的新徵程。
點選連結檢視視訊:https://www.eefocus.com/video/1462707.html
2022 年北京冬奧會,阿里雲承接了一項重要的任務,那就是支撐冬奧全面上雲。為此,阿里雲視訊雲推出了全新的雲上創新解決方案——阿里雲聚「Alibaba Cloud ME」,這也是全球第一次在奧運會上實現異地全像會面,是一次打破時空之距的革命性創新。在感嘆雲上沉浸之旅的精妙之餘,我們不禁要問,阿里雲視訊雲上路即狂奔的硬實力是什麼?除了使命必達的奮鬥精神和強大的軟體、演演算法支撐能力以外,阿里雲視訊雲技術負責人致凡還提到了倚天 710。
當我們將目光投射到倚天 710 上,會發現它誕生於 2021 年,是一款由平頭哥自研的雲晶片,經過一年多時間的硬體部署和業務驗證,倚天 710 範例已成功應用到阿里巴巴集團的核心業務中,並服務多家知名網際網路及科技公司。正是基於前期優良的表現,倚天 710 已在阿里雲資料中心部署,未來部署規模將繼續擴大。當然,沒有一款晶片生來就如此強大,視訊雲技術負責人談到:「視訊雲和倚天 710 的結合是一段美好的旅程,但中間還是經歷了非常多的事情。」
回憶起這段旅程:「由於視訊業務的增長速度是非常快的,研製一顆晶片的週期也非常長,不論是晶片研發、還是晶片落地後適配視訊雲業務成長,都是極具挑戰的,但我們一起做好了正視挑戰、突破壁壘的準備。當第一版晶片流片回來後,晶片基本效能表現穩定,且由於 Arm 架構帶來的原生優勢,再加上阿里雲和平頭哥的同學雙方坐在一起,在瞭解晶片內部構成的基礎上去做了很多演演算法調優後,能夠讓程式碼在晶片上跑得更快。
同時,倚天 710 還針對特定演演算法場景進行了指令集加速與優化,比如像 SVE 等向量計算技術,其中 BF16/INT8 mmla 指令可實現高效的矩陣乘法運算,還支援 Hash、CRC32 等加速指令,可以讓單條指令並行處理更多資料,大幅提升視訊編解碼、AI 編解碼增強等場景效能,這是一個兩邊一起迭代的過程。」
所以,從最早的效能挑戰傳統架構 CPU,到現在已經遠遠超過傳統架構 CPU,倚天 710 的「蛻變」是一步一個腳印走過來的。視訊雲技術負責人認為:「這是一個非常好的案例,阿里雲視訊雲的業務跟平頭哥的晶片設計能夠完美地結合在一起,利用各自的優勢讓晶片設計出來,在視訊行業中發揮更大的作用。」
談起平頭哥和阿里雲視訊雲業務的這次合作,就不能不提到一個大的產業背景,即視訊雲的爆發式增長。至於什麼是視訊雲?「視訊雲就像是音視訊行業的水和電,是底層的基礎設施,可以大大簡化視訊從採集、處理、編碼、傳輸到分發的鏈路。」這個比喻再恰當不過。
從 2017 年開始,短視訊的熱度持續上升,加上近三年疫情下直播、視訊會議、線上教學等領域的崛起,社會視訊化成為一種大趨勢。根據 CNNIC 釋出的第 50 次《中國網際網路絡發展狀況統計報告》資料顯示,截至 2022 年 6 月,我國行動網際網路接入流量達 1241 億 GB,同比增長 20.2%;另根據思科釋出的資料顯示,視訊內容約佔網際網路總流量的 90%,佔行動網路總流量的 64%。結合這兩組資料,我們可以得出視訊正在成為網際網路流量的主角,而爆炸性的資料量又將會對算力和儲存提出更大的挑戰。
於是視訊雲的價值被凸顯出來,並呈現出了一種不可逆的發展態勢。在這樣的大背景下,全球以網際網路公司為主的科技企業紛紛轉型,開啟視訊雲技術的探索之旅,並在安防監控、遠端醫療、零售電商以及金融機構等典型場景中得到落地。當前,視訊雲產業已經形成了相對穩定的頭部戰隊,包括微軟、AWS、阿里雲等主流雲廠商。
關於國內視訊雲的市場體量方面,根據 IDC 釋出的資料顯示,2022 上半年中國視訊雲市場規模達到 50.5 億美元,同比增長 15.7%,預計到 2026 年,市場規模接近 300 億美元。值得一提的是,通過報告顯示,阿里雲視訊雲連續 5 年佔據中國視訊雲整體市場份額第一,並且滲透率還在不斷攀升。
對於視訊雲產業來講,以線上視訊為例,從最早國外的 Livestream、國內的鬥魚直播到現在,已經經歷了 25 年的歷史,其實從技術的角度來看,整個行業發展的速度沒有想象中的快。比如,視訊編碼從 H.264 到 H.265,再到 H.266,平均 10 年升級一代。為什麼速度不是很快?因為它要解決的問題比較多:算力、網路傳輸、標準等等。但是,我們看到今天的視訊產業發展非常迅猛,這也倒逼技術要去完成快速迭代。這幾年已經初顯效果,比如現在編碼器的升級迭代速度是 5 年,以前是 10 年,預計後面可能是 3 年。
為什麼這裡要強調編碼?事實上,視訊雲是一個算力密集型行業,視訊資訊量很大,假如採用和文字、圖片一樣的壓縮模式,那麼還原度是不夠的,所以視訊必須進行編碼處理。編碼要是做不好,不僅會損失視訊質量,還會帶來傳輸難度高的問題。從 MPEG2 開始,每一代視訊編碼的升級,其壓縮率大約可以提升 50%,遠低於視訊解析度每更新一代提升 4 倍的速度,即使這樣,每一代升級對 CPU 算力的需求,以及演演算法複雜度都會提高至少 10 倍以上,這對晶片的架構、晶片底層的指令集優化、晶片的記憶體和 cache 結構都會帶來新的挑戰,很多核心的演演算法要用新的指令集重新寫一遍,這意味著視訊編碼和晶片成長是需要同步的。
通過前面的介紹,我們瞭解到視訊編碼對算力的要求很高,因為我們常常試圖用算力換儲存,用算力換傳輸頻寬,所以我們希望算力越高越好。
那麼如何提升 CPU 的算力?首先要選擇好的核心架構。在視訊領域,傳統架構已經有三十幾年的歷史了,目前市佔率依然能達到 90%以上的份額,但裹挾著沉重的向後相容包袱。而 Arm 作為一種精簡指令集,不僅沒有歷史包袱,還可以根據需求增加很多暫存器,同時從記憶體 cache 結構的設計和指令集的設計上面,能夠更貼合需要大算力的視訊處理需求。此外,不管是 Hyper-Threading 還是其他,採用傳統架構的 CPU 走的都是提高主頻的路子,在視訊處理時就會遇到一些問題,比如視訊壓縮的時候會分成 I 幀、P 幀、B 幀,每一幀的算力並不是平均分配的,就會帶來對算力需求不穩定的問題。
所以為了讓晶片不跑超頻,就可能會做一些降頻處理,這時候它的算力就可能達不到相應的編碼需求。在實際業務中,由於視訊業務不是單機執行的,會有很多的伺服器叢集配合來處理,為了防止 CPU 跑超等複雜情況的出現,就不得不把伺服器叢集的水位降低,這是傳統架構 CPU 比較大的問題。然而,Arm 整體的設計是比較穩定的,不管任務有多複雜,都能實現穩定輸出,做到良好的資源調配和水位調配,不用預留很多冗餘來防止晶片跑超,這對於 to B 業務來說非常重要。
除了主頻高以外,傳統架構 CPU 的核不多,通常是兩個 vCPU/HT 共用一個物理核、1 份 ALU,但 Arm 可以實現 128/256/512 或更多的核,類似 GPU 的設計,如此一來,對於不同應用場景而言,就可以用少核應對低算力需求的場景,多核應對高算力需求的場景,實現更優的業務調配,降低投入成本。以倚天 710 為例,內含 128 核 CPU,主頻 2.75GHz,可適配雲的不同應用場景。
與此同時,隨著資料上雲越來越多,對於資料中心而言,功耗效能也是非常重要的,對運營者來說,低功耗就意味著低成本,除了軟體層面的優化以外,倚天 710 能同時兼顧高效能和低功耗。
以上要素疊加,就讓視訊雲的頭部企業阿里雲與倚天 710 的結合看起來水到渠成。當前,倚天 710 已大規模部署並提供雲上服務,根據實踐反饋,倚天 710 讓阿里雲平臺的算力價效比提升了超 30%,單位算力功耗降低了 60%,這是一個相當大的進步。
縱觀視訊雲產業,人們對體驗的極致追求,將成為視訊雲持續深耕的動力。在雲應用場景下,CPU 的發展之路將循著算力、I/O、網路協定適配、推理能力、從無到有的創造能力不斷演進下去。未來,Arm 會成為視訊雲中一種重要的架構,整體份額一定會增加,但不會是唯一的架構,傳統架構、異構的 ASIC 和 FPGA 都會有一席之地。而對於 Arm 架構而言,未來的改進方向是降低功耗、提高算力、做好專用性和通用性的選擇平衡。
同時,我們要意識到,未來視訊對算力的挑戰是非常高的,簡單地靠 CPU 的升級已經滿足不了需求,需要一些特殊的處理,包括越來越多的 AI 演演算法、專用演演算法,比如模型搜尋的演演算法等,再把通用的模組部分地固化在晶片裡面,極大地提升視訊處理的效率。
所以在視訊雲市場,人們總是在做權衡,雲晶片廠商要處理好晶片能效和通用性的關係,雲服務商要在算力有限的情況下使用很多快速演演算法。而正如阿里雲視訊雲技術負責人所強調的:「我們的願景都是一樣的,就是讓視訊普惠各行各業,再反哺視訊行業,實現更茁壯的發展。」