第一次工作進展報告

隨著沉浸式虛擬現實（VR）技術的發展，360°視訊越來越多地被使用，然而，與傳統的視訊內容傳輸相比，其具有更高的頻寬和更低的延遲要求，如何傳輸高解析度低時延的視訊內容是虛擬現實技術發展的關鍵性問題。

在「A Survey on Adaptive 360°Video Streaming: Solutions, Challenges and Opportunities」一文中，作者從視訊投影、編碼、動態調整視口大小的自適應360°視訊流方法、傳輸360°視訊流網路相關解決方案、視口預測、體驗品質QoE評估等多方面概述了虛擬現實視訊傳輸方面的挑戰和研究機會。

在視訊投影方案中，作者介紹了四種現有的投影方法，等矩形投影（如圖1）、立方體貼圖投影（如圖2）、金字塔投影（如圖3）以及偏移立方圖投影（如圖4）。等矩形投影是最為常見的投影技術，其可以表示為使用偏航角、俯仰角的值將觀察者周圍的球體展平到二維表面上，常見的例子有世界地圖。立方體貼圖投影是六邊立方體組合用於將球體的畫素投影到立方體上相關畫素，這種投影方式常用於遊戲和視訊串流媒體（如：YouTube）。金字塔投影方式在視口相關投影中，顯示區域的保真度高於其它區域，這種方法將視訊的大小減少了80%，但其缺點較為突出，即當使用者的頭上下移動120°或左右旋轉180°，視訊品質會急劇下降。偏移立方圖投影與傳統的立方體貼圖技術類似，將畫素投影到立方體的六個面，它具有與偏移方向相關聯的觀看區域以更高的品質顯示的特點，缺點是儲存開銷大。

圖1 圖2

圖3 圖4

在視訊編碼方面，目前高效的視訊編碼HEVC/H.265相比於VC/H.264節省了近50%的視訊位元率，其支援高效視訊流的平鋪功能。如圖5，背景一般是不動的，在這種情況下，我們的做法不是對每一幀的每一個畫素編碼，而是對最初的幀編碼，然後僅對發生改變的進行編碼。與HEVC/H.265相比，下一代通用視訊編碼（VVC）標準有望將壓縮效率提高30%。

圖5 .264與H.265編碼對比

在自適應360°視訊流方案中，主要分為三類，與視口無關、與視口相關以及基於切片的流。與視口無關的流是360°視訊流傳輸的最直接的方式，因為整個幀以類似傳統視訊的同等品質傳輸整個視訊流，它的優點是不需要頭戴式顯示裝置（HMD）的任何方位資訊，缺點是與視口相關的流相比，它的編碼效率低30%，需要大量的頻寬和編碼資源。與視口相關的自適應流中，終端裝置僅接受特定區域的視訊幀，這些區域包含視口角度相等或更大的視覺資訊，使用者端根據網路特徵和使用者的觀看方向執行自適應。在「Optimal set of 360-degree videos for viewport-adaptive streaming」一文中，描述了一種為視口相關流產生不同品質片段的實用方法。他們提出了品質強調區域(QERs)策略，以在有限數量的表示可用於流式傳輸時縮放特定區域的解析度。而在「Optimized Viewport Dependent Streaming of Stereoscopic Omnidirectional Video」一文中，提出一種通過巧妙地將不對稱品質用於立體視訊的背景和前景檢視的方法，以高品質傳輸前景檢視，以較低品質傳輸背景檢視。在基於切片的自適應流中，360°視訊被分割成相等/不相等的矩形塊，以精確地調整觀看者當前視口塊的品質。在「Towards Bandwidth Efficient Adaptive Streaming of Omnidirectional Video over HTTP: Design, Implementation, and Evaluation」一文中，研究了三種平鋪策略，即基本完全交付、高階完全交付和部分交付，使用最先進的視訊編解碼器有效地節省了360個視訊中未觀看部分的資源。如圖6所示，基本完全交付是在使用者當前視口中可見的所有圖塊都以最高可能的品質表示（綠色圖塊）進行請求，而此時不可見的所有其他圖塊都以最低可用品質表示（紅色圖塊）進行請求。高階完全交付是要求預計使用者的視口將移向的圖塊（黃色圖塊）以更高的品質傳輸。部分交付是所有其他切片(即當前視口外的那些)根本不被請求。在「HEVC tile based streaming to head mounted displays」一文中，提出一種使用HEVC編碼器的基於切片的可變解析度流系統，如圖7所示，該系統將立方體貼圖360°視訊平鋪成24個網格，每個代表一個單獨的位元流，以兩個不同品質的版本被流式傳輸到使用者端，即八個高品質的瓦片和十六個低品質的瓦片。

圖6 三種平鋪策略

圖7 基於切片的可變解析度流系統

在傳輸360°視訊流網路相關解決方案中，「Fov-aware edge caching for adaptive 360 video streaming」一文基於其他使用者的觀看行為，為360°視訊引入了一種流行的內容(如FoV)快取策略，次策略中使用者端的品質適應有兩個主要組成部分:FoV預測和吞吐量估計。自適應演演算法每100毫秒從客戶的FoV中提取樣本，並使用10個最近的FoV樣本作為加權線性迴歸(WLR)方法的輸入，以預測未來的FoV。吞吐量估計中，吞吐量樣本是下載一個視訊片段時達到的估計吞吐量。網路吞吐量估計是通過平均最後三個吞吐量樣本來完成的。文中提出基於優先順序的取捨方式，優先順序與當前的網路吞吐量以及是否位於使用者端的FoV內有關，當快取已滿時，移除具有最低優先順序的切片。而「MUVR: Supporting multi-user mobile virtual reality with resource constrained edge cloud」一文提出了多使用者虛擬現實(MUVR)框架，其中邊緣雲自適應地儲存和重用冗餘VR幀，以減少計算和傳輸負載。例如在每個使用者端有一個小的本地快取，在邊緣有一個相當大的中央快取。這種快取設計通過為所有使用者生成背景檢視，儘可能重用框架來減少記憶體需求。

在視口預測中，可根據與視訊內容相不相關進行分類，與視訊內容不相關的方法一般使用觀看者的頭部運動資料進行視口預測，在「Delay Impact on MPEG OMAF’s tile-based viewport-dependent 360◦video streaming」一文中，考慮了兩種預測變數:角速度和角加速度，用於根據使用者的先前方位資料來估計他/她的未來頭部方位。而在「Predictive View Generation to Enable Mobile 360-degree and VR Experiences」一文提出一種預測視訊生成的方法，提取預測檢視並提前傳輸，從而同時減少頻寬和延遲。本文收集來自三星虛擬現實網站上的36000多名觀眾的19段視訊的頭部運動資料，將使用者視野使用基於平鋪的格式來表現視點特徵，每個網路尺寸為30°×30°，則360°可分為72塊，根據過去2s的視點軌跡來預測視點，設計one-hot編碼，將視點表示為72×10的矩陣V，V的元素為0或1。先前的視點分片序列輸入本文提出的多層LSTM模型中，最終輸出72個分片上的預測概率，選擇m個概率最高的分片，組合成預測視場，高品質地傳輸預測視場，其餘分片儲存空白。在實驗部分，文中比較了LSTM模型FOV的預測精度與SAE、BT、kNN模型FOV的預測精度，得出在低運動序列、中等運動序列和高運動序列中，LSTM模型FOV的預測精度優於SAE、BT、kNN模型的實驗結論，並相較於上述模型擁有更大的畫素節省，達到減少頻寬和延遲的目的。

對於與視訊內容相關的視口預測方法，「Fixation Prediction for 360 Video Streaming in Head-Mounted Virtual Reality」一文提出一種預測網路，可以同時利用感測器和視訊內容相關的特性來預測未來觀眾的視口。視訊內容相關包括影象顯著圖和運動圖。作者提出訓練深度神經網路來預測顯著圖，網路模型的前三層是預訓練的VGG-16，在VGG-16後面接著兩個附加層，以提高模糊影象顯著圖的泛化能力。而觀看者的頭部位置資訊由HMD中的感測器採集，包括偏航角（yaw）、俯仰角（pitch）、翻滾角（roll）。文中的視口預測網路使用的是LSTM模型，網路的功能是預測觀眾在未來的視訊中最有可能看哪裡。如圖8所示，本文提出兩種LSTM網路，第一種網路的輸入是顯著圖、運動圖以及頭部資訊，第二種網路的輸入是顯著圖、運動圖以及當前觀看者視口位置資訊，兩種網路的輸出都是預測未來視訊幀中觀看者的觀看概率。兩種網路都以滑動視窗中m個過去視訊幀的特徵作為輸入，並以預測視窗中n個未來視訊幀為輸出來預測切片的觀看概率。文中使用的資料集是自己採集的12個觀看者的資訊，訓練過程中將資料集80%作為訓練集，20%作為測試集，使用交叉熵損失函數。

圖8 兩種LSTM網路模型

在體驗品質QoE評估中，作者介紹了兩種評估方法，主觀評估和客觀評估。在「Subjective and objective quality assessment of panoramic videos in virtual reality environments」一文中，提出了一種全景視訊主觀評價方法SAMPVIQ，此方法第一步為訓練階段，首先將參考視訊16給觀察者看，然後我們通知並播放了視訊16從高到低品質的視訊序列，目的是給觀察者基本的預期得分。第二階段預測試階段我們選擇了三組視訊16，每組包含一個參考視訊和三個經過處理的視訊。視訊播放完後，觀察者打分，然後工作人員記錄分數。完成三套後，我們比較了記錄的分數和預期的分數。如果記錄的分數與所有三組的預期相匹配，觀察者就可以進入測試階段。第三階段測試階段每個觀察者觀看6類全景視訊。每類視訊包含八組視訊序列，每組包含一個參考視訊和三個隨機播放的已處理視訊。視訊播放時，觀察者打分，然後工作人員記錄分數。所有視訊序列播放完畢後，測試結束。評分等級為0-5，最終結果可以描述為平均意見得分（mean opinion score，MOS）。而客觀評估方法中，「Quality metric for spherical panoramic video」一文提出了一個克拉斯特拋物線投影-PSNR (CPP-PSNR)度量標準，通過將畫素重新對映到CPP投影而不改變空間解析度並計算實際畫素位置的PSNR來比較各種投影方案。而在「Impact of V arious Motion Interpolation Algorithms on 360◦Video QoE」一文中指出僅僅在虛擬現實中測量視覺品質對於一個完整的QoE框架來說是不夠的。找到其他因素的影響也很重要，例如網路疾病、生理症狀、使用者不適、HMD權重、可用性、VR音訊、視口退化率、網路特性(例如延遲、抖動、頻寬等)。

總結：高品質的360°視訊內容的建立、分發和流式傳輸依然是一個關鍵性問題，除了上述提及的研究方向及其解決方法外，仍有許多問題可以進一步研究。例如：可以利用基於機器學習的頻寬預測方法來捕獲位元率分配的實際頻寬模式。此外，基於多路徑的高解析度360°切片傳輸可以通過最佳可用路徑提供高優先順序切片，從而帶來更好的效能和更大的靈活性。使用mmWave通訊的自適應計算解除安裝研究可以支援室內和室外環境中的同步360°流。

第一次工作進展報告（論文閱讀：A Survey on Adaptive 360°Video Streaming: Solutions, Challenges and Opportunities）

第一次工作進展報告