NVIDIA Maxine Video Effects SDK 程式設計指南 - 實踐小記

本篇部落格重點只說Video Effect的部分，此外還有Audio Effect的部分、還有AR部分，不在本篇範圍內。本文由重慶Debug原創

NVIDIA Maxine Video Effects支援基於 AI 的視覺效果，這些效果可以輸入標準網路攝像頭畫面資料，同時也可以傳入一張圖或者來自ffmpeg解碼器的幀資料，讓使用者可以輕鬆整合到視訊會議和視訊特效內容建立管道中；

底層深度學習模型使用 NVIDIA® TensorRT™ 通過 NVIDIA AI 進行優化以實現高效能推理，使開發人員能夠在實時應用程式中應用多種效果。

NVIDIA Maxine Video Effects提供了一系列TensorRT訓練好的模型，

截止到本稿前2023年6月13日，可以做到的功能有下列5個：

1. Virtual Background 虛擬背景（摳人物）

2. Artifact Reduction 偽影減少

3. Super Resolution 超解析度

4. Upscaler 放大器（輕量版超解析度）

5. Video Noise Removal 視訊噪音消除

硬體要求：

Video Effects SDK要求必須電腦至少擁有一個GPU是基於NVIDIA Turing™或NVIDIA Ampere™或NVIDIA Ada™架構並具有TensorRT核心功能。

執行時軟體要求：

Windows系統必須滿足64-bit Windows 10或更新版本

NVIDIA Graphics Driver for Windows必須滿足版本號大於等於511.65

分發包需使用者提前去英偉達官網(NVIDIA Broadcast)下載安裝對應顯示卡所需的模型及dll檔案，如下圖所示：

開發時軟體要求：

Microsoft Visual Studio 2017或更新的版本

CMake 3.12或更新的版本

下面分別介紹這些功能和可以調控的引數及演示效果：

1. Virtual Background 虛擬背景（摳人物）

虛擬背景可以分割和遮蔽視訊或影象中的背景區域，以啟用 AI 支援的背景去除、替換或模糊。

限制條件：

a). 用於虛擬背景的原影象的尺寸必須大於等於：512x288（即寬和高都要同時滿足大於等於這個數）。

b). 虛擬背景的效果在一個人坐在相機前錄製的視訊上是可達到最佳的效果。該功能在全身視訊、場景中的多個人或與前置攝像頭偏差太大的攝像頭角度上表現會有不佳。

c). 影象檔案的縱橫比建議為 16：9，才能獲得最佳效果。

d). 輸入的影象是BGR，每個畫素是一個 24 位無符號字元值，因此每個畫素分量為 8 位

可調的引數：

Mode：

0：質量優先模式、1：效能優先模式

Composition Mode：

原圖：

0（顯示遮罩 - compMatte）

1（在前景上覆蓋遮罩 - compLight）
2（複合綠色 - compGreen）
3（複合白色 - compWhite）
4（顯示輸入 - compNone）
5（在指定的背景影象上合成 - compBG）（可以自己設定背景圖片，即可替換成自己提供的圖片）
6（模糊影象的背景 - compBlur）

2. Artifact Reduction 偽影減少

Artifact Reduction，減少編碼視訊的壓縮偽影，同時保留原始視訊的細節。

此偽影濾波器可減少編碼器造成的偽影，例如低位元率視訊中的阻塞偽影、振鈴、蚊音，同時保留原始視訊的細節。

編碼器偽影減少已針對 H.264 編碼器進行了優化。