深度解讀AIGC儲存解決方案

2023-07-04 18:00:49

5月26日,2023資料基礎設施技術峰會在蘇州舉辦,騰訊雲首席儲存技術專家溫濤受邀出席並分享了騰訊雲領先的儲存技術在AIGC場景中的應用,通過對AIGC業務流程和場景的提煉,從內容生成、內容稽核和內容智理三要素介紹瞭如何智慧的儲存和管理資料。下面我們一起回顧下溫濤的精彩分享。

從去年年底到今年年初,由新版本的ChatGPT釋出開始,全球掀起了一股AIGC的話題狂潮。AIGC觸發了內容生成的革命,也引爆了眾多行業顛覆式的創新。人工智慧突然就從高科技研究課題,演進為滲透到我們每個人生活中的商業產品。

AIGC是使用人工智慧技術生成內容的工具,它包含了文字、音訊、影象、視訊的生成,以及這幾者之間的跨模態生成。我認為AIGC的商業化落地節奏,大致可以分為三個階段:

  1. 通用場景的應用落地

  2. 垂直行業的應用落地

  3. 創新型綜合場景的應用落地

通用場景是基於單純的文字、圖片、音視訊的AI生產內容技術,提供給設計、媒體、娛樂、客服諮詢等沒有太強行業屬性的企業和個人,解決相對基礎的AI市場需求。代表性的應用包括了ChatGPT和Midjourney。這個場景依賴的技術相對比較成熟,已經具有很多實際的商業化落地。

垂直行業是進一步把AIGC的能力和具體行業特點相結合,提供給強行業屬性的企業,來提升技術和服務水平,提高行業生產效率。比如自動駕駛和醫療生物基因。這類應用目前還處於商業化前的基於預訓練基礎之上的Fine Tuning階段,技術方面的問題基本上能夠得到解決,商業模式也比較明確,商業化落地節奏屬於正在進行時。

創新型綜合場景所對應的行業,是比較新興的具有前瞻性和實驗性的場景,以機器人和元宇宙為代表。在這類場景,AIGC只是核心技術的一部分,還依賴硬體和商業模式等方案的創新。這類場景還處於技術儲備和商業落地探索階段。
目前騰訊雲AIGC儲存解決方案,聚焦在通用場景和垂直行業這兩類AIGC應用的支援。尤其是在圖片、音視訊和自動駕駛領域有了很多嘗試、驗證和落地。
我們在實際專案中對AIGC業務處理流程進行了梳理。按照順序,流程主要分為資料收集、資料預處理、特徵工程、模型訓練、應用推理這幾個環節,也可以聚合為模型訓練和應用推理兩個階段。

在實際的專案中,我們瞭解到客戶對訓練場景的儲存能力有幾個要求:

  1. 由於在每一個環節的前後,都涉及對資料的儲存、加工、管理和流動,所以需要一種資料湖形態的統一儲存來簡化對資料的管理,提高資料流動的效率,並減低資料流動所帶來的成本
  2. 大模型訓練需要極高的算力,算力越大,訓練速度越快,綜合成本越優。訓練過程中需要對資料進行讀取和寫入,需要儲存效能和算力形成匹配,否則容易成為整個處理流程的短木板。
  3. 鑑於對AIGC生成物的侵權和合規性要求,在推理階段需要對生產的內容進行稽核和治理。

通過對業務流程和場景訴求的總結提煉,AIGC的核心要素,可以歸結為內容生成、內容稽核和內容智理三個要素。其中內容生成包括大模型訓練和推理平臺構建;內容稽核包括對圖片、文字和音視訊等生成物的內容稽核和資料處理;內容智理包括對生成物的內容分類、標註、內容特徵的生產和查詢...騰訊雲在AIGC場景的儲存解決方案,就是依據這三個核心要素來進行設計的。
接下來,我會圍繞這三個核心要素,從資料儲存與管理的角度,分別介紹騰訊雲的解決之道。
內容生成之道

我們使用了資料湖儲存來滿足場景的要求,利用物件儲存COS實現了通過一種儲存型別,來滿足各個環節對儲存的需求,無需資料遷移,即可實現資料的統一接入,和資料的自由流動。同時利用資料加速器GooseFS的快取加速能力,大幅度提升了資料處理和訓練效能。使用COS+GooseFS的資料湖儲存方案,也大大降低了AIGC系統的儲存成本。

什麼是GooseFS?

GooseFS是一種利用計算側資源實現資料快取加速的儲存服務,適用於巨量資料分析、AI、HPC、基因測序、渲染等多種場景,配合COS物件儲存,為客戶提供低成本高效能的儲存能力。

GooseFS有以下幾個特點:

  1. 多協定支援:可以對接HDFS、FUSE和S3等多種協定;
  2. 支援雲原生部署:可以通過容器化部署,也可以和Hadoop進行整合;
  3. 可以使用記憶體和SSD等不同效能的媒介作為快取媒介,實現多級快取,根據不同的快取媒介,GooseFS可以提供2~10倍的效能提升。

如何實現多級快取加速?

面向不同的業務場景,會有不同的資料量和不同的效能要求。以AIGC場景為例,對於NLP和GPT場景,訓練所需的資料量通常在10100TB,所需的儲存空間不大,但是IO模型屬於每次位元組級的讀操作,對時延要求很高。使用GPU節點自帶記憶體的剩餘空間作為快取的儲存媒介比較合適,不需要額外設定SSD。而對於ViT和Diffusion這類圖片模型訓練場景,資料量通常在100T1PB,就不適合放在記憶體裡,選用原生的SSD媒介可以達到更優的價效比。對於需要長期存放的原始資料,就可以放在COS裡做持久化,從而降低成本。通過GooseFS多級快取加速機制,就能夠精細化的滿足各種不同場景的效能要求。

因為訓練場景需要讀取海量檔案,就需要快取系統支援對海量檔案規模的管理能力。我們來看看GooseFS在水平和垂直兩個方向分別是如何實現的。
水平方向上,也就是在跨節點方向上,GooseFS 採用分散式後設資料架構,通過分散式KV管理後設資料,後設資料規模可以按需橫向線性擴充套件。
垂直方向上,也就是在節點內部,GooseFS利用Numa綁核綁記憶體來部署KV程序,從而使單節點可以部署多個分散式KV程序。

通過上述兩個方向上的技術,GooseFS可以支援管理百億檔案規模的後設資料,滿足單叢集管理海量訓練資料集的需求。

AIGC訓練時到底能夠支援多大的體量的檔案數?如何保障儲存系統效能?關鍵的點就是後設資料管理。

GooseFS支援Master的多機並行讀,後設資料服務由一個Leader Master和若干Follower Master構成,Follower Master承載跟Leader一樣的讀流量,後設資料QPS效能隨著Master節點的數量呈線性增加。從而可以提供百萬級QPS的後設資料存取能力。

GooseFS也支援私有化部署,來構建混合雲快取方案。基於資料湖搭建混合雲大模型訓練平臺,做到一份Dataset,多地訓練。通過這個方案,在資料湖上儲存一份資料,可以通過快取的機制把資料帶到任何計算相關的地點去。

除了資料加速以外,騰訊雲面向AIGC訓練場景提供了端到端的解決方案。基於騰訊雲高效能運算叢集HCC、TACO訓練加速、TCCL網路加速、GooseFS資料加速,構建了AIGC大模型訓練和推理應用平臺。
儲存方面,依靠COS的海量儲存能力+GooseFS的資料加速能力,提供高效能低成本的儲存,可為AI叢集訓練快速提供資料。
計算方面,高效能運算叢集HCC通過自研伺服器提供最新代次A800、H800範例。通過TACO Train加速套件,提供軟硬體協同優化,支援訓練效能提升30%以上。
網路方面,基於自研星脈網路架構,提供最高3.2Tbps RDMA網路,結合自研擁塞控制演演算法及TCCL集合通訊庫加速分散式訓練通訊效率。
內容稽核之道
騰訊雲資料萬象CI基於深度學習的文字、圖片、音視訊檢測技術,結合騰訊深耕內容領域積累的海量訓練資料,可以精準高效識別出生成資料中的敏感資訊。提供包括色情、涉政、暴恐、廣告等多種合規問題的稽核能力。對AIGC的輸入和輸出環節進行把控,幫助客戶規避運營風險。

CI整合了騰訊多個前沿實驗室的技術能力,包括了AI實驗室的基礎演演算法能量流、優圖實驗室的影象識別能力、多媒體實驗室對編解碼的研究,以及天御實驗室的安全風控演演算法。同時具備騰訊多年在泛互行業的實踐經驗。此外CI還打造了無程式碼,0基礎入門,無需下載,省時好用的智慧處理工具-智慧工具箱,降低技術接入門檻。

內容智理之道

AIGC儲存解決方案複用了騰訊企業網路硬碟的一些能力,可以對AI生成物提供許可權劃分、線上編輯、協同辦公等企業化檔案管理能力,助力終端使用者和企業客戶更好的對AI生成物進行管理,提升工作效率。

總結

騰訊雲端儲存解決方案,圍繞AIGC,提供了涵蓋內容生成、內容稽核和內容智理的全生命週期的資料儲存與管理解決方案,很好的做到了高效能和低成本兩個目標方向的兼顧,為基於海量資料的AI訓練提供了堅實的儲存與管理的資料底座。