本文分享自華為雲社群《全套解決方案:基於pytorch、transformers的中文NLP訓練框架,支援大模型訓練和文字生成,快速上手,海量訓練資料》,作者: 汀丶 。
目標
:基於pytorch
、transformers
做中文領域的nlp開箱即用的訓練框架,提供全套的訓練、微調模型(包括大模型、文字轉向量、文字生成、多模態等模型)的解決方案;
資料
:從開源社群,整理了海量的訓練資料,幫助使用者可以快速上手;
同時也開放訓練資料模版,可以快速處理垂直領域資料;
結合多執行緒、記憶體對映等更高效的資料處理方式,即使需要處理百GB
規模的資料,也是輕而易舉;
流程
:每一個專案有完整的模型訓練步驟,如:資料淨化、資料處理、模型構建、模型訓練、模型部署、模型圖解;
模型
:當前已經支援gpt2
、clip
、gpt-neox
、dolly
、llama
、chatglm-6b
、VisionEncoderDecoderModel
等多模態大模型;
多卡串聯
:當前,多數的大模型的尺寸已經遠遠大於單個消費級顯示卡的視訊記憶體,需要將多個顯示卡串聯,才能訓練大模型、才能部署大模型。因此對部分模型結構進行修改,實現了訓練時
、推理時
的多卡串聯功能。
模型訓練
中文名稱 | 資料夾名稱 | 資料 | 資料淨化 | 大模型 | 模型部署 | 圖解 |
---|---|---|---|---|---|---|
中文文字分類 | chinese_classifier | ✅ | ✅ | ✅ | ❌ | ✅ |
中文gpt2 |
chinese_gpt2 | ✅ | ✅ | ✅ | ✅ | ❌ |
中文clip |
chinese_clip | ✅ | ✅ | ✅ | ❌ | ✅ |
影象生成中文文字 | VisionEncoderDecoderModel | ✅ | ✅ | ✅ | ❌ | ✅ |
vit核心原始碼介紹 | vit model | ❌ | ❌ | ❌ | ❌ | ✅ |
Thu-ChatGlm-6b (v1 ) |
simple_thu_chatglm6b | ✅ | ✅ | ✅ | ✅ | ❌ |
|