1.簡介

目標：基於pytorch、transformers做中文領域的nlp開箱即用的訓練框架，提供全套的訓練、微調模型（包括大模型、文字轉向量、文字生成、多模態等模型）的解決方案；

資料：從開源社群，整理了海量的訓練資料，幫助使用者可以快速上手；

同時也開放訓練資料模版，可以快速處理垂直領域資料；

結合多執行緒、記憶體對映等更高效的資料處理方式，即使需要處理百GB規模的資料，也是輕而易舉；

流程：每一個專案有完整的模型訓練步驟，如：資料淨化、資料處理、模型構建、模型訓練、模型部署、模型圖解；

模型：當前已經支援gpt2、clip、gpt-neox、dolly、llama、chatglm-6b、VisionEncoderDecoderModel等多模態大模型；

多卡串聯：當前，多數的大模型的尺寸已經遠遠大於單個消費級顯示卡的視訊記憶體，需要將多個顯示卡串聯，才能訓練大模型、才能部署大模型。因此對部分模型結構進行修改，實現了訓練時、推理時的多卡串聯功能。

模型訓練

中文名稱	資料夾名稱	資料	資料淨化	大模型	模型部署	圖解
中文文字分類	chinese_classifier	✅	✅	✅	❌	✅
中文`gpt2`	chinese_gpt2	✅	✅	✅	✅	❌
中文`clip`	chinese_clip	✅	✅	✅	❌	✅
影象生成中文文字	VisionEncoderDecoderModel	✅	✅	✅	❌	✅
vit核心原始碼介紹	vit model	❌	❌	❌	❌	✅
`Thu-ChatGlm-6b`(`v1`)	simple_thu_chatglm6b	✅	✅	✅	✅	❌
E-maiL:[email protected] 2020 TW511.COM

帶你上手基於Pytorch和Transformers的中文NLP訓練框架