帶你上手基於Pytorch和Transformers的中文NLP訓練框架

2023-08-28 12:00:29

本文分享自華為雲社群《全套解決方案:基於pytorch、transformers的中文NLP訓練框架,支援大模型訓練和文字生成,快速上手,海量訓練資料》,作者: 汀丶 。

1.簡介

目標:基於pytorchtransformers做中文領域的nlp開箱即用的訓練框架,提供全套的訓練、微調模型(包括大模型、文字轉向量、文字生成、多模態等模型)的解決方案;

資料:從開源社群,整理了海量的訓練資料,幫助使用者可以快速上手;

同時也開放訓練資料模版,可以快速處理垂直領域資料;

結合多執行緒、記憶體對映等更高效的資料處理方式,即使需要處理百GB規模的資料,也是輕而易舉;

流程:每一個專案有完整的模型訓練步驟,如:資料淨化、資料處理、模型構建、模型訓練、模型部署、模型圖解;

模型:當前已經支援gpt2clipgpt-neoxdollyllamachatglm-6bVisionEncoderDecoderModel等多模態大模型;

多卡串聯:當前,多數的大模型的尺寸已經遠遠大於單個消費級顯示卡的視訊記憶體,需要將多個顯示卡串聯,才能訓練大模型、才能部署大模型。因此對部分模型結構進行修改,實現了訓練時推理時的多卡串聯功能。

模型訓練

中文名稱資料夾名稱資料資料淨化大模型模型部署圖解
中文文字分類 chinese_classifier
中文gpt2 chinese_gpt2
中文clip chinese_clip
影象生成中文文字 VisionEncoderDecoderModel
vit核心原始碼介紹 vit model
Thu-ChatGlm-6b(v1) simple_thu_chatglm6b