從 PyTorch DDP 到 Accelerate 到 Trainer,輕鬆掌握分散式訓練

2023-02-16 15:01:05

概述

本教學假定你已經對於 PyToch 訓練一個簡單模型有一定的基礎理解。本教學將展示使用 3 種封裝層級不同的方法呼叫 DDP (DistributedDataParallel) 程序,在多個 GPU 上訓練同一個模型:

  • 使用 pytorch.distributed 模組的原生 PyTorch DDP 模組
  • 使用