Transformers 中原生支援的量化方案概述

2023-11-14 06:01:03

本文旨在對 transformers 支援的各種量化方案及其優缺點作一個清晰的概述,以助於讀者進行方案選擇。

目前,量化模型有兩個主要的用途:

  • 在較小的裝置上進行大模型推理
  • 對量化模型進行介面卡微調

到目前為止,transformers 已經整合並 原生 支援了 bitsandbytesauto-gptq 這兩個量化庫。請注意,