本文旨在對 transformers 支援的各種量化方案及其優缺點作一個清晰的概述,以助於讀者進行方案選擇。
目前,量化模型有兩個主要的用途:
到目前為止,transformers 已經整合並 原生 支援了 bitsandbytes 和 auto-gptq 這兩個量化庫。請注意,