量化¶ 量化以模型精度為代價,換取更小的記憶體佔用,從而使大型模型能在更廣泛的裝置上執行。 目錄 支援的硬體 AutoAWQ AutoRound BitsAndBytes BitBLAS GGUF GPTQModel INC INT4 W4A16 INT8 W8A8 FP8 W8A8 NVIDIA TensorRT 模型最佳化器 AMD Quark 量化 KV 快取 TorchAO