You are viewing the latest developer preview docs. Click here to view docs for the latest stable release.

支持量化内核的硬件

目录

支持量化内核的硬件#

下表显示了 vLLM 中各种量化实现与不同硬件平台的兼容性：

实现	Volta	Turing	Ampere	Ada	Hopper	AMD GPU	Intel GPU	x86 CPU	AWS Inferentia	Google TPU
AWQ	✗	✅︎	✅︎	✅︎	✅︎	✗	✗	✗	✗	✗
GPTQ	✅︎	✅︎	✅︎	✅︎	✅︎	✗	✗	✗	✗	✗
Marlin (GPTQ/AWQ/FP8)	✗	✗	✅︎	✅︎	✅︎	✗	✗	✗	✗	✗
INT8 (W8A8)	✗	✅︎	✅︎	✅︎	✅︎	✗	✗	✗	✗	✗
FP8 (W8A8)	✗	✗	✗	✅︎	✅︎	✅︎	✗	✗	✗	✗
AQLM	✅︎	✅︎	✅︎	✅︎	✅︎	✗	✗	✗	✗	✗
bitsandbytes	✅︎	✅︎	✅︎	✅︎	✅︎	✗	✗	✗	✗	✗
DeepSpeedFP	✅︎	✅︎	✅︎	✅︎	✅︎	✗	✗	✗	✗	✗
GGUF	✅︎	✅︎	✅︎	✅︎	✅︎	✗	✗	✗	✗	✗

说明：#

Volta 指的是 SM 7.0，Turing 指的是 SM 7.5，Ampere 指的是 SM 8.0/8.6，Ada 指的是 SM 8.9，Hopper 指的是 SM 9.0。
“✅︎” 表示量化方法在指定的硬件上受支持。
“✗” 表示量化方法在指定的硬件上不受支持。

请注意，此兼容性图表可能会随着 vLLM 的不断发展和扩展对不同硬件平台和量化方法的支持而发生变化。

有关硬件支持和量化方法的最新信息，请查看`量化目录 <vllm-project/vllm>`_ 或咨询 vLLM 开发团队。