支持量化内核的硬件#
下表显示了 vLLM 中各种量化实现与不同硬件平台的兼容性:
实现 |
Volta |
Turing |
Ampere |
Ada |
Hopper |
AMD GPU |
Intel GPU |
x86 CPU |
AWS Inferentia |
Google TPU |
---|---|---|---|---|---|---|---|---|---|---|
AWQ |
✗ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
GPTQ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
Marlin (GPTQ/AWQ/FP8) |
✗ |
✗ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
INT8 (W8A8) |
✗ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
FP8 (W8A8) |
✗ |
✗ |
✗ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
AQLM |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
bitsandbytes |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
DeepSpeedFP |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
GGUF |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✗ |
✗ |
✗ |
✗ |
✗ |
说明:#
Volta 指的是 SM 7.0,Turing 指的是 SM 7.5,Ampere 指的是 SM 8.0/8.6,Ada 指的是 SM 8.9,Hopper 指的是 SM 9.0。
“✅︎” 表示量化方法在指定的硬件上受支持。
“✗” 表示量化方法在指定的硬件上不受支持。
请注意,此兼容性图表可能会随着 vLLM 的不断发展和扩展对不同硬件平台和量化方法的支持而发生变化。
有关硬件支持和量化方法的最新信息,请查看`量化目录 <vllm-project/vllm>`_ 或咨询 vLLM 开发团队。