支持量化内核的硬件

目录

支持量化内核的硬件#

下表显示了 vLLM 中各种量化实现与不同硬件平台的兼容性:

实现

Volta

Turing

Ampere

Ada

Hopper

AMD GPU

Intel GPU

x86 CPU

AWS Inferentia

Google TPU

AWQ

✅︎

✅︎

✅︎

✅︎

GPTQ

✅︎

✅︎

✅︎

✅︎

✅︎

Marlin (GPTQ/AWQ/FP8)

✅︎

✅︎

✅︎

INT8 (W8A8)

✅︎

✅︎

✅︎

✅︎

FP8 (W8A8)

✅︎

✅︎

✅︎

AQLM

✅︎

✅︎

✅︎

✅︎

✅︎

bitsandbytes

✅︎

✅︎

✅︎

✅︎

✅︎

DeepSpeedFP

✅︎

✅︎

✅︎

✅︎

✅︎

GGUF

✅︎

✅︎

✅︎

✅︎

✅︎

说明:#

  • Volta 指的是 SM 7.0,Turing 指的是 SM 7.5,Ampere 指的是 SM 8.0/8.6,Ada 指的是 SM 8.9,Hopper 指的是 SM 9.0。

  • “✅︎” 表示量化方法在指定的硬件上受支持。

  • “✗” 表示量化方法在指定的硬件上不受支持。

请注意,此兼容性图表可能会随着 vLLM 的不断发展和扩展对不同硬件平台和量化方法的支持而发生变化。

有关硬件支持和量化方法的最新信息,请查看`量化目录 <vllm-project/vllm>`_ 或咨询 vLLM 开发团队。