欢迎来到 vLLM!

欢迎来到 vLLM!#

vLLM

Easy, fast, and cheap LLM serving for everyone

Star Watch Fork

vLLM 是一个快速且易于使用的库,用于 LLM 推理和服务。

vLLM 速度很快,因为它具有:

  • 最先进的服务吞吐量

  • 使用 PagedAttention 对注意力键和值内存进行高效管理

  • 对传入请求进行连续批处理

  • 使用 CUDA/HIP 图进行快速模型执行

  • 量化:GPTQAWQ、INT4、INT8 和 FP8

  • 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成。

  • 推测解码

  • 分块预填充

vLLM 灵活且易于使用,因为它具有:

  • 与流行的 HuggingFace 模型无缝集成

  • 使用各种解码算法(包括 并行采样束搜索 等)进行高吞吐量服务

  • 支持分布式推理的张量并行和管道并行

  • 流式输出

  • 与 OpenAI 兼容的 API 服务器

  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 和 AWS Neuron。

  • 支持前缀缓存

  • 支持多 LoRA

有关更多信息,请查看以下内容:

文档#

自动前缀缓存

性能基准

索引和表格#