欢迎来到 vLLM!#
Easy, fast, and cheap LLM serving for everyone
vLLM 是一个快速且易于使用的库,用于 LLM 推理和服务。
vLLM 速度很快,因为它具有:
最先进的服务吞吐量
使用 PagedAttention 对注意力键和值内存进行高效管理
对传入请求进行连续批处理
使用 CUDA/HIP 图进行快速模型执行
优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成。
推测解码
分块预填充
vLLM 灵活且易于使用,因为它具有:
与流行的 HuggingFace 模型无缝集成
使用各种解码算法(包括 并行采样、束搜索 等)进行高吞吐量服务
支持分布式推理的张量并行和管道并行
流式输出
与 OpenAI 兼容的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 和 AWS Neuron。
支持前缀缓存
支持多 LoRA
有关更多信息,请查看以下内容:
`vLLM 公告博客文章 <https://vllm.ai>`_(PagedAttention 简介)
`vLLM 论文 <https://arxiv.org/abs/2309.06180>`_(SOSP 2023)
如何通过连续批处理在 LLM 推理中实现 23 倍的吞吐量,同时降低 p50 延迟,作者:Cade Daniel 等人。