You are viewing the latest developer preview docs. Click here to view docs for the latest stable release.

欢迎来到 vLLM！

目录

欢迎来到 vLLM！#

Easy, fast, and cheap LLM serving for everyone

Star Watch Fork

vLLM 是一个快速且易于使用的库，用于 LLM 推理和服务。

vLLM 速度很快，因为它具有：

最先进的服务吞吐量
使用 PagedAttention 对注意力键和值内存进行高效管理
对传入请求进行连续批处理
使用 CUDA/HIP 图进行快速模型执行
量化：GPTQ、AWQ、INT4、INT8 和 FP8
优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成。
推测解码
分块预填充

vLLM 灵活且易于使用，因为它具有：

与流行的 HuggingFace 模型无缝集成
使用各种解码算法（包括 并行采样、束搜索 等）进行高吞吐量服务
支持分布式推理的张量并行和管道并行
流式输出
与 OpenAI 兼容的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 和 AWS Neuron。
支持前缀缓存
支持多 LoRA

有关更多信息，请查看以下内容：

`vLLM 公告博客文章 <https://vllm.ai>`_（PagedAttention 简介）
`vLLM 论文 <https://arxiv.org/abs/2309.06180>`_（SOSP 2023）
如何通过连续批处理在 LLM 推理中实现 23 倍的吞吐量，同时降低 p50 延迟，作者：Cade Daniel 等人。
vLLM 会议.

文档#

开始使用

服务

模型

量化

自动前缀缓存

性能基准

vLLM 基准套件

开发者文档

采样参数
离线推理
- LLM 类
- LLM 输入
vLLM 引擎
- LLMEngine
- AsyncLLMEngine
vLLM 分页注意力
- 输入
- 概念
- 查询
- 键
- QK
- Softmax
- 值
- LV
- 输出
输入处理
- 指南
- 模块内容
多模态
- 指南
- 模块内容
Dockerfile
分析 vLLM
示例命令和用法：
- 离线推理：
- OpenAI 服务器：

社区

索引和表格#