You are viewing the latest developer preview docs. Click here to view docs for the latest stable release.
开始使用
服务
模型
量化
自动前缀缓存
性能基准
开发者文档
社区
vLLM 可以与 KServe 部署在 Kubernetes 上,以实现高度可扩展的分布式模型服务。
有关使用 vLLM 与 KServe 的更多详细信息,请参阅 本指南。