使用 CoreWeave 的 Tensorizer 加载模型#
vLLM 支持使用 CoreWeave 的 Tensorizer 加载模型。vLLM 模型张量可以序列化到磁盘、HTTP/HTTPS 端点或 S3 端点,并在运行时以极快的速度直接反序列化到 GPU,从而显著缩短 Pod 启动时间并减少 CPU 内存使用量。还支持张量加密。
有关 CoreWeave 的 Tensorizer 的更多信息,请参阅 CoreWeave 的 Tensorizer 文档。有关序列化 vLLM 模型以及使用 Tensorizer 与 vLLM 的一般使用指南的更多信息,请参阅 vLLM 示例脚本。