多模态#

vLLM 通过 vllm.multimodal 包为多模态模型提供实验性支持。

多模态输入可以与文本和令牌提示一起传递给 支持的模型,方法是通过 vllm.inputs.PromptInputs 中的 multi_modal_data 字段。

目前,vLLM 仅内置支持图像数据。你可以按照 本指南 扩展 vLLM 以处理其他模态。

想要添加自己的多模态模型?请按照 此处 列出的说明进行操作。

指南#

模块内容#

注册表#

基类#

图像类#