多模态#

vLLM 通过 vllm.multimodal 包为多模态模型提供实验性支持。

多模态输入可以与文本和令牌提示一起传递给支持的模型，方法是通过 vllm.inputs.PromptInputs 中的 multi_modal_data 字段。

目前，vLLM 仅内置支持图像数据。你可以按照本指南扩展 vLLM 以处理其他模态。