使用 Docker 部署#

vLLM 提供了一个用于部署的官方 Docker 镜像。该镜像可用于运行与 OpenAI 兼容的服务器，并在 Docker Hub 上以 vllm/vllm-openai 的形式提供。

$ docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
    --model mistralai/Mistral-7B-v0.1

备注

你可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。vLLM 使用 PyTorch，它使用共享内存在幕后进程之间共享数据，特别是对于张量并行推理。

你可以通过提供的 Dockerfile 从源代码构建和运行 vLLM。要构建 vLLM：

$ DOCKER_BUILDKIT=1 docker build . --target vllm-openai --tag vllm/vllm-openai # optionally specifies: --build-arg max_jobs=8 --build-arg nvcc_threads=2

备注

默认情况下，vLLM 将为所有 GPU 类型构建，以实现最广泛的发布。如果你只是为机器正在运行的当前 GPU 类型构建，则可以添加参数 --build-arg torch_cuda_arch_list=""，以便 vLLM 找到当前 GPU 类型并为此构建。

运行 vLLM：

$ docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    -p 8000:8000 \
    --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    vllm/vllm-openai <args...>

备注

仅适用于 `v0.4.1` 和 `v0.4.2` - 这些版本下的 vLLM docker 镜像应该在 root 用户下运行，因为在运行时需要加载 root 用户主目录下的一个库，即 /root/.config/vllm/nccl/cu12/libnccl.so.2.18.1。如果你在其他用户下运行容器，则可能需要先更改库（以及所有父目录）的权限，以允许用户访问它，然后使用环境变量 VLLM_NCCL_SO_PATH=/root/.config/vllm/nccl/cu12/libnccl.so.2.18.1 运行 vLLM。