vLLM部署大模型

三月 2, 2025

vLLM 是一个用于高效运行和部署大型语言模型（Large Language Models, LLMs）的高性能Python库。也是目前生产环境运行满血大模型参数较为常用的工具。本文简单介绍如何使用vLLM运行本地下载好的模型参数，

安装vLLM

# 创建Python环境
conda create -n vllm python=3.12 -y
# 启用环境
source /root/miniconda3/bin/activate
conda activate vllm
# 安装vllm
pip install vllm

下载模型参数：https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B

modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-14B --local_dir /root/autodl-tmp/models/DeepSeek-R1-Distill-Qwen-14B

启动vLLM

# 单卡32G显存不足，需要使用双卡--tensor-parallel-size 2
# 添加--enable-reasoning --reasoning-parser deepseek_r1 使其支持reasoning_content
vllm serve  /root/autodl-tmp/models/DeepSeek-R1-Distill-Qwen-14B \
   --served-model-name DeepSeek-R1-Distill-Qwen-14B \
   --enable-reasoning  \
   --reasoning-parser deepseek_r1 \
   --tensor-parallel-size 2 \
   --max-model-len 32768 \
   --port 6006 \
   --host 0.0.0.0

测试接口是否正常

‍