目录
🚀 一、vLLM 与 FastChat 的 Docker 部署指南
1. 环境准备
2. 安装 Docker 和 NVIDIA Container Toolkit
3. 拉取并运行 vLLM Docker 镜像
🖥️ 二、Ollama 的本地多模型部署方案
1. 安装 Ollama
🚀 一、vLLM 与 FastChat 的 Docker 部署指南
vLLM 与 FastChat 的结合可以实现高性能的大语言模型(LLM)服务。以下是详细的 Docker 部署步骤
1. 环境准备
-
操作系统Ubuntu 20.04 或以上版
-
硬件要求NVIDIA GPU(如 A100
-
软件依赖: -Docke -NVIDIA Container Toolki
2. 安装 Docker 和 NVIDIA Container Toolkit
-
安装 Docker:
sudo apt-get update sudo apt-get install \ca-certificates \curl \gnupg sudo install -m 0755 -d /etc/apt/keyrings curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg echo \"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \sudo tee /etc/apt/sources.list.d/docker.list > /dev/null sudo apt-get update sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin ```
-
安装 NVIDIA Container Toolkit:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker ```
3. 拉取并运行 vLLM Docker 镜像
-
克隆 vLLM 项目并构建 Docker 镜像:
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -t vllm-openai . ```
-
运行 Docker 容器:
docker run --gpus all -d --name vllm-server -p 8000:8000 vllm-openai ```
-
验证服务是否启动:
curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d '{"model": "NousResearch/Meta-Llama-3-8B-Instruct","prompt": "San Francisco is a","max_tokens": 7,"temperature": 0}' ```
如果返回预期的文本输出,说明部署成功 citeturn0search1
🖥️ 二、Ollama 的本地多模型部署方案
Ollama 支持在本地环境中轻松运行多个大语言模型,以下是在 macOS 上的部署步:
1. 安装 Ollama
brew install ollama
``
### 2. 拉取所需模型
```bash
ollama pull qwen:7b
ollama pull deepseek-r1:7b
``
### 3. 同时运行多个模型实例
由于 Ollama 默认情况下单实例无法同时运行多个模型,我们可以通过为每个模型实例分配不同的端口来实现并行部:
```bash
# 运行第一个模型实例
export OLLAMA_HOST=127.0.0.1:11434
ollama serve &
ollama run qwen:7b# 运行第二个模型实例
export OLLAMA_HOST=127.0.0.1:11435
ollama serve &
ollama run deepseek-r1:7b
``
这样,就可以在本地同时运行多个模型实例,分别监听不同的端口,方便进行多模型的测试与应。 citeturn0search7---## 🏢 三、企业级聊天系统架构设在企业环境中,构建一个高效、可扩展的聊天系统需要综合考虑性能、成本和维护等因素。以下是基于 vLLM 和 Ollama 的混合部署架构议:### 1. 架构概览- **核心服务层*:使用 vLLM 部署在高性能服务器上,处理主要的推理请求,支持高并发和低延迟求。
- **边缘服务层*:在员工的本地设备(如笔记本电脑)上部署 Ollama,处理低敏感度、低并发的任务,减少对中心服务器的赖。
- **API 网关*:统一管理内部和外部的 API 请求,进行流量控制和安全证。
- **负载均衡*:在核心服务层前部署负载均衡器,分发请求,确保服务的高可性。### 2. 数据流示意1. **用户请求*:用户通过客户端(如网页、移动应用)发送聊天求。
2. **API 网关*:接收请求,进行认证和由。