vLLM 与 Ollama 部署与应用

🚀 一、vLLM 与 FastChat 的 Docker 部署指南

1. 环境准备

2. 安装 Docker 和 NVIDIA Container Toolkit

3. 拉取并运行 vLLM Docker 镜像

🖥️ 二、Ollama 的本地多模型部署方案

1. 安装 Ollama

🚀 一、vLLM 与 FastChat 的 Docker 部署指南

vLLM 与 FastChat 的结合可以实现高性能的大语言模型（LLM）服务。以下是详细的 Docker 部署步骤

1. 环境准备

操作系统Ubuntu 20.04 或以上版
硬件要求NVIDIA GPU（如 A100
软件依赖： -Docke -NVIDIA Container Toolki

2. 安装 Docker 和 NVIDIA Container Toolkit

安装 Docker：

sudo apt-get update
sudo apt-get install \ca-certificates \curl \gnupg
sudo install -m 0755 -d /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
echo \"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
```

安装 NVIDIA Container Toolkit：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
```

3. 拉取并运行 vLLM Docker 镜像

克隆 vLLM 项目并构建 Docker 镜像：

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -t vllm-openai .
```

运行 Docker 容器：

docker run --gpus all -d --name vllm-server -p 8000:8000 vllm-openai
```

验证服务是否启动：

curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d '{"model": "NousResearch/Meta-Llama-3-8B-Instruct","prompt": "San Francisco is a","max_tokens": 7,"temperature": 0}'
```

如果返回预期的文本输出，说明部署成功 citeturn0search1

🖥️ 二、Ollama 的本地多模型部署方案

Ollama 支持在本地环境中轻松运行多个大语言模型，以下是在 macOS 上的部署步：

1. 安装 Ollama



brew install ollama
``
### 2. 拉取所需模型

```bash
ollama pull qwen:7b
ollama pull deepseek-r1:7b
``
### 3. 同时运行多个模型实例
由于 Ollama 默认情况下单实例无法同时运行多个模型，我们可以通过为每个模型实例分配不同的端口来实现并行部：

```bash
# 运行第一个模型实例
export OLLAMA_HOST=127.0.0.1:11434
ollama serve &
ollama run qwen:7b# 运行第二个模型实例
export OLLAMA_HOST=127.0.0.1:11435
ollama serve &
ollama run deepseek-r1:7b
``

这样，就可以在本地同时运行多个模型实例，分别监听不同的端口，方便进行多模型的测试与应。 citeturn0search7---## 🏢 三、企业级聊天系统架构设在企业环境中，构建一个高效、可扩展的聊天系统需要综合考虑性能、成本和维护等因素。以下是基于 vLLM 和 Ollama 的混合部署架构议：### 1. 架构概览- **核心服务层*：使用 vLLM 部署在高性能服务器上，处理主要的推理请求，支持高并发和低延迟求。
- **边缘服务层*：在员工的本地设备（如笔记本电脑）上部署 Ollama，处理低敏感度、低并发的任务，减少对中心服务器的赖。
- **API 网关*：统一管理内部和外部的 API 请求，进行流量控制和安全证。
- **负载均衡*：在核心服务层前部署负载均衡器，分发请求，确保服务的高可性。### 2. 数据流示意1. **用户请求*：用户通过客户端（如网页、移动应用）发送聊天求。
2. **API 网关*：接收请求，进行认证和由。

vLLM 与 Ollama 部署与应用

🚀 一、vLLM 与 FastChat 的 Docker 部署指南

1. 环境准备

2. 安装 Docker 和 NVIDIA Container Toolkit

3. 拉取并运行 vLLM Docker 镜像

🖥️ 二、Ollama 的本地多模型部署方案

1. 安装 Ollama

相关资讯

热文排行

最新新闻

推荐新闻

热搜词