欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 教育 > 锐评 > vLLM 与 Ollama 部署与应用

vLLM 与 Ollama 部署与应用

2025/5/16 15:46:56 来源:https://blog.csdn.net/AngelCryToo/article/details/147098335  浏览:    关键词:vLLM 与 Ollama 部署与应用

目录

🚀 一、vLLM 与 FastChat 的 Docker 部署指南

1. 环境准备

2. 安装 Docker 和 NVIDIA Container Toolkit

3. 拉取并运行 vLLM Docker 镜像

🖥️ 二、Ollama 的本地多模型部署方案

1. 安装 Ollama



🚀 一、vLLM 与 FastChat 的 Docker 部署指南

vLLM 与 FastChat 的结合可以实现高性能的大语言模型(LLM)服务。以下是详细的 Docker 部署步骤

1. 环境准备

  • 操作系统Ubuntu 20.04 或以上版

  • 硬件要求NVIDIA GPU(如 A100

  • 软件依赖: -Docke -NVIDIA Container Toolki

2. 安装 Docker 和 NVIDIA Container Toolkit

  1. 安装 Docker

    sudo apt-get update
    sudo apt-get install \ca-certificates \curl \gnupg
    sudo install -m 0755 -d /etc/apt/keyrings
    curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
    echo \"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    sudo apt-get update
    sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
    ```
  2. 安装 NVIDIA Container Toolkit

    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
    curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
    sudo apt-get update
    sudo apt-get install -y nvidia-container-toolkit
    sudo nvidia-ctk runtime configure --runtime=docker
    sudo systemctl restart docker
    ```
    

3. 拉取并运行 vLLM Docker 镜像

  1. 克隆 vLLM 项目并构建 Docker 镜像

    git clone https://github.com/vllm-project/vllm.git
    cd vllm
    docker build -t vllm-openai .
    ```
  2. 运行 Docker 容器

    docker run --gpus all -d --name vllm-server -p 8000:8000 vllm-openai
    ```
  3. 验证服务是否启动

    curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d '{"model": "NousResearch/Meta-Llama-3-8B-Instruct","prompt": "San Francisco is a","max_tokens": 7,"temperature": 0}'
    ```
    

如果返回预期的文本输出,说明部署成功 citeturn0search1


🖥️ 二、Ollama 的本地多模型部署方案

Ollama 支持在本地环境中轻松运行多个大语言模型,以下是在 macOS 上的部署步:

1. 安装 Ollama

brew install ollama
``
### 2. 拉取所需模型

```bash
ollama pull qwen:7b
ollama pull deepseek-r1:7b
``
### 3. 同时运行多个模型实例
由于 Ollama 默认情况下单实例无法同时运行多个模型,我们可以通过为每个模型实例分配不同的端口来实现并行部:

```bash
# 运行第一个模型实例
export OLLAMA_HOST=127.0.0.1:11434
ollama serve &
ollama run qwen:7b# 运行第二个模型实例
export OLLAMA_HOST=127.0.0.1:11435
ollama serve &
ollama run deepseek-r1:7b
``

这样,就可以在本地同时运行多个模型实例,分别监听不同的端口,方便进行多模型的测试与应。 citeturn0search7---## 🏢 三、企业级聊天系统架构设在企业环境中,构建一个高效、可扩展的聊天系统需要综合考虑性能、成本和维护等因素。以下是基于 vLLM 和 Ollama 的混合部署架构议:### 1. 架构概览- **核心服务层*:使用 vLLM 部署在高性能服务器上,处理主要的推理请求,支持高并发和低延迟求。
- **边缘服务层*:在员工的本地设备(如笔记本电脑)上部署 Ollama,处理低敏感度、低并发的任务,减少对中心服务器的赖。
- **API 网关*:统一管理内部和外部的 API 请求,进行流量控制和安全证。
- **负载均衡*:在核心服务层前部署负载均衡器,分发请求,确保服务的高可性。### 2. 数据流示意1. **用户请求*:用户通过客户端(如网页、移动应用)发送聊天求。
2. **API 网关*:接收请求,进行认证和由。 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词