欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 社会 > 【AI科技】AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI

【AI科技】AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI

2025/5/4 16:13:12 来源:https://blog.csdn.net/qq_36666115/article/details/147673815  浏览:    关键词:【AI科技】AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI

AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI

现代 AI 工作负载的规模和复杂性不断增长,而人们对性能和部署便捷性的期望也日益提升。对于在 AMD Instinct™ GPU 上构建 AI 和 HPC 未来的企业而言,ROCm 6.4 是一次飞跃。随着领先的 AI 框架、优化的容器和模块化基础架构工具的支持日益增强,ROCm 软件持续获得发展动力,助力客户更快创新、更智能地运营,并掌控其 AI 基础架构。

无论您是在多节点集群中部署推理、训练数十亿参数模型还是管理大型 GPU 集群,ROCm 6.4 软件都能通过 AMD Instinct GPU 提供无缝实现高性能的途径。

本博客重点介绍了ROCm 6.4 中的五项关键创新,这些创新直接解决了 AI 研究人员、模型开发人员和基础设施团队面临的常见挑战,使 AI 开发变得快速、简单且可扩展。

1. 用于训练和推理的 ROCm 容器:Instinct GPU 上的即插即用 AI

设置和维护优化的训练和推理环境非常耗时、容易出错,并且会减慢迭代周期。ROCm 6.4 软件引入了一套功能强大的即用型、预先优化的训练和推理容器,专为 AMD Instinct GPU 设计。

  • vLLM(推理容器) ——专为低延迟 LLM 推理而构建,为最新的 Gemma 3(day-0)、Llama、Mistral、Cohere 等开放模型提供即插即用支持。 点击此处了解基于 Instinct GPU 的 Gemma 3。其他相关链接: Docker 容器、 用户指南、 性能数据

  • SGLang(推理容器) ——针对 DeepSeek R1 和代理工作流进行了优化,通过 DeepGEMM、FP8 支持和并行多头注意力机制,实现了卓越的吞吐量和效率。SGLang 关键资源: Docker 容器、 用户指南

  • PyTorch(训练容器) ——包含性能调优的 PyTorch 版本,支持高级注意力机制,有助于在 AMD Instinct MI300X GPU 上实现无缝 LLM 训练。现已针对 Llama 3.1(8B、70B)、Llama 2(70B)和 FLUX.1-dev 进行了优化。访问适用于 ROCm 的 Pytorch 训练 Docker 及相关训练资源,请访问 Docker 容器、 用户指南、 性能数据和 性能验证。

  • Megatron-LM(训练容器) ——基于 ROCm 调优的 Megatron-LM 定制分支,旨在高效训练大规模语言模型,包括 Llama 3.1、Llama 2 和 DeepSeek-V2-Lite。访问 Megatron-LM Docker 和训练资源: Docker 容器、 用户指南、 性能数据、 性能验证

这些容器使 AI 研究人员能够更快地访问交钥匙环境,以评估新模型并运行实验。模型开发者可以利用对当今最先进的 LLM(包括 Llama 3.1、Gemma 3 和 DeepSeek)的预调支持,而无需花费时间进行复杂的配置。对于基础设施团队而言,这些容器可在开发、测试和生产环境中提供一致、可重复的部署,从而实现更顺畅的扩展并简化维护。

2. PyTorch for ROCm 获得重大升级:更快的注意力,更快的训练

训练大型语言模型 (LLM) 不断突破计算和内存的极限,而低效的注意力机制很快就会成为主要瓶颈,减慢迭代速度并增加基础设施成本。ROCm 6.4 软件在 PyTorch 框架内实现了重大性能增强,包括优化的 Flex Attention、TopK 和缩放点积注意力 (SDPA)。

Flex Attention:与 ROCm 6.3 相比,性能有了显著飞跃,大大减少了训练时间和内存开销——尤其是在依赖高级注意力机制的 LLM 工作负载中。
TopK:TopK 运算速度现提升 3 倍,加快推理响应时间,同时保持输出质量(来源)
SDPA:更平滑、长上下文推理。

这些改进意味着更快的训练时间、更低的内存开销以及更高效的硬件利用率。因此,AI 研究人员能够在更短的时间内进行更多实验,模型开发者能够更高效地微调更大的模型,最终,Instinct GPU 客户将受益于更短的训练时间和更高的基础设施投资回报率。

这些升级在ROCm PyTorch 容器中开箱即用。要了解有关 Pytorch 用于 ROCm 训练的更多信息,请阅读此处的博客 。

3. 使用 SGLang 和 vLLM 在 AMD Instinct GPU 上实现下一代推理性能

为大型语言模型提供低延迟、高吞吐量的推理是一项持续的挑战——尤其是在新模型不断涌现、部署速度预期不断提高的情况下。ROCm 6.4 针对 AMD Instinct GPU 进行了专门调优,通过推理优化的 vLLM 和 SGLang 版本正面解决了这一问题。该版本对 Grok、DeepSeek R1、Gemma 3、Llama 3.1(8B、70B、405B)等领先模型提供强大的支持,使 AI 研究人员能够在大规模基准测试中更快地获得结果,而模型开发人员则可以通过极少的调整或返工来部署真实的推理流程。同时,基础设施团队受益于稳定、可立即投入生产的容器,并每周更新,从而有助于确保大规模性能、可靠性和一致性。

这些工具共同提供了一个全栈推理环境,稳定容器和开发容器分别每两周和每周更新一次。

4. 使用 AMD GPU Operator 进行无缝 Instinct GPU 集群管理

在 Kubernetes 集群中扩展和管理 GPU 工作负载通常需要手动更新驱动程序、停机维护以及有限的 GPU 健康状况可见性,所有这些都会影响性能和可靠性。借助 ROCm 6.4,AMD GPU Operator 实现了 GPU 调度、驱动程序生命周期管理和实时遥测的自动化,从而端到端地简化了集群操作。这意味着基础架构团队可以以最小的中断执行升级,AI 和 HPC 管理员可以放心地在隔离且安全的环境中部署 AMD Instinct GPU,并实现完全的可观察性,而 Instinct 客户则可以受益于更长的正常运行时间、更低的运营风险以及更具弹性的 AI 基础架构。

新功能包括:

自动封锁、排水、重启以进行滚动更新。
扩展对 Red Hat OpenShift 4.16–4.17 和 Ubuntu 22.04/24.04 的支持,有助于确保与现代云和企业环境的兼容性。
基于 Prometheus 的设备指标导出器,用于实时健康跟踪。

5. 全新 Instinct GPU 驱动程序的软件模块化

耦合的驱动程序堆栈会减慢升级周期,增加维护风险,并降低跨环境的兼容性。ROCm 6.4 软件引入了Instinct GPU 驱动程序,这是一种模块化驱动程序架构,将内核驱动程序与 ROCm 用户空间分离。

主要优点,

基础设施团队现在可以独立更新驱动程序或 ROCm 库。
更长的 12 个月兼容期(之前版本为 6 个月)
跨裸机、容器和 ISV 应用程序更灵活地部署

这降低了发生重大变化的风险并简化了整个机群的更新 - 尤其对于云提供商、政府组织和具有严格 SLA 的企业有用。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词