欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > 论文导读 | SOSP23 | Gemini:大模型 内存CheckPoint 快速故障恢复

论文导读 | SOSP23 | Gemini:大模型 内存CheckPoint 快速故障恢复

2025/10/23 16:15:07 来源:https://blog.csdn.net/iamonlyme/article/details/147017413  浏览:    关键词:论文导读 | SOSP23 | Gemini:大模型 内存CheckPoint 快速故障恢复

 本期分享的是一篇SOSP 2023论文:

Gemini: Fast Failure Recovery in Distributed Training with In-Memory Checkpoints

Zhuang Wang (Rice University), Zhen Jia (Amazon Web Services, Inc.), Shuai Zheng (Amazon Web Services), Zhen Zhang (Amazon Web Services), Xinwei Fu (Amazon Web Services), T. S. Eugene Ng (Rice University) and Yida Wang (Amazon)

https://www.cs.rice.edu/~eugeneng/papers/SOSP23.pdf

图片

摘要

  最近,大型深度学习模型引起了学术界和工业界的广泛关注。然而,由于大模型训练涉及大规模资源和较长的训练时间,训练过程中频繁发生故障。现有解决方案由于远程存储带宽的限制,故障恢复成本较高。

  本文提出Gemini——一种分布式训练系统,该系统通过将CheckPoint存储在主机设备的CPU内存中,实现大模型训练中的快速故障恢复。然而,简单地将CheckPoint存储在CPU内存中存在两个挑战:

  • 首先,故障发生时,CPU内存中的CheckPoint可用性无法保证。
  • 其次,由于训练和CheckPoint通信共享同一网络,CheckPoint通信 可能会干扰训练通信,影响训练吞吐量。

  为了解决这两个挑战,本文提出:

  • 1) 一种可证明接近最优的CheckPoint放置策略,以最大化从CPU内存检查点恢复故障的概率;
  • 2) 一种CheckPoint通信调度算法,以最小化甚至消除检查点通信对模型训练的干扰。

  评估表明,Gemini的总体故障恢复速度比现有解决方案快13倍以上。

  论文 | SOSP23 | Gemini:大模型 内存CheckPoint 快速故障恢复

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com