欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 财经 > 产业 > GRPO demo学习

GRPO demo学习

2025/8/21 22:11:03 来源：https://blog.csdn.net/weixin_51552032/article/details/148357814 浏览: 次关键词：GRPO demo学习

基于大佬公开的demo进行学习，然后对复现的结果进行分析：

github链接在此：https://github.com/QunBB/DeepLearning/tree/main/llms/train

首先分析整体的 reward

在这里插入图片描述

这个图可以看出，在1081step的时候reward开始上升，然后到最后趋于一个收敛的情况。

在这里插入图片描述
reward的std标准差也是维持在1附近，训练到最后时，保持稳定。

然后再分析各种别的reward

1. 正确率的reward

在这里插入图片描述
因为正确率的reward是跟格式相关的，只有当格式对了，reward才会去进一步判断正不正确，所以这里也是1080+才开始有reward。

在这里插入图片描述
正确率的reward的标准差则达不到1，但是最后也是比较稳定的。

2. 格式的reward

在这里插入图片描述

其中分为软格式reward，硬格式reward和xmlcountreward。

软格式不换行也+0.5，硬格式必须换行，这样可能会让模型从软过渡到硬，挺好的。

其中xml则是更灵活的格式奖励：

在这里插入图片描述
针对各种情况进行奖励。

在这里插入图片描述

最后基本上std也是稳定的。

3. 整型奖励

因为gsm8k数据集是整型答案，所以对答案进行额外奖励

在这里插入图片描述

最后分析一下KL散度以及Loss函数

1. KL散度

在这里插入图片描述

2. Grad Norm

在这里插入图片描述

3. Loss

不知道打印出来的这个loss值到底是什么。
在这里插入图片描述

分析一下思考的长度变化

因为GRPO会生成多个样本，所以这里还会评估一下他的长度：

在这里插入图片描述

设置了长度上限为1024，所以超过1024的时候截断了。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词