欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 产业 > GRPO demo学习

GRPO demo学习

2025/6/24 6:23:35 来源:https://blog.csdn.net/weixin_51552032/article/details/148357814  浏览:    关键词:GRPO demo学习

基于大佬公开的demo进行学习,然后对复现的结果进行分析:

  • github链接在此:https://github.com/QunBB/DeepLearning/tree/main/llms/train

首先分析整体的 reward

在这里插入图片描述

这个图可以看出,在1081step的时候reward开始上升,然后到最后趋于一个收敛的情况。

在这里插入图片描述
reward的std标准差也是维持在1附近,训练到最后时,保持稳定。

然后再分析各种别的reward

1. 正确率的reward

在这里插入图片描述
因为正确率的reward是跟格式相关的,只有当格式对了,reward才会去进一步判断正不正确,所以这里也是1080+才开始有reward。

在这里插入图片描述
正确率的reward的标准差则达不到1,但是最后也是比较稳定的。

2. 格式的reward

在这里插入图片描述

其中分为软格式reward,硬格式reward和xmlcountreward。

软格式不换行也+0.5,硬格式必须换行,这样可能会让模型从软过渡到硬,挺好的。

其中xml则是更灵活的格式奖励:

在这里插入图片描述
针对各种情况进行奖励。

在这里插入图片描述

最后基本上std也是稳定的。

3. 整型奖励

因为gsm8k数据集是整型答案,所以对答案进行额外奖励

在这里插入图片描述
在这里插入图片描述

最后分析一下KL散度以及Loss函数

1. KL散度

在这里插入图片描述

2. Grad Norm

在这里插入图片描述

3. Loss

不知道打印出来的这个loss值到底是什么。
在这里插入图片描述

分析一下思考的长度变化

因为GRPO会生成多个样本,所以这里还会评估一下他的长度:

在这里插入图片描述
在这里插入图片描述

设置了长度上限为1024,所以超过1024的时候截断了。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词