欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 游戏 > 扩散模型与强化学习(0):专栏汇总与导航

扩散模型与强化学习(0):专栏汇总与导航

2025/6/23 16:36:45 来源:https://blog.csdn.net/qq_41895747/article/details/148829672  浏览:    关键词:扩散模型与强化学习(0):专栏汇总与导航

1、Diffusion与强化学习(1):字节Seedance中的人类偏好优化实践

最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。

2、扩散模型与强化学习(2):字节视频生成模型Seaweed-7B中的RLHF实践

虽然SFT在改善美观方面是有效的,但在SFT后经常观察到运动和结构的退化。在Seaweed-7B中,使用RLHF可以明显改善在改善结构和运动质量。

3、扩散模型与强化学习(3):Skyreels-v2中的DPO实战

《Skyreels-v2: Infinite-length film generative model》中详细介绍了训练Flow-DPO的原理、方法、数据收集策略等,内容非常翔实,是训练Flow-DPO非常难得的一份参考资料。

4、扩散模型与强化学习(4):PG/TRPO/PPO/DPO/GRPO的区别与联系

本文系统梳理了强化学习策略优化方法的演进过程,从PG(策略梯度)到TRPO(信任域策略优化)、PPO(近端策略优化)、DPO(直接偏好优化)直至GRPO(群组相对优化策略)。这一发展路径呈现出三大规律:1)从在线策略向离线策略迁移;2)策略稳定性不断提升;3)数据需求从环境交互转向静态偏好数据。文章重点对比了各算法核心思想与改进点:TRPO引入信任域约束解决PG的高方差问题,PPO通过Clip机制简化TRPO的复杂计算,DPO实现离线策略学习并利用人类偏好数据,而GRPO则在保持奖励模型的同时优化计算效率。

5、扩散模型与强化学习(5):Flow-based Model与GRPO

最近在生成模型方面的突破- -特别是扩散模型和矫正流- -已经彻底改变了视觉内容的创造,但将模型输出与人类偏好保持一致仍然是一个关键的挑战。现有的基于强化学习( RL )的视觉生成方法存在严重的局限性:与基于常微分方程( ODEs )的现代采样范式不兼容、大规模训练不稳定以及缺乏视频生成的验证。本文介绍DanceGRPO,第一种将群体相对策略优化( Group Relative Policy Optimization,GRPO )适应于视觉生成范式的统一框架。

6、扩散模型与强化学习(6):快手可灵提出经典的视频Flow-DPO方法VideoAlign

本文提出了一种利用人类反馈改进视频生成的系统方法。研究团队构建了包含182k样本的多维人类偏好数据集(视觉质量、运动质量和文本对齐),并开发了VideoReward奖励模型。基于强化学习框架,研究者提出了三种基于流模型的对齐算法:Flow-DPO、Flow-RWR两种训练时方法和Flow-NRG推理时技术。实验表明,VideoReward优于现有模型,Flow-DPO表现最佳,而Flow-NRG支持推理时自定义质量权重。通过分离上下文相关与无关的评估维度,该方法显著提升了视频生成质量与可解释性。

7、扩散模型与强化学习(7):用DPO改进音频驱动视频生成实践

本文提出了一种创新的人类偏好对齐扩散框架,用于生成音频和骨骼运动驱动的高质量肖像动画。该框架包含两个核心技术:1)针对肖像动画的定向偏好优化,通过构建人类偏好数据集优化生成结果;2)时间运动调制机制,将不同采样率的运动信号有效整合到扩散模型中,保持高频运动细节。实验表明,该方法在唇音同步、表情自然度和运动连贯性方面显著优于现有基线方法,同时提升了人类偏好评价指标。研究还发布了专门构建的肖像动画偏好数据集,为相关研究提供了新基准。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词