1、Diffusion与强化学习(1):字节Seedance中的人类偏好优化实践
最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。
2、扩散模型与强化学习(2):字节视频生成模型Seaweed-7B中的RLHF实践
虽然SFT在改善美观方面是有效的,但在SFT后经常观察到运动和结构的退化。在Seaweed-7B中,使用RLHF可以明显改善在改善结构和运动质量。
3、扩散模型与强化学习(3):Skyreels-v2中的DPO实战
《Skyreels-v2: Infinite-length film generative model》中详细介绍了训练Flow-DPO的原理、方法、数据收集策略等,内容非常翔实,是训练Flow-DPO非常难得的一份参考资料。
4、扩散模型与强化学习(4):PG/TRPO/PPO/DPO/GRPO的区别与联系
本文系统梳理了强化学习策略优化方法的演进过程,从PG(策略梯度)到TRPO(信任域策略优化)、PPO(近端策略优化)、DPO(直接偏好优化)直至GRPO(群组相对优化策略)。这一发展路径呈现出三大规律:1)从在线策略向离线策略迁移;2)策略稳定性不断提升;3)数据需求从环境交互转向静态偏好数据。文章重点对比了各算法核心思想与改进点:TRPO引入信任域约束解决PG的高方差问题,PPO通过Clip机制简化TRPO的复杂计算,DPO实现离线策略学习并利用人类偏好数据,而GRPO则在保持奖励模型的同时优化计算效率。
5、扩散模型与强化学习(5):Flow-based Model与GRPO
最近在生成模型方面的突破- -特别是扩散模型和矫正流- -已经彻底改变了视觉内容的创造,但将模型输出与人类偏好保持一致仍然是一个关键的挑战。现有的基于强化学习( RL )的视觉生成方法存在严重的局限性:与基于常微分方程( ODEs )的现代采样范式不兼容、大规模训练不稳定以及缺乏视频生成的验证。本文介绍DanceGRPO,第一种将群体相对策略优化( Group Relative Policy Optimization,GRPO )适应于视觉生成范式的统一框架。
6、扩散模型与强化学习(6):快手可灵提出经典的视频Flow-DPO方法VideoAlign
本文提出了一种利用人类反馈改进视频生成的系统方法。研究团队构建了包含182k样本的多维人类偏好数据集(视觉质量、运动质量和文本对齐),并开发了VideoReward奖励模型。基于强化学习框架,研究者提出了三种基于流模型的对齐算法:Flow-DPO、Flow-RWR两种训练时方法和Flow-NRG推理时技术。实验表明,VideoReward优于现有模型,Flow-DPO表现最佳,而Flow-NRG支持推理时自定义质量权重。通过分离上下文相关与无关的评估维度,该方法显著提升了视频生成质量与可解释性。
7、扩散模型与强化学习(7):用DPO改进音频驱动视频生成实践
本文提出了一种创新的人类偏好对齐扩散框架,用于生成音频和骨骼运动驱动的高质量肖像动画。该框架包含两个核心技术:1)针对肖像动画的定向偏好优化,通过构建人类偏好数据集优化生成结果;2)时间运动调制机制,将不同采样率的运动信号有效整合到扩散模型中,保持高频运动细节。实验表明,该方法在唇音同步、表情自然度和运动连贯性方面显著优于现有基线方法,同时提升了人类偏好评价指标。研究还发布了专门构建的肖像动画偏好数据集,为相关研究提供了新基准。