扩散模型与强化学习(0)：专栏汇总与导航

1、Diffusion与强化学习(1)：字节Seedance中的人类偏好优化实践

最近强化学习在Diffusion Models得到了越来越多广泛的应用，本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。

2、扩散模型与强化学习(2)：字节视频生成模型Seaweed-7B中的RLHF实践

虽然SFT在改善美观方面是有效的，但在SFT后经常观察到运动和结构的退化。在Seaweed-7B中，使用RLHF可以明显改善在改善结构和运动质量。

3、扩散模型与强化学习(3)：Skyreels-v2中的DPO实战

《Skyreels-v2: Infinite-length film generative model》中详细介绍了训练Flow-DPO的原理、方法、数据收集策略等，内容非常翔实，是训练Flow-DPO非常难得的一份参考资料。

4、扩散模型与强化学习(4)：PG/TRPO/PPO/DPO/GRPO的区别与联系

本文系统梳理了强化学习策略优化方法的演进过程，从PG（策略梯度）到TRPO（信任域策略优化）、PPO（近端策略优化）、DPO（直接偏好优化）直至GRPO（群组相对优化策略）。这一发展路径呈现出三大规律：1）从在线策略向离线策略迁移；2）策略稳定性不断提升；3）数据需求从环境交互转向静态偏好数据。文章重点对比了各算法核心思想与改进点：TRPO引入信任域约束解决PG的高方差问题，PPO通过Clip机制简化TRPO的复杂计算，DPO实现离线策略学习并利用人类偏好数据，而GRPO则在保持奖励模型的同时优化计算效率。

5、扩散模型与强化学习(5)：Flow-based Model与GRPO

最近在生成模型方面的突破- -特别是扩散模型和矫正流- -已经彻底改变了视觉内容的创造，但将模型输出与人类偏好保持一致仍然是一个关键的挑战。现有的基于强化学习( RL )的视觉生成方法存在严重的局限性：与基于常微分方程( ODEs )的现代采样范式不兼容、大规模训练不稳定以及缺乏视频生成的验证。本文介绍DanceGRPO，第一种将群体相对策略优化( Group Relative Policy Optimization，GRPO )适应于视觉生成范式的统一框架。

6、扩散模型与强化学习(6)：快手可灵提出经典的视频Flow-DPO方法VideoAlign

本文提出了一种利用人类反馈改进视频生成的系统方法。研究团队构建了包含182k样本的多维人类偏好数据集（视觉质量、运动质量和文本对齐），并开发了VideoReward奖励模型。基于强化学习框架，研究者提出了三种基于流模型的对齐算法：Flow-DPO、Flow-RWR两种训练时方法和Flow-NRG推理时技术。实验表明，VideoReward优于现有模型，Flow-DPO表现最佳，而Flow-NRG支持推理时自定义质量权重。通过分离上下文相关与无关的评估维度，该方法显著提升了视频生成质量与可解释性。

7、扩散模型与强化学习(7)：用DPO改进音频驱动视频生成实践

本文提出了一种创新的人类偏好对齐扩散框架，用于生成音频和骨骼运动驱动的高质量肖像动画。该框架包含两个核心技术：1)针对肖像动画的定向偏好优化，通过构建人类偏好数据集优化生成结果；2)时间运动调制机制，将不同采样率的运动信号有效整合到扩散模型中，保持高频运动细节。实验表明，该方法在唇音同步、表情自然度和运动连贯性方面显著优于现有基线方法，同时提升了人类偏好评价指标。研究还发布了专门构建的肖像动画偏好数据集，为相关研究提供了新基准。

扩散模型与强化学习(0)：专栏汇总与导航

1、Diffusion与强化学习(1)：字节Seedance中的人类偏好优化实践

2、扩散模型与强化学习(2)：字节视频生成模型Seaweed-7B中的RLHF实践

3、扩散模型与强化学习(3)：Skyreels-v2中的DPO实战

4、扩散模型与强化学习(4)：PG/TRPO/PPO/DPO/GRPO的区别与联系

5、扩散模型与强化学习(5)：Flow-based Model与GRPO

6、扩散模型与强化学习(6)：快手可灵提出经典的视频Flow-DPO方法VideoAlign

7、扩散模型与强化学习(7)：用DPO改进音频驱动视频生成实践

相关资讯

热文排行

最新新闻

推荐新闻

热搜词