欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 美食 > 【强化学习】——04Model-Based RL

【强化学习】——04Model-Based RL

2025/6/8 13:36:24 来源:https://blog.csdn.net/weixin_52077466/article/details/148495292  浏览:    关键词:【强化学习】——04Model-Based RL

【强化学习】——04Model-Based RL

一、基于模型的强化学习

\quad\quad 强化学习算法一般有两个评价指标:

\quad\quad \quad\quad 一是,算法收敛后的策略在初始状态下的期望回报

\quad\quad \quad\quad 二是,算法达到收敛结果需要的样本数量

\quad\quad 基于模型的算法得益于这个环境模型,Agent对真实环境中的样本量的需求往往会减少

\quad\quad 通常具备较低的样本复杂度,但由于环境模型不可能完全准确,因此其期望回报通常较低

  1. 简介

在这里插入图片描述
\quad\quad 之前的Model-Free RL中,Agent只可以与环境进行交互

\quad\quad 如果环境模型已知,那么Agent可以与模型进行交互,基于模型来规划或决策

\quad\quad 这个模型的作用在于提供环境状态转移概率和预测生成的奖励,以产生或优化策略

  1. 环境模型 M ( P , R ) M(P,R) M(P,R)的组成

\quad\quad 状态转移函数 P ( s ′ ∣ s , a ) P(s'|s,a) P(ss,a)

\quad\quad 奖励函数 R ( s , a ) R(s,a) R(s,a)

  1. 核心思路

\quad\quad 模型学习:学习或构建环境的动态模型和奖励函数

\quad\quad \quad\quad 基于数据驱动的方法:监督学习,通过收集到的数据对模型进行训练

\quad\quad \quad\quad 基于物理规律的方法:基于机器人的动力学方程建立模型

\quad\quad 规划:基于模型进行推理,找到最优策略

\quad\quad \quad\quad MPC

\quad\quad \quad\quad DP

\quad\quad

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词