欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 养生 > 强化学习核心概念与公式总结

强化学习核心概念与公式总结

2025/9/26 6:25:09 来源:https://blog.csdn.net/exlink2012/article/details/142658395  浏览:    关键词:强化学习核心概念与公式总结

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

  • 智能体:学习和做决策的实体
  • 环境:智能体交互的外部系统

1.2 状态(State)

  • 描述环境在特定时刻的情况

1.3 动作(Action)

  • 智能体可以执行的操作

1.4 奖励(Reward)

  • 环境对智能体动作的即时反馈

1.5 策略(Policy)

  • 定义智能体在给定状态下应采取的动作

1.6 价值函数(Value Function)

  • 评估状态或动作的长期价值

1.7 Q函数(Q-function)

  • 特殊的价值函数,评估状态-动作对的价值

1.8 探索与利用(Exploration vs Exploitation)

  • 在尝试新动作和利用已知好动作之间取得平衡

1.9 回合(Episode)

  • 从初始状态到终止状态的完整交互序列

1.10 折扣因子(Discount Factor)

  • 决定未来奖励的重要性

2. 关键公式

2.1 策略(Policy)

确定性策略

a = π ( s ) a = \pi(s) a=π(s)

随机策略

π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t = a | S_t = s) π(as)=P(At=aSt=s)

2.2 价值函数(Value Function)

状态价值函数

V π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s] Vπ(s)=Eπ[k=0γkRt+k+1St=s]

动作价值函数(Q函数)

Q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a] Qπ

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词