[强化学习的数学原理—赵世钰老师]学习笔记02-贝尔曼方程-下

- 2.6 矩阵-向量形式
- 2.7 求解状态值
- - 2.7.1 方法1：解析解
  - 2.7.2 方法2：数值解
  - 2.7.3 示例
- 2.8 动作值
- - 2.8.1 示例
  - 2.8.2 基于动作值的贝尔曼方程

本人为强化学习小白，为了在后续科研的过程中能够较好的结合强化学习来做相关研究，特意买了西湖大学赵世钰老师撰写的《强化学习数学原理》中文版这本书，并结合赵老师的讲解视频来学习和更深刻的理解强化学习相关概念，知识和算法技术等。学习笔记是记录自己在看书和视频过程当中的一些自己的想法，通过基于书籍、视频和自己的话讲清楚相关理论知识和算法技术。希望能帮助到同样在学习强化学习的同学和同行等。

由于笔记内容较多，因此分为上下两部分来记录。
上半部分的笔记请点击这里: [强化学习的数学原理—赵世钰老师]学习笔记02-贝尔曼方程-上。
本文章为西湖大学赵世钰老师《强化学习数学原理》中文版第2章贝尔曼方程的下半部分学习笔记，在书中内容的基础上增加了自己的一些理解内容和相关补充内容。

2.6 矩阵-向量形式

联立每个状态的贝尔曼方程即可得到简洁的矩阵-向量（matrix-vector form），基于这种形式，可以更好的理解和分析贝尔曼方程。

矩阵-向量形式的推导过程如下：

改写贝尔曼方程（12）为以下形式
$v_{\pi}(s)=r_{\pi}(s)+\gamma\sum_{s'\in\mathcal{S}}p_{\pi}(s'|s)v_{\pi}(s')\tag{13}$ 这里
$\begin{align*}r_{\pi}(s)&\doteq\sum_{a\in\mathcal{A}}\pi(a|s)\sum_{r\in\mathcal{R}}p(r|s,a)r\;\rightarrow 即时奖励的期望值\\p_{\pi}(s'|s)&\doteq\sum_{a\in\mathcal{A}}\pi(a|s)p(s'|s,a)\;\rightarrow 在策略\pi下从状态s一步转移到状态s'的概率\end{align*}$
定义状态编号并给出对应编号下的改写结果
假设存在 $n=|\mathcal{S}|$ 个状态，并对这 $n$ 个状态编号为 $n=\{s_1,s_2,\dots,s_n\}$ ，则状态 $s_{i}$ 对应的式（13）的形式为
$v_{\pi}(s_{i})=r_{\pi}(s_{i})+\gamma\sum_{s_{j}\in\mathcal{S}}p_{\pi}(s_{j}|s_{i})v_{\pi}(s_{j})\tag{14}$
定义相关向量并给出最终的矩阵-向量形式结果
定义 $v_{\pi}=\begin{bmatrix}v_{\pi}(s_1),\dots,v_{\pi}(s_n)\end{bmatrix}^{T}\in\mathbb{R}^{n}$ ， $r_{\pi}=\begin{bmatrix}r_{\pi}(s_1),\dots,r_{\pi}(s_n)\end{bmatrix}^{T}\in\mathbb{R}^{n}$ ， $P_{\pi}\in\mathbb{R}^{n\times n}$ ， $P_{\pi}$ 满足 $[P_{\pi}]_{ij}=p_{\pi}(s_{j}|s_{i})$ ，则式（14）的矩阵-向量形式如下
$v_{\pi}=r_{\pi}+\gamma P_{\pi}v_{\pi}\tag{15}$ 这里， $v_{\pi}$ 为待求解的未知量， $\gamma$ ， $r_{\pi}$ 和 $P_{\pi}$ 是已知量。

矩阵 $P_{\pi}$ 的两个性质。
$P_{\pi}$ 是一个非负矩阵（no-negative matrix），矩阵 $P_{\pi}$ 的所有元素都大于或等于0，即 $P_{\pi}\geq 0$ 。
$P_{\pi}$ 是一个随机矩阵（stochastic matrix），即矩阵 $P_{\pi}$ 的每一行所有元素的和等于1。其数学描述为 $P_{\pi}\mathbf{1}=\mathbf{1}$ ，其中 $\mathbf{1}=\begin{bmatrix}1,\dots,1\end{bmatrix}^{T}$ 是一个具有适宜维度的所有元素都为1的向量。

基于图2.5，给出其贝尔曼方程的矩阵向量形式如下
$\begin{align*}\underbrace{\begin{bmatrix}v_{\pi}(s_1)\\v_{\pi}(s_2)\\v_{\pi}(s_3)\\v_{\pi}(s_4)\end{bmatrix}}_{v_{\pi}}=\underbrace{\begin{bmatrix}r_{\pi}(s_1)\\r_{\pi}(s_2)\\r_{\pi}(s_3)\\r_{\pi}(s_4)\end{bmatrix}}_{r_{\pi}}+\gamma\underbrace{\begin{bmatrix}p_{\pi}(s_1|s_1) & p_{\pi}(s_2|s_1) & p_{\pi}(s_3|s_1) & p_{\pi}(s_4|s_1) \\p_{\pi}(s_1|s_2) & p_{\pi}(s_2|s_2) & p_{\pi}(s_3|s_2) & p_{\pi}(s_4|s_2) \\p_{\pi}(s_1|s_3) & p_{\pi}(s_2|s_3) & p_{\pi}(s_3|s_3) & p_{\pi}(s_4|s_3) \\p_{\pi}(s_1|s_4) & p_{\pi}(s_2|s_4) & p_{\pi}(s_3|s_4) & p_{\pi}(s_4|s_4) \end{bmatrix}}_{P_{\pi}}\underbrace{\begin{bmatrix}v_{\pi}(s_1)\\v_{\pi}(s_2)\\v_{\pi}(s_3)\\v_{\pi}(s_4)\end{bmatrix}}_{v_{\pi}}\end{align*}$ 带入数值后的结果已经在第2.6节的例子2中给出，可以看到 $P_{\pi}$ 满足 $P_{\pi}\mathbf{1}=\mathbf{1}$ 。

2.7 求解状态值

首先给出一个基本问题的定义
策略评价： 强化学习中求解一个策略对应的状态值的基本问题
下面将给出求解贝尔曼方程的两种基本解法，解析解和数值解。

2.7.1 方法1：解析解

$v_{\pi}=r_{\pi}+\gamma P_{\pi}$ 是一个简单的线性方程，可以很容易得到其解析解形式如下
$v_{\pi}=(I-P_{\pi})^{-1}r_{\pi}$

矩阵 $(I-P_{\pi})^{-1}$ 的一些性质

矩阵 $(I-P_{\pi})$ 是可逆的
矩阵 $(I-P_{\pi})^{-1}\geq I$ ，即矩阵 $(I-P_{\pi})^{-1}$ 中的每一个元素都大于或等于0，且大于或等于单位矩阵 $I$ 中对应的元素。
对任何向量 $r_{\pi}\geq 0$ ，存在 $(I-P_{\pi})^{-1}r_{\pi}\geq r_{\pi}\geq 0$ 。

解析解对于理论分析有重要作用，但是涉及到矩阵逆的运算，需要复杂的数值算法来计算。

2.7.2 方法2：数值解

为了解决解析解方法存在的局限性，可以直接使用如下形式的数值迭代算法来求解贝尔曼方程的状态值
$v_{k+1}=r_{\pi}+\gamma P_{\pi}v_{k},\;k=0,1,2,\dots\tag{16}$
如果从一个初始猜测 $v_{0}$ 开始，上述算法会给一个序列 $\{v_{0},v_{1},v_{2},\dots\}$ ，同时该序列最终会收敛到一个真实的状态值，即
$v_{k}\rightarrow v_{\pi}=(I-\gamma P_{\pi})^{-1}r_{\pi},\;随着k \rightarrow\infty\tag{17}$
式（17）的证明如下

目标： $v_{k}\rightarrow v_{\pi},\;随着k\rightarrow\infty$ ，即定义误差 $\delta_{k}=v_{k}-v_{\pi}$ ，证明 $\delta_{k}\rightarrow 0$ 。
基于误差的定义，将 $v_{k+1}=\delta_{k+1}+v_{\pi}$ 和 $v_{k}=\delta_{k}+v_{\pi}$ 带入式（16）可得 $\delta_{k}+v_{\pi}=r_{\pi}+\gamma P_{\pi}(\delta_{k}+v_{\pi})$ 对上式进行变换可得
$\begin{align*}\delta_{k}&=-v_{\pi}+r_{\pi}+\gamma P_{\pi}(\delta_{k}+v_{\pi})\\&=\gamma P_{\pi}\delta_{k}-v_{\pi}+(r_{\pi}+\gamma P_{\pi}v_{k})\\&=\gamma P_{\pi}\delta_{k}\end{align*}$ 对上式进行关系迭代可得 $\delta_{k}=\gamma P_{\pi}\delta_{k}=\gamma^2P^2_{\pi}\delta_{k-1}=\cdots=\gamma^{k+1}P^{k+1}_{\pi}\delta_{0}$ 由矩阵 $P_{\pi}$ 的性质可知， $0\leq P^{k}_{\pi}\leq 1$ 对任意的 $k$ 都成立。此外， $\gamma<1$ ，当 $k\rightarrow\infty$ 时， $\gamma^{k}\rightarrow 0$ ，所以，当 $k\rightarrow\infty$ 时，有 $\delta_{k}=\gamma^{k+1}P^{k+1}_{\pi}\delta_{0}\rightarrow 0$ 。

2.7.3 示例

2.8 动作值

本节将在状态值的基础上，引入动作值或动作价值（action value）的概念。

动作值依赖于状态值的概念，理解好状态值才能更好的理解动作值。

动作值的定义：
针对一个状态-动作配对（state-action pair） $(s, a)$ ，其动作值定义为
$q_{\pi}(s,a)\doteq\mathbb{E}[G_{t}|S_{t}=s,A_{t}=a]$

由上述等式可知动作值被定义为在一个状态采取一个动作之后获得的回报的期望值。 $q_{\pi}(s,a)$ 依赖于一个状态-动作配对 $(s, a)$ ，而不仅仅是一个动作，严谨来说称为状态-动作值更合适，简称为动作值。

动作值与状态值的关系：

由条件期望的性质 $\mathbb{E}[X|A=a]=\sum_{b}\mathbb{E}[{X|A=a,B=b}]p(b|a)$ 可知
$\underbrace{\mathbb{E}[G_{t}|S_{t}=s]}_{v_{\pi}(s)}=\sum_{a\in\mathcal{A}}\underbrace{\mathbb{E}[G_{t}|S_{t}=s,A_{t}=a]}_{q_{\pi}(s)}\pi(a|s)$
上式的简化形式为 $\begin{align}v_{\pi}(s)&=\sum_{a\in\mathcal{A}}\pi(a|s)q_{\pi}(s)\\&=\mathbb{E}_{A_{t}\sim\pi(s)}[q_{\pi}(s,A_{t})]\end{align}\tag{18}$

由式（18）可知，状态值是该状态对应的动作值的期望值。

根据第2.6节可知，状态值可以写成
$v_{\pi}(s)=\sum_{a\in\mathcal{A}}\pi(a|s)\bigg[\sum_{r\in\mathcal{R}}p(r|s,a)r+\gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)v_{\pi}(s')\bigg]$ 基于式（18），可以得到以下等式
$\begin{align}q_{\pi}(s)&=\sum_{r\in\mathcal{R}}p(r|s,a)r+\gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)v_{\pi}(s')\\&=\mathbb{E}[R_{t+1}|S_{t}=s,A_{t}=a]+\mathbb{E}[\gamma v_{\pi}(S_{t+1})|S_{t}=s,A_{t}=a]\\&=\mathbb{E}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_{t}=s,A_{t}=a]\end{align}\tag{19}$

由式（19）可知，动作值是一个包含动作值 $v_{\pi}(S_{t+1})$ 的变量的期望值。
式（18）描述了如何从动作值得到状态值。
式（19）描述了如何从状态值得到动作值。

2.8.1 示例

在这里插入图片描述

图2.6 展示计算动作值的随机性策略例子

考虑状态 $s_1$ 的动作值，策略在 $s_1$ 存在两个可能的动作 $a_2$ 或 $a_3$ ，其对应的动作值分别为
$\begin{align*}q_{\pi}(s_1,a_2)&=-1+\gamma v_{\pi}(s_2)\\q_{\pi}(s_1,a_3)&=0+\gamma v_{\pi}(s_3)\end{align*}$

需要注意的是，在图2.6中，如果认为策略在 $s_1$ 只会执行动作 $a_2$ 或者 $a_3$ ，不会去执行动作 $a_1$ ， $a_4$ ， $a_5$ ，所以就可以忽略 $a_1$ ， $a_4$ ， $a_5$ 的动作值（为0），或者不去计算其动作值，这是非常错误的想法！！！

因此，以下两个观点非常需要注意

一个动作即使不会被策略选择，但其仍然具有动作值。我们可以假设当策略“采取”这个动作（ $a_{1}$ ， $a_{4}$ ， $a_{5}$ ）后获得的回报。例如：
- 当状态 $s_1$ 选择动作 $a_1$ 后，智能体被弹回，奖励 $r = - 1$ ，然后继续从状态 $s_1$ 按照策略 $\pi$ 移动，则未来奖励是 $\gamma v_{\pi}(s_{1})$ ， $s_1,a_1)$ 的动作值为 $q_{\pi}(s_1,a_1)=-1+\gamma v_{\pi}(s_1)$
- 当状态 $s_1$ 选择动作 $a_4$ 后，智能体被弹回，奖励 $r = - 1$ ，然后继续从状态 $s_1$ 按照策略 $\pi$ 移动，则未来奖励是 $\gamma v_{\pi}(s_{1})$ ， $s_1,a_4)$ 的动作值为 $q_{\pi}(s_1,a_4)=-1+\gamma v_{\pi}(s_1)$
- 当状态 $s_1$ 选择动作 $a_5$ 后，智能体原地不动，奖励 $r = 0$ ，然后继续从状态 $s_1$ 按照策略 $\pi$ 移动，则未来奖励是 $\gamma v_{\pi}(s_{1})$ ， $s_1,a_5)$ 的动作值为 $q_{\pi}(s_1,a_5)=0+\gamma v_{\pi}(s_1)$
策略不会选择的动作也是需要关注的。虽然一些动作暂时未被策略所选择，但这并不意味着这些动作是不好的。反之，这些动作可能是最好的，只是当前的策略不够好导致没有选择到最优的动作。