模式识别-Ch3-HMM

隐马尔可夫模型(HMM)

时间序列模型: $X=\{\mathbf{x}_1,\mathbf{x}_2.\dots,\mathbf{x}_n\}$

$n$ 是序列长度
$\mathbf{x}_t\in\mathbb{R}^d$ 是 $X$ 在t时刻的观察数据
不满足独立假设、观测数据间具有很强的相关性。

**Q: 如何对序列数据表示、学习和推理? **

首先需要引入关于数据分布和时间轴依赖关系的概率模型，即如何表示 $p(\mathbf{x}_1,\mathbf{x}_2,\dots,\mathbf{x}_n)$

对 $P (X)$ 的假定

方法1具有极强的灵活性、通用性，但参数量大、计算复杂度高
方法2具有极差的灵活性、通用性，但参数量小、计算复杂度低
如何平衡灵活性和复杂度?

方法	联合分布
方法1：不对数据做任何独立性假设，直接对条件分布建模( $\mathbf{x}_t$ 和它的全部历史相关)	$p(\mathbf{x}_1,\dots,\mathbf{x}_n)=p(\mathbf{x_1})\prod^n_{t=2}p(\mathbf{x}_t\vert \mathbf{x}_1,\mathbf{x}_2.\dots,\mathbf{x}_{t-1} )$
方法2：假设 $\{\mathbf{x}_1,\mathbf{x}_2.\dots,\mathbf{x}_n\}$ 独立，只对边缘分布建模	$p(\mathbf{x}_1,\dots,\mathbf{x}_n)=\prod^n_{i=1}p(\mathbf{x}_t)$
方法3：(Markov性) $\mathbf{x}_{t}$ 只与 $\mathbf{x}_{t-1}$ 有关 $p(\mathbf{x}_t\vert \mathbf{x}_1,\dots,\mathbf{x}_{t-1})=p(\mathbf{x}_t\vert \mathbf{x}_{t-1})$	$p(\mathbf{x}_1,\dots,\mathbf{x}_n)=p(\mathbf{x}_1)\prod^n_{t=2}p(\mathbf{x}_t\vert \mathbf{x}_{t-1})$

HMM的表示

Markov链

静态、离散、一阶Markov链的联合分布：
$p(\mathbf{x}_1,\dots,\mathbf{x}_n)=p(\mathbf{x}_1)\prod^n_{t=2}p(\mathbf{x}_t\vert \mathbf{x}_{t-1})$

参数	说明
离散马氏链	$\mathbf{x}_t\in\{1,2,\dots,K\},K$ 为状态数
静态马氏链	转移概率 $p(\mathbf{x_t}\vert \mathbf{x_{t-1}})$ 只与状态有关，与时间 $t$ 无关
初始状态分布	$p(\mathbf{x}_1)=\pi\in\mathbb{R}^K$
状态转移概率	$p(\mathbf{x_t}\vert \mathbf{x_{t-1}})=A\in\mathbb{R}^{K\times K}$

例子

$\mathbf{x}_t \in \{雨天,晴天,阴天\}, K = 3$
初始状态分布： $\pi=[0.1, 0.6, 0.3]$
状态转移概率：

$A=\begin{bmatrix} 0.1 & 0.4 & 0.5 \\ 0.1 & 0.6 & 0.3 \\ 0.2 & 0.4 & 0.4 \end{bmatrix}$

已知第 $t$ 天是雨天，第 $t + 2$ 天是晴天的概率？
$p(\mathbf{x}_t)=[1,0,0]^T\\ p(\mathbf{x}_{t + 1})=A^T p(\mathbf{x}_t)=[0.1, 0.4, 0.5]^T\\ p(\mathbf{x}_{t + 2})=A^T p(\mathbf{x}_{t + 1})=[0.15, 0.48, 0.37]^T$

HMM简介

HMM的基本思想
- 观测序列由一个不可见的马尔可夫链生成。
- HMM的随机变量可分为两组：
  - 状态变量 $\{z_1,z_2,\cdots,z_n\}$ ：构成一阶、离散、静态马尔可夫链。用于描述系统内部的状态变化，通常是隐藏的，不可被观测的。其中， $z_t$ 表示第 $t$ 时刻系统的状态。
  - 观测变量 $\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\}$ ：其中， $\mathbf{x}_t$ 表示第 $t$ 时刻的观测变量，通过条件概率 $p(\mathbf{x}_t\vert z_t)$ 由状态变量 $z_t$ 生成；根据具体问题， $\mathbf{x}_t$ 可以是离散或连续，一维或多维。
- 主要用于时序数据建模，在CV、NLP、语音识别中有诸多应用。

HMM的图结构

在图中，箭头表示依赖关系。
$t$ 时刻的观测变量 $\mathbf{x}_t$ 的取值仅依赖于状态变量 $z_t$ 。当 $z_t$ 已知， $\mathbf{x}_t$ 与其它状态独立。
$t$ 时刻的状态变量 $z_t$ 的取值仅依赖于 $t - 1$ 时刻的状态变量 $z_{t-1}$ 。当 $z_{t-1}$ 已知， $z_t$ 与其余 $t - 2$ 个状态独立。即 ${z_t\}$ 构成马尔可夫链，系统下一刻的状态仅由当前状态决定，不依赖于以往任何状态。

HMM中的条件独立性:
$p(\mathbf{x}_1,\cdots,\mathbf{x}_n|z_t)=p(\mathbf{x}_1,\cdots,\mathbf{x}_t|z_t)p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t)\\ p(\mathbf{x}_1,\cdots,\mathbf{x}_n|z_{t - 1},z_t)=p(\mathbf{x}_1,\cdots,\mathbf{x}_{t - 2}|z_{t - 1})p(\mathbf{x}_{t - 1}|z_{t - 1})p(\mathbf{x}_t|z_t)p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t)\\\\ p(\mathbf{x}_1,\cdots,\mathbf{x}_{t - 1}|\mathbf{x}_t,z_t)=p(\mathbf{x}_1,\cdots,\mathbf{x}_{t - 1}|z_t)\\ p(\mathbf{x}_1,\cdots,\mathbf{x}_{t - 1}|z_{t - 1},z_t)=p(\mathbf{x}_1,\cdots,\mathbf{x}_{t - 1}|z_{t - 1})\\ p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|\mathbf{x}_t,z_t)=p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t)\\ p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t,z_{t + 1})=p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_{t + 1})$

HMM联合概率分布:
$p(\mathbf{x}_1,\cdots,\mathbf{x}_n,z_1,\cdots,z_n)=p(z_1)\prod_{t = 2}^n p(z_t|z_{t - 1})\prod_{t = 1}^n p(\mathbf{x}_t|z_t)$

基本要素	对应公式
初始状态概率向量 $\pi \in R^K$	$\pi_k = P(z_1 = k),\quad 1\leq k\leq K$
状态转移概率矩阵 $A\in R^{K\times K}$	$A_{i,j}=P(z_t = j\vert z_{t-1}=i),\quad 1\leq i,j\leq K$
发射概率矩阵 $B\in R^{K\times M}$	离散： $B_{i,j}=P(\mathbf{x}_t = j\vert z_t = i),\quad 1\leq i\leq K,1\leq j\leq M$

例子

HMM的学习

三个基本问题

三个基本问题	简述	说明
给定模型 $[A,B,\pi]$ ，如何有效地计算其产生观测序列 $\mathbf{x}=\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\}$ 的概率 $P(\mathbf{x}\vert A,B,\pi)$ ？	评估模型与观测数据的匹配程度。	许多任务需要根据以往的观测序列来预测当前时刻最有可能的观测值。
给定模型 $[A,B,\pi]$ 和观测序列 $\mathbf{x}=\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\}$ ，如何找到与此观测序列相匹配的状态序列 $z=\{z_1,z_2,\cdots,z_n\}$ ？	根据观测序列推断出隐藏的模型状态。(解码问题)	在语言识别中，观测值为语音信号，隐藏状态为文字，目标就是观测信号推断最有可能的状态。
给定观测序列 $\mathbf{x}=\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\}$ ，如何调整模型参数 $[A,B,\pi]$ 使该序列出现的概率 $P(\mathbf{x}\vert A,B,\pi)$ 最大？	如何模型使其能够最好地描述观测数据。(参数估计-学习问题)	在大多数实际应用中，人工指定参数已变得不可行，需要根据训练样本学习最优模型。

参数学习的基本任务

通过拟合观测序列，确定HMM中的参数: $\theta=(\pi,A,B)$

EM算法步骤:

E Step: 对给定的 $\theta$ ，估计：
$q(z_1,\cdots,z_n) = p_{\theta}(z_1,\cdots,z_n|\mathbf{x}_1,\cdots,\mathbf{x}_n)$
M Step: 用估计出的 $q(z_1,\cdots,z_n)$ ，更新 $\theta$ ：
$\theta = \arg \max_{\theta} \sum_{z} q(z_1,\cdots,z_n) \ln p_{\theta}(\mathbf{x}_1,\cdots,\mathbf{x}_n,z_1,\cdots,z_n)$
E步和M步迭代运行，直至收敛

M step: 更新 $\theta$

$p_{\theta}(\mathbf{x}_1,\cdots,\mathbf{x}_n,z_1,\cdots,z_n)= p_{\theta}(z_1)\prod_{t = 2}^{n} p_{\theta}(z_t\vert z_{t-1})\prod_{t = 1}^{n} p_{\theta}(\mathbf{x}_t\vert z_t)$

$\begin{align*} Q(\theta,\theta^{old})&=\sum_{z} q(z_1,\cdots,z_n) \ln p_{\theta}(\mathbf{x}_1,\cdots,\mathbf{x}_n,z_1,\cdots,z_n)\\ &=\sum_{z} q(z_1,\cdots,z_n) (\ln p_{\theta}(z_1)+\sum_{t = 2}^{n} \ln p_{\theta}(z_t|z_{t - 1})+\sum_{t = 1}^{n} \ln p_{\theta}(\mathbf{x}_t|z_t))\\ &=\sum_{z_1=1}^K q(z_1) \ln p_{\theta}(z_1)+\sum_{t = 2}^{n} \sum_{z_{t - 1},z_t = 1}^{K} q(z_{t - 1},z_t) \ln p_{\theta}(z_t|z_{t - 1}) +\sum_{t = 1}^{n} \sum_{z_t = 1}^{K} q(z_t) \ln p_{\theta}(\mathbf{x}_t|z_t)\\ &=\sum_{z_1=1}^K q(z_1)\ln p_\theta(\pi_{z_1})+\sum_{t = 2}^{n} \sum_{z_{t - 1},z_t = 1}^{K} q(z_{t - 1},z_t) \ln A_{z_{t-1},z_t}+\sum_{t = 1}^{n} \sum_{z_t = 1}^{K} q(z_t) \ln B_{z_t,x_t} \end{align*}$

用拉格朗日乘子法优化以下问题，可得：

参数	计算	约束	结果
$\pi$	$\arg\max_{\pi} \sum_{z_1 = 1}^{K} q(z_1) \ln \pi_{z_1}$	$\sum_{k = 1}^{K} \pi_k = 1$	$\pi_k = q(z_1 = k)$
$A$	$\arg\max_{A} \sum_{t = 2}^{n} \sum_{z_{t-1},z_t = 1}^{K} q(z_{t-1},z_t) \ln A_{z_{t-1},z_t}$	$\forall i \sum_{j = 1}^{K} A_{i,j} = 1$	$A_{i,j} = \frac{\sum_{t = 2}^{n} q(z_{t-1}=i,z_t = j)}{\sum_{t = 2}^{n} \sum_{k = 1}^{K} q(z_{t-1}=i,z_t = k)}$
$B$	$\arg\max_{B} \sum_{t = 1}^{n} \sum_{z_t = 1}^{K} q(z_t) \ln B_{z_t,\mathbf{x}_t}$	$\forall i \sum_{j = 1}^{M} B_{i,j} = 1$	$B_{i,j} = \frac{\sum_{t = 1}^{n} \mathbf{1}\{\mathbf{x}_t == \hat j\}q(z_t = i)}{\sum_{t = 1}^{n} q(z_t = i)}$

E Step: 对给定的 $\theta$ ，估计 $q(z_1,\cdots,z_n)=p_{\theta}(z_1,\cdots,z_n\vert \mathbf{x}_1,\cdots,\mathbf{x}_n)$

只需估计：
$q(z_t) = p_{\theta}(z_t|\mathbf{x}_1,\cdots,\mathbf{x}_n)\\ q(z_{t - 1},z_t) = p_{\theta}(z_{t - 1},z_t|\mathbf{x}_1,\cdots,\mathbf{x}_n)$
以下省略 $\theta$ ：
$\begin{align} q(z_t) &= \frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n,z_t)}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)}=\frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n|z_t)p(z_t)}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)}\\ &= \frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_t|z_t)p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t)p(z_t)}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)}\\ &=\frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_t,z_t)p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t)}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)}\\\\ q(z_{t - 1},z_t)&=\frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n,z_{t - 1},z_t)}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)}\\ &=\frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n,z_t|z_{t - 1})p(z_{t - 1})}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)}\\ &=\frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_{t - 1}|z_{t - 1})p(\mathbf{x}_t,\cdots,\mathbf{x}_n,z_t|z_{t - 1})p(z_{t - 1})}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)}\\ & =\frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_{t - 1},z_{t - 1})p(\mathbf{x}_t,\cdots,\mathbf{x}_n,z_t|z_{t - 1})}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)} \end{align}$

前向-后向算法(forward-backward algorithm)

$q(z_t) = \frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_t,z_t)p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t)}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)}\\ q(z_{t - 1},z_t) = \frac{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_{t - 1},z_{t - 1})p(\mathbf{x}_t,\cdots,\mathbf{x}_n,z_t|z_{t - 1})p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t)}{p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)}$

前向概率： $\alpha_t(z_t) = p(\mathbf{x}_1,\cdots,\mathbf{x}_t,z_t)$
后向概率： $\beta_t(z_t) = p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n\vert z_t)$
观测概率： $p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)=\sum_{k = 1}^{K} \alpha_n(z_n)$
$q(z_t) = \frac{\alpha_t(z_t)\beta_t(z_t)}{\sum_{z_n = 1}^{K} \alpha_n(z_n)},\quad q(z_{t - 1},z_t) = \frac{\alpha_{t - 1}(z_{t - 1})p(z_t|z_{t - 1})p(\mathbf{x}_t|z_t)\beta_t(z_t)}{\sum_{z_n = 1}^{K} \alpha_n(z_n)}$

从前向后计算， $1,\cdots,n$

$\begin{align*} \alpha_t(z_t)&=p(\mathbf{x}_1,\cdots,\mathbf{x}_t,z_t)=\sum_{z_{t - 1}} p(\mathbf{x}_1,\cdots,\mathbf{x}_t,z_{t - 1},z_t)\\ &=\sum_{z_{t - 1}} p(\mathbf{x}_1,\cdots,\mathbf{x}_t,z_t|z_{t - 1})p(z_{t - 1})\\ &=\sum_{z_{t - 1}} p(\mathbf{x}_1,\cdots,\mathbf{x}_{t - 1}|z_{t - 1})p(\mathbf{x}_t,z_t|z_{t - 1})p(z_{t - 1})\\ &=\sum_{z_{t - 1}} p(\mathbf{x}_1,\cdots,\mathbf{x}_{t - 1},z_{t - 1})p(\mathbf{x}_t,z_t|z_{t - 1})\\ &=\sum_{z_{t - 1}} \alpha_{t - 1}(z_{t - 1})p(z_t|z_{t - 1})p(\mathbf{x}_t|z_t)\\ &=p(\mathbf{x}_t|z_t)\sum_{z_{t - 1}} \alpha_{t - 1}(z_{t - 1})p(z_t|z_{t - 1}) \end{align*}$

从后向前计算， $n,n-1,\cdots,1$

$\begin{align*} \beta_t(z_t)&=p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t)=\sum_{z_{t + 1}} p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n,z_{t + 1}|z_t)\\ &=\sum_{z_{t + 1}} p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_t,z_{t + 1})p(z_{t + 1}|z_t)\\ &=\sum_{z_{t + 1}} p(\mathbf{x}_{t + 1},\cdots,\mathbf{x}_n|z_{t + 1})p(z_{t + 1}|z_t)\\ &=\sum_{z_{t + 1}} p(\mathbf{x}_{t + 2},\cdots,\mathbf{x}_n|z_{t + 1})p(\mathbf{x}_{t + 1}|z_{t + 1})p(z_{t + 1}|z_t)\\ &=\sum_{z_{t + 1}} \beta_{t + 1}(z_{t + 1})p(\mathbf{x}_{t + 1}|z_{t + 1})p(z_{t + 1}|z_t) \end{align*}$

HMM的解码

在实际问题中，状态变量通常有明确的含义。如语音识别中， $z_t$ 表示语音信号 $\mathbf{x}_t$ 对应的文本。因此，经常需要根据观测序列推断状态序列。
对给定的HMM模型 $\theta = (\pi, A, B)$ 和观测序列 $\{\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_n\}$ ，求解：
$z^* = \arg\max_{z} p_{\theta}(z_1, \cdots, z_n | \mathbf{x}_1, \cdots, \mathbf{x}_n)$
$z^*$ 是最大后验概率对应的状态序列，也称为最优状态路径。
这对应分类问题中的最大后验概率决策， $z_t$ 对应 $\mathbf{x}_t$ 的类别。
与分类中对 $\mathbf{x}_t$ 独立解码不同，HMM需要联合解码。

状态路径： $z_1, \cdots, z_n$

对于给定的HMM模型和观测序列 $\{\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_n\}$ ，不同状态路径对应不同的后验概率： $p_{\theta}(z_1, \cdots, _n \vert \mathbf{x}_1, \cdots, \mathbf{x}_n)$ 。
共有 $K^n$ 条可能的状态路径，对应 $K^n$ 个概率值。
直接计算这些概率，然后选出 $z^*$ 的复杂度为 $O(K^n)$ 。

HMM的解码算法：维特比算法（Viterbi, 1967）

最优子问题：寻找以状态 $z_t$ 结束的前 $t$ 步最优状态路径
$w_t(z_t) \equiv \max\ln p_{\theta}(\mathbf{x}_1, \cdots, \mathbf{x}_t, z_1, \cdots, z_{t - 1}, z_t) \in R^K\\ z^* = \arg\max_{z} p_{\theta}(z_1, \cdots, z_n | \mathbf{x}_1, \cdots, \mathbf{x}_n) \Leftrightarrow \arg\max_{z} p_{\theta}(z_1, \cdots, z_n, \mathbf{x}_1, \cdots, \mathbf{x}_n)$
动态规划算法
- For $z_1 = 1, \cdots, K$ ： $w_1(z_1) = \ln p(z_1) + \ln p(\mathbf{x}_1 \vert z_1)$
- For $\cdots, n$ ：
  - For $z_t = 1, \cdots, K$ ：
    $w_t(z_t) = \ln p(\mathbf{x}_t | z_t) + \max_{z_{t - 1} \in \{1, \cdots, K\}} \{w_{t - 1}(z_{t - 1}) + \ln p(z_t | z_{t - 1})\}$
计算复杂度： $O(nK^2)$

模式识别-Ch3-HMM

隐马尔可夫模型(HMM)

对 $P (X)$ 的假定

HMM的表示

Markov链

例子

HMM简介

HMM的图结构

例子

HMM的学习

三个基本问题

参数学习的基本任务

M step: 更新 $\theta$

E Step: 对给定的 $\theta$ ，估计 $q(z_1,\cdots,z_n)=p_{\theta}(z_1,\cdots,z_n\vert \mathbf{x}_1,\cdots,\mathbf{x}_n)$

前向-后向算法(forward-backward algorithm)

从前向后计算， $1,\cdots,n$

从后向前计算， $n,n-1,\cdots,1$

HMM的解码

HMM的解码算法：维特比算法（Viterbi, 1967）

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

模式识别-Ch3-HMM

隐马尔可夫模型(HMM)

对 P ( X ) P(X) P(X)的假定

HMM的表示

Markov链

例子

HMM简介

HMM的图结构

例子

HMM的学习

三个基本问题

参数学习的基本任务

M step: 更新 θ \theta θ

E Step: 对给定的 θ \theta θ，估计 q ( z 1 , ⋯ , z n ) = p θ ( z 1 , ⋯ , z n ∣ x 1 , ⋯ , x n ) q(z_1,\cdots,z_n)=p_{\theta}(z_1,\cdots,z_n\vert \mathbf{x}_1,\cdots,\mathbf{x}_n) q(z1​,⋯,zn​)=pθ​(z1​,⋯,zn​∣x1​,⋯,xn​)

前向-后向算法(forward-backward algorithm)

从前向后计算， t = 1 , ⋯ , n t = 1,\cdots,n t=1,⋯,n

从后向前计算， t = n , n − 1 , ⋯ , 1 t = n,n-1,\cdots,1 t=n,n−1,⋯,1

HMM的解码

HMM的解码算法：维特比算法（Viterbi, 1967）

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

对 $P (X)$ 的假定

M step: 更新 $\theta$

E Step: 对给定的 $\theta$ ，估计 $q(z_1,\cdots,z_n)=p_{\theta}(z_1,\cdots,z_n\vert \mathbf{x}_1,\cdots,\mathbf{x}_n)$

从前向后计算， $1,\cdots,n$

从后向前计算， $n,n-1,\cdots,1$