强化学习 Proximal Policy Optimization (PPO)-五八三

PPO = Policy Gradient 从 On-policy 到 Off-policy, 再加一些constraint

Policy Gradient#

Basic Conception#

Actor: 动作执行者(智能体)
Env: 环境
Reward Function: 奖励函数
Policy $π$ : a network with parameter $θ$ .

Input: 当前的 Env.

Output: actor 要采取的下一个 action 的分布.
Trajectory $τ$ : 一系列的 Env 和 Action, ${s_{1}, a_{1}, s_{2}, a_{2}, \dots}$

在参数为 $θ$ 情况下, 发生 $τ$ 的概率: $p_{θ} (τ) = p (s_{1}) p_{θ} (a_{1} | s_{1}) p (s_{2} | s_{1}, a_{1}) p_{θ} (a_{2} | s_{2}) \dots$

Optimization#

Object#

给定 $τ$ , 可以计算 $τ$ 的 reward, $R (τ)$ .

对于参数为 $θ$ 的 Policy下, Trajectory $τ$ 是采样得到的, 因此实际上需要计算的是 reward 的期望值 $\overset{―}{R_{θ}}$ . 我们希望 $\overset{―}{R_{θ}}$ 越大越好.

Policy Gradient#

Reward 的期望:

\begin{matrix} (1) & \begin{array}{r} \overset{―}{R_{θ}} = \sum_{τ} R (τ) p_{θ} (τ) \end{array} \end{matrix}

求 $θ$ 的梯度:

\begin{matrix} (2) & \begin{aligned} \nabla {\overset{―}{R}}_{θ} & = \sum_{τ} R (τ) \nabla p_{θ} (τ) \\ = \sum_{τ} R (τ) p_{θ} (τ) \frac{\nabla p_{θ} (τ)}{p_{θ} (τ)} & 分子分母同乘 p_{θ} (τ) \\ = \sum_{τ} R (τ) p_{θ} (τ) \nabla \log p_{θ} (τ) \\ = E_{τ \sim p_{θ} (τ)} [R (τ) \nabla \log p_{θ} (τ)] \\ \approx \frac{1}{N} \sum_{n = 1}^{N} R (τ^{n}) \nabla \log p_{θ} (τ^{n}) \\ = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 1}^{T_{n}} R (τ^{n}) \nabla \log p_{θ} (a_{t}^{n} | s_{t}^{n}) \end{aligned} \end{matrix}

然后由 $\nabla \log p_{θ} (τ) = \frac{\nabla p_{θ} (τ)}{p_{θ} (τ)}$ , 可得到第三行公式.
此处可延伸出一个公式:

\begin{matrix} (3) & \nabla f (x) = f (x) \nabla \log f (x) \end{matrix}

由 $\sum_{τ} p_{θ} (τ) f (τ) = E_{τ \sim p_{θ} (τ)} [f (τ)]$ , 可得第四行

通过采样的方式估计期望值, 采样 $N$ 个 Trajectory, 既第五行公式

最后将 $p_{θ} (τ)$ 展开代入, 得第六行公式

Implementation#

最大化 Reward 的期望 $\overset{―}{R_{θ}}$ , 由公式(2)中梯度的计算, 可以反推出目标函数在实现时定义如下:

\begin{matrix} (4) & \begin{array}{r} J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 1}^{T_{n}} R (τ^{n}) \log p_{θ} (a_{t}^{n} | s_{t}^{n}) \end{array} \end{matrix}

最大化 $o b j e c t$ 等价于最小化 $l o s s$ :

\begin{matrix} (5) & \begin{array}{r} l o s s = - \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 1}^{T_{n}} R (τ^{n}) \log p_{θ} (a_{t}^{n} | s_{t}^{n}) \end{array} \end{matrix}

其中, $a_{t}^{n}, s_{t}^{n}$ 是在参数为 $θ$ 的 policy 下采样得到的.

与交叉熵损失对比: 其实就是将采样得到的 $a_{t}^{n}$ 视作grand truth计算交叉熵, 区别在于针对不同的 Trajectory $τ^{n}$ , 要多乘了一个 $R (τ^{n})$

Tips#

Add a baseline#

$R (τ^{n})$ 可能总为正数, 这样在 training时, 相当于告诉 model, 不论时什么action 都要将它的概率提升.

理想情况下, 这样是没有问题的, 因为 Reward 即使总是正的, 也有大有小.

当时实际上, action 是采样得到的, 这会导致如果有的 action 没有被采样到, 它的概率相对于被采样到的 action 就会下降, 而这时, 并不能表示当前环境下采取这个 action 不好.

改进: 减去一个 baseline, $b$ .

Assign Suitable Credit#

再来看一下目标函数:

\begin{matrix} (6) & \begin{array}{r} J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 1}^{T_{n}} R (τ^{n}) \log p_{θ} (a_{t}^{n} | s_{t}^{n}) \end{array} \end{matrix}

对于同一个 Trajectory $τ$ 中, 针对每个状态 $s$ 下, 执行动作 $a$ , 都有相同的 Reward 系数. 这是不合理的.
例如图的左边, 在 $s_{b}$ 执行 $a_{2}$ 不是一个好的选择, 他会导致接下来进入 $s_{c}$ , 并执行 $a_{3}$ , 得到 -2 分.
由此, 提出改进1.

改进1: 每个时刻的 reward 改为, 当前时刻到结束时刻的 reward 的总和

某时刻的 action, 经过越长时间, 它的影响力就越小. 也就是与该 action 间隔很久的 reward 与该 action 的关系很小. 由此提出改进2.

改进2: 加一个衰减系数.

最后, 将整个系数项称为 Advantage Function, $A^{θ} (s_{t}, a_{t})$ .其含义为, 在某 state 下, $a_{t}$ 相较于其他的 action, 有多好. (这个 $A$ , 通常可以是用一个网络来预测的 ???)

最终, 得梯度公式:

\begin{matrix} (7) & \nabla {\overset{―}{R}}_{θ} \approx \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 1}^{T_{n}} A^{θ} (s_{t}, a_{t}) \nabla \log p_{θ} (a_{t}^{n} | s_{t}^{n}) \end{matrix}

On-policy $\to$ Off-policy#

On-policy#

梯度计算公式:

\begin{matrix} (8) & \nabla {\overset{―}{R}}_{θ} = E_{τ \sim p_{θ} (τ)} [R (τ) \nabla \log p_{θ} (τ)] \end{matrix}

目前为止的做法其实是一种 on-policy 的方法:

每次更新梯度前, 都需要从 $π_{θ}$ 中采样 $τ$ .
参数更新后, 又需要用更新后的参数重新采样 $τ$ .

目标是: 从另一个 policy, $π_{θ^{'}}$ 中采样数据, 用来训练 $π_{θ}$ . 这样就可以重复利用这些采样得到的数据.

Importance Sampling(重要性采样)#

$x$ 服从 $p$ 分布时, 计算 $f (x)$ 期望 $E_{x \sim p} [f (x)]$ 的做法: 一般是从 $p$ 中采样一些 $x$ , 带入 $f (x)$ 求平均, 用这个值来估计所求期望.

现在, 假设无法从 $p$ 中直接采样 $x$ , 但可以从另一个分布 $q$ 中采样 $x$ . 可以对 $E_{x \sim p} [f (x)]$ 做如下变形:

\begin{matrix} (9) & \begin{aligned} E_{x \sim p} [f (x)] & = \int f (x) p (x) d x \\ = \int f (x) \frac{p (x)}{q (x)} q (x) d x \\ = E_{x \sim q} [f (x) \frac{p (x)}{q (x)}] \end{aligned} \end{matrix}

这样, 我们就可以用 $q$ 中采样的数据来估计期望值 $E_{x \sim p} [f (x)]$ . 这就是 Importance Sampling.

Issue of Importance Sampling
理论上, 我们已经得出两个期望值是相等的:

\begin{matrix} (10) & E_{x \sim p} [f (x)] = E_{x \sim q} [f (x) \frac{p (x)}{q (x)}] . \end{matrix}

那么它们的方差是否相等呢? $V a r_{x \sim p} [f (x)] == V a r_{x \sim q} [f (x) \frac{p (x)}{q (x)}] ?$

由公式

\begin{matrix} (11) & V a r [x] = E [x^{2}] - (E [x])^{2} \end{matrix}

可以得出:

\begin{matrix} (12) & \begin{aligned} V a r_{x \sim p} [f (x)] & = E_{x \sim p} [f^{2} (x)] - (E_{x \sim p} [f (x)])^{2} \\ V a r_{x \sim q} [f (x) \frac{p (x)}{q (x)}] & = E_{x \sim q} [(f (x) \frac{p (x)}{q (x)})^{2}] - (E_{x \sim q} [f (x) \frac{p (x)}{q (x)}])^{2} \\ = \int (f (x) \frac{p (x)}{q (x)})^{2} q (x) d x - (E_{x \sim p} [f (x)])^{2} \\ = \int f^{2} (x) \frac{p (x)}{q (x)} p (x) d x - (E_{x \sim p} [f (x)])^{2} \\ = E_{x \sim p} [f^{2} (x) \frac{p (x)}{q (x)}] - (E_{x \sim p} [f (x)])^{2} \end{aligned} \end{matrix}

对比发现, 第一项中后者比前者多乘了一个 $\frac{p (x)}{q (x)}$ , 也就是说当 $p$ 与 $q$ 相差很多时, 它们的方差也会差很多.

这样就会出现一问题: 理论上, 无论 $p, q$ 的分布是什么样的, 当我们从 $p$ 和 $q$ 采样足够多次时, 是可以得到 $E_{x \sim p} [f (x)] = E_{x \sim q} [f (x) \frac{p (x)}{q (x)}]$ 的.
但是当 $p, q$ 差距过大, 而我们采样的次数又不够多时, 因为它们之间的方差差距很大, 所以最后很可能导致期望差距很大.

一个直观的例子:

图中 $p, q$ 两个分布的差异很大.

当我们采样次数不够多, 导致没有采样到最左边那个样本时, 就会出现实际上 $E_{x \sim p} [f (x)]$ 应是一个负值, 但我们用 $E_{x \sim q} [f (x) \frac{p (x)}{q (x)}]$ 计算出来的却是一个正值.

而当我们采样到最左边那个样本时, 因为此时 $\frac{p (x)}{q (x)}$ 的值将会非常大, 所以可以把 $E_{x \sim q} [f (x) \frac{p (x)}{q (x)}]$ 拉回负值.

Off-policy#

将 Importance Sampling 用在 policy gradient 中, 我们就可以得到:

\begin{matrix} (13) & \begin{aligned} \nabla {\overset{―}{R}}_{θ} & = E_{τ \sim p_{θ} (τ)} [R (τ) \nabla \log p_{θ} (τ)] \\ = E_{τ \sim p_{θ^{'}} (τ)} [\frac{p_{θ} (τ)}{p_{θ^{'}} (τ)} R (τ) \nabla \log p_{θ} (τ)] \end{aligned} \end{matrix}

这样, 我们就可以从 $θ^{'}$ 中采样数据, 然后多次利用这些数据来更新 $θ$ .

结合公式(7), 得

\begin{matrix} (14) & \begin{aligned} \nabla {\overset{―}{R}}_{θ} & = E_{τ \sim p_{θ^{'}} (τ)} [\frac{p_{θ} (τ)}{p_{θ^{'}} (τ)} R (τ) \nabla \log p_{θ} (τ)] \\ = E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{p_{θ} (s_{t}, a_{t})}{p_{θ^{'}} (s_{t}, a_{t})} A^{θ^{'}} (s_{t}, a_{t}) \nabla \log p_{θ} (a_{t}^{n} | s_{t}^{n})] & 由公式(7)得 \\ = E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{p_{θ} (a_{t} | s_{t}) p_{θ} (s_{t})}{p_{θ^{'}} (a_{t} | s_{t}) p_{θ^{'}} (s_{t})} A^{θ^{'}} (s_{t}, a_{t}) \nabla \log p_{θ} (a_{t}^{n} | s_{t}^{n})] \\ = E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{p_{θ} (a_{t} | s_{t})}{p_{θ^{'}} (a_{t} | s_{t})} A^{θ^{'}} (s_{t}, a_{t}) \nabla \log p_{θ} (a_{t}^{n} | s_{t}^{n})] & 假设 p_{θ} (s_{t}) = p_{θ^{'}} (s_{t}) \end{aligned} \end{matrix}

再由公式(3)得:

\begin{matrix} (15) & \nabla {\overset{―}{R}}_{θ} = E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{\nabla p_{θ} (a_{t} | s_{t})}{p_{θ^{'}} (a_{t} | s_{t})} A^{θ^{'}} (s_{t}, a_{t})] \end{matrix}

反推目标函数:

\begin{matrix} (16) & J^{θ^{'}} (θ) = E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{p_{θ} (a_{t} | s_{t})}{p_{θ^{'}} (a_{t} | s_{t})} A^{θ^{'}} (s_{t}, a_{t})] \end{matrix}

Add constraint#

目前为止, 我们利用 Importance Sampling 完成了 Policy Gradient 从 On-policy 到 Off-policy 的优化.

但是 Importance Sampling 在实际应用中有一个不得不考虑的限制, 就是我们无法保证能采样足够多的数据, 这时当两个分布 $p_{θ}, p_{θ^{'}}$ 差异过大时, 难以保证期望相等.

PPO做的事情, 简单说就是, 限制两个分布 $p_{θ}, p_{θ^{'}}$ 不能差太多.

\begin{matrix} (17) & J_{P P O}^{θ^{'}} (θ) = J^{θ^{'}} (θ) - β K L (θ, θ^{'}) \end{matrix}

注: 此处 KL 散度指的不是将两个模型的参数看作分布,拉近两个模型的参数的距离. 而是两个模型行为上的距离, 就是当两个模型输入同样的 state 时, 希望输出的 action 的分布尽可能像

Conclusion#

PPO algorithm#

PPO2#

PPO2: 简化 PPO 的计算.

首先, 我们将横坐标 $x$ 设为 $\frac{p_{θ} (a_{t} | s_{t})}{p_{θ^{k}} (a_{t} | s_{t})}$ , 则函数 $y = x$ 与 $y = c l i p (x, 1 - ϵ, 1 + ϵ)$ 的图像分别为图中的绿线和蓝线.

当 $A > 0$ 时, $J_{P P O 2}^{θ^{k}} (θ)$ 就是左图中红线, 我们要最大化目标函数, 也就希望 $x$ 越大越好, 但是当超过 $1 + ϵ$ 后, 对目标函数就没有 benefit 了.
当 $A < 0$ 时, 同理, 如右图.

目的依旧是保证两个分布 $p_{θ}, p_{θ^{k}}$ 差距不能过大.

文章版权归作者所有，未经允许请勿转载，侵权请联系 admin@trc20.tw 删除。

THE END

博客文章
# 强化学习

强化学习 Proximal Policy Optimization (PPO)

Policy Gradient#

Basic Conception#

Optimization#

Object#

Policy Gradient#

Implementation#

Tips#

Add a baseline#

Assign Suitable Credit#

On-policy → Off-policy#

On-policy#

Importance Sampling(重要性采样)#

Off-policy#

Add constraint#

Conclusion#

PPO algorithm#

PPO2#

On-policy $\to$ Off-policy#