对比行为相似性

嵌入，用于

强化学习中的泛化

Rishabh Agarwal Marlos C. Machado^z Pablo Samuel Castro Marc G. Bellemare
Google Research, Brain Team
{rishabhagarwal, marlosm, psc, bellemare}@google.com
Also at Mila, Université de Montréal. ^zNow at DeepMind.

摘要

在少数环境中训练的强化学习方法很少能学到泛化到未见过的环境的策略。为了提高泛化能力，我们将强化学习中固有的顺序结构纳入表示学习过程中。这种方法与最近的方法正交，后者很少明确地利用这种结构。具体来说，我们引入了一种具有理论动机的策略相似性度量（PSM），用于测量状态之间的行为相似性。 PSM 为这些状态以及未来状态的最优策略相似的状态分配高度相似性。我们还提出了一种对比表示学习过程来嵌入任何状态相似性度量，我们用 PSM 实例化该度量以获得策略相似性嵌入（PSE）¹¹1发音为“双鱼座”。）。我们证明 PSE 可以提高各种基准的泛化能力，包括具有虚假相关性的 LQR、像素跳跃任务以及 Distracting DM Control Suite。源代码可在 agarwl.github.io/pse 获取。

1简介

Refer to caption — 图1：跳跃任务：代理（白色块）从像素中学习，需要跳过障碍物（灰色方块）。挑战在于使用少量的训练任务来推广测试任务中看不见的障碍物位置和地板高度。我们使用褪色块显示代理的轨迹。

当前的强化学习（RL）方法通常学习的策略不能泛化到与代理训练时不同的环境，即使这些环境在语义上是等效的（Tachet des Combes 等人，2018；Song 等人，2019； Cobbe 等人，2019）。例如，考虑一个跳跃任务，其中代理从像素学习，需要跳过障碍物（图1)。经过一些具有不同障碍物位置的跳跃任务训练的深度强化学习代理很难在障碍物位于以前看不见的位置的测试任务中成功跳跃。

最近规避 RL 泛化能力差的解决方案改编自监督学习，因此在很大程度上忽略了 RL 的顺序方面。这些解决方案大多数围绕着增强学习过程，包括数据增强（例如，Kostrikov 等人，2020；Lee 等人，2020a）、正则化（Cobbe 等人，2019；Farebrother 等）人, 2018)，噪声注入(Igl 等人, 2019)，以及多样化的训练条件(Tobin 等人, 2017)；他们很少利用顺序决策问题的特性，例如跨时间观察的动作的相似性。

相反，我们通过将强化学习问题的属性纳入表示学习过程来解决泛化问题。我们的方法利用了这样一个事实：代理在具有相似底层机制的环境中运行时，至少会表现出在这些环境中相似的短行为序列。具体来说，当代理在这些状态和未来状态中的最优策略相似时，代理被优化以学习状态接近的嵌入。这种接近度的概念是通用的，它适用于来自不同环境的观察。

具体来说，受互模拟指标（Castro，2020；Ferns等人，2004）的启发，我们提出了一种新颖的策略相似性指标（PSM）。 PSM（第 3 节）通过这些状态的长期最佳行为的接近度来定义源自不同环境的状态之间的相似性概念。 PSM 与奖励无关，因此与依赖奖励信息的方法相比，它的泛化能力更强。我们证明 PSM 产生从一种环境转移到另一种环境的策略次优性的上限（定理 1)，这是互模拟无法实现的。

我们采用 PSM 进行表示学习，并为深度强化学习引入策略相似性嵌入 (PSE)。为此，我们提出了一个通用的对比过程（第 4 节）来学习基于任何状态相似性度量的嵌入。 PSE 是该过程与 PSM 的实例化。 PSE 呼吁泛化，因为它们通过将行为等效的状态放在一起来编码与任务相关的不变性。这与之前的方法不同，之前的方法依赖于捕获此类不变性，而没有经过明确训练来实现这一点，例如，通过状态之间的价值函数相似性（例如，Castro & Precup，2010），或者对观察空间的固定变换具有鲁棒性（例如，Kostrikov 等人，2020；Laskin 等人，2020a）。

PSE 可以带来更好的泛化，同时与大多数领域处理泛化的方式正交。我们在三个现有基准上展示了我们的方法的有效性和广泛适用性专门用于测试泛化：（i）从像素跳跃任务（Tachet des Combes等人，2018）（第5节），（ii）具有虚假相关性的LQR（宋等人，2019）（第6.1节），以及（iii）分散注意力DM 控制套件（Stone 等人，2021）（第 6.2 节）。与多种方法相比，我们的方法提高了泛化能力，包括标准正则化（Farebrother等人，2018；Cobbe等人，2019）、互模拟（Castro & Precup，2010；Castro，2020；张等人, 2021)，分布外泛化 (Arjovsky 等人, 2019) 和最先进的数据增强 (Kostrikov 等人, 2020 ；拉斯金等人，2020a；李等人，2020a)。

2 预赛

我们将环境描述为马尔可夫决策过程 (MDP) (Puterman, 1994) ${\mathcal{M}}=({\color[rgb]{0,0,0}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,0}\pgfsys@color@gray@stroke{0}\pgfsys@color@gray@fill{0}{\mathcal{X}}},{\mathcal{A}},R,P,\gamma)$ ，具有状态空间 ${\mathcal{X}}$ 、动作空间 ${\mathcal{A}}$ 、奖励函数 $R$ 、转换动态 $P$ 和折扣因子 $\gamma\in[0,1)$ 。策略 $\pi(\cdot\,\>|\>\,x)$ 将状态 $x\in{\mathcal{X}}$ 映射到操作的分布。只要方便，我们就会滥用符号并写成 $\pi(x)$ 来描述概率分布 $\pi(\cdot\,|\,x)$ ，将 $\pi(x)$ 视为向量。在强化学习中，目标是找到一个最优策略 $\pi^{*}$ ，从初始状态 $x_{0}$ 开始最大化累积预期回报 $\mathbb{E}_{a_{t}\sim\pi(\cdot\,\>|\>\,x_{t})}[\sum_{t}\gamma^{t}R(x_{t},a_{t})]$ 。

我们有兴趣学习一种可以在相关环境中推广的策略。我们通过考虑 MDP 的集合 $\rho$ 来形式化这一点，共享操作空间 ${\mathcal{A}}$ 但具有不相交的状态空间。我们用 ${\mathcal{X}}$ 和 ${\mathcal{Y}}$ 来表示特定环境的状态空间，用 $R_{\mathcal{X}}$ , $P_{\mathcal{X}}$ 来表示特定环境的奖励和转移函数状态空间为 ${\mathcal{X}}$ 的 MDP，其最优策略为 $\pi^{*}_{{\mathcal{X}}}$ ，我们假设它是唯一的而不失一般性。对于给定的策略 $\pi$ ，我们进一步将它们专门化为 $R^{\pi}_{{\mathcal{X}}}$ 和 $P^{\pi}_{{\mathcal{X}}}$ ，即由以下 $\pi$

我们将 ${\mathcal{S}}$ 写为 $\rho$ 中 MDP 状态空间的并集。具体来说，不同的MDP对应于一个问题类中的特定场景（图1)，而 ${\mathcal{S}}$ 是所有可能配置的空间。如果不使用下标， $R$ 、 $P$ 和 $\pi$ 指的是该“联盟 MDP”的奖励和转换函数，以及在 ${\mathcal{S}}$ ;这个符号简化了说明。我们使用伪计量学来测量跨环境中的状态之间的距离²²2伪计量学是度量的概括，其中两个不同状态之间的距离可以为零。在 ${\mathcal{S}}$ 上；所有此类伪度量的集合是 ${\mathbb{M}}$ , ${\mathbb{M}}_{p}$ 是 ${\mathcal{S}}$ 上概率分布的度量集合。

在我们的设置中，学习者可以访问来自 $\rho$ 的训练 MDP $\{{\mathcal{M}}_{i}\}_{i=1}^{N}$ 集合。与这些环境交互后，学习者必须在整个状态空间 ${\mathcal{S}}$ 上生成策略 $\pi$ ，然后在来自 $\rho$ 的未见 MDP 上对其进行评估。与迁移学习的设置（Taylor & Stone，2009）的精神类似，这里我们评估该策略在 $\rho$ 上的零样本性能。

我们的政策相似性指标（第3节）建立在 $\bm{\pi}$ -双向模拟（Castro，2020）的概念之上。在 $\pi$ -bisimulation指标下，两个状态 $x$ 和 $y$ 之间的距离是根据遵循策略时获得的预期奖励之间的差异来定义的 $\pi$ 。 $\pi$ -双模拟度量 $d_{\pi}$ 满足基于1-Wasserstein度量 ${\mathcal{W}}_{1}:{\mathbb{M}}\rightarrow{\mathbb{M}}_{p}$ 的递归方程，其中 ${\mathcal{W}}_{1}(d)(A,B)$ 是最小成本在基本度量 $d$ 下将概率质量从 $A$ 传输到 $B$ ( ${\mathcal{S}}$ 上的两个概率分布）（Villani，2008 ）。递归是

\displaystyle d_{\pi}(x,y)=|R^{\pi}(x)-R^{\pi}(y)|+\gamma{\mathcal{W}}_{1}(d_{\pi})\big{(}P^{\pi}(\cdot\,|\,x),P^{\pi}(\cdot\,|\,y)\big{)}\,,\qquad x,y\in{\mathcal{S}}.

(1)

为了实现良好的泛化特性，我们学习了一个嵌入函数 $z_{\theta}:{\mathcal{S}}\to\mathbb{R}^{k}$ ，它反映了策略相似性度量中编码的信息；这会产生策略相似性嵌入（第 4 节）。我们使用对比方法(Hadsell 等人, 2006; Oord 等人, 2018)，其在表示学习方面的跟踪记录是完善的。我们采用 SimCLR (Chen 等人, 2020)，这是一种流行的对比方法，用于学习图像输入的嵌入。给定两个输入 $x$ 和 $y$ ，它们的嵌入相似度为 $s_{\theta}(x,y)=sim(z_{\theta}(x),z_{\theta}(y))$ ，其中 $sim(u,v)=\frac{u^{T}v}{\|u\|\|v\|}$ 表示余弦相似度功能。 SimCLR 的目标是最大化增强版图像（例如，裁剪、颜色变化）之间的相似性，同时最小化与其他图像的相似性。 SimCLR 对于图像的两个版本 $x, y$ 以及包含其他图像的集合 ${\mathcal{X}}^{\prime}$ 使用的损失为：

\ell_{\theta}(x,y;{\mathcal{X}}^{\prime})=-\log\frac{\exp(\lambda s_{\theta}(x,y))}{\exp(\lambda s_{\theta}(x,y))+\sum_{x^{\prime}\in{{\mathcal{X}}^{\prime}\setminus\{x\}}}\exp(\lambda s_{\theta}(x^{\prime},y))}

(2)

其中 $\lambda$ 是反温度超参数。当 $x$ 、 $y$ 和 ${\mathcal{X}}^{\prime}$ 从某些增强训练分布中得出时，整体 SimCLR 损失就是 $\ell_{\theta}(x,y;S)$ 的预期值。

3 策略相似度指标

图2：青色边缘代表具有正奖励的动作，这也是最优动作。其他地方都是零奖励。

x_{0},y_{0}

是开始状态，而

x_{2},y_{2}

是终止状态。

学习泛化策略的一个有用工具是了解哪些状态会导致类似的行为，哪些不会。为了达到最大效果，这种相似性应该超越立即选择的行动并考虑长期行为。在这方面， $\pi$ -互模拟指标很有趣，因为它们基于从不同状态收到的未来奖励的完整序列。然而，考虑奖励可能会过于严格（当政策相同，但获得的奖励不同；见图2)或过于宽松（当政策不同，但获得的奖励不同）。不；参见图5(a))。事实上， $\pi$ -互模拟指标实际上导致我们的实验中泛化能力较差(5.1 和 5.2 节）。

为了解决这个问题，我们转而考虑政策本身之间的相似性。我们用策略之间的概率伪度量代替绝对奖励差异，表示为Dist。此外，由于我们希望在看不见的环境中表现良好，因此我们对最佳行为的相似性感兴趣。因此，我们使用 $\pi^{*}$ 作为基础策略。这会产生策略相似性度量 (PSM)，当这些状态和未来状态中的最优策略相似时，状态就接近。对于给定的Dist，PSM $d^{*}:{\mathcal{S}}\times{\mathcal{S}}\rightarrow\mathbb{R}$ 满足递归方程

\displaystyle d^{*}(x,y)=\underbrace{\textsc{Dist}\big{(}\pi^{*}(x),\pi^{*}(y)\big{)}}_{\text{(A)}}+\underbrace{\gamma{\mathcal{W}}_{1}(d^{*})\big{(}P^{\pi^{*}}(\cdot\,|\,x),P^{\pi^{*}}(\cdot\,|\,y)\big{)}}_{\text{(B)}}.

(3)

Dist 项捕获局部最优行为的差异 (A)，而 ${\mathcal{W}}_{1}$ 捕获长期最优行为差异 (B)；分配给两者的确切权重由折扣因子给出。此外，当Dist有界时， $d^{*}$ 保证是有限的。虽然从技术上讲存在多个 PSM（每个 Dist 一个），但只要上下文清楚，我们就会忽略这一区别。命题A.1给出了 $d^{*}$ 唯一性的证明。

我们 PSM 的主要用途是比较跨环境的状态。在这种情况下，为了清楚起见，我们在特定环境中识别方程 3 中的术语并编写（尽管其技术不准确）

\displaystyle d^{*}(x,y)=\textsc{Dist}\big{(}\pi^{*}_{{\mathcal{X}}}(x),\pi^{*}_{{\mathcal{Y}}}(y)\big{)}+\gamma{\mathcal{W}}_{1}\big{(}d^{*})(P^{\pi^{*}}_{\mathcal{X}}(\cdot\,|\,x),P^{\pi^{*}}_{\mathcal{Y}}(\cdot\,|\,y)\big{)}.

PSM 适用于离散和连续动作空间。在我们的实验中，Dist是当 ${\mathcal{A}}$ 是离散时的总变化距离( $T V$ )，并且我们使用 $\ell_{1}$ 之间的距离当 ${\mathcal{A}}$ 连续时两个策略的平均动作。 PSM 可以使用动态规划迭代计算（Ferns 等人，2011）（更多详细信息请参见第 C.1 节）。此外，当 $\pi^{*}$ 在训练环境中不可用时，我们将其替换为近似 $\hat{\pi}^{*}$ 以获得近似PSM，接近于精确PSM，具体取决于 $\hat{\pi}^{*}$ （命题C.3)。

尽管在形式上类似于 $\pi$ -互模拟度量，PSM 具有不同的特征，更适合泛化学习策略的问题。为了说明这一点，请考虑以下简单的最近邻方案：给定一个状态 $y\in{\mathcal{Y}}$ ，用 $\tilde{x}_{y}:=\arg\min_{x\in{\mathcal{X}}}d^{*}(x,y)$ 表示其在 ${\mathcal{X}}$ 中最接近的匹配。假设我们使用此方案将 $\pi^{*}_{\mathcal{X}}$ 传输到 ${\mathcal{M}}_{\mathcal{Y}}$ ，从某种意义上说，我们根据策略 $\tilde{\pi}(y)=\pi^{*}_{\mathcal{X}}(\tilde{x}_{y})$ 进行操作。然后，我们可以限制 $\tilde{\pi}$ 和 $\pi^{*}_{{\mathcal{Y}}}$ 之间的差异，如果将 $d^{*}$ 替换为 $\pi$ -bisimulation 指标，则这是不可能的。

Theorem 1。

[绑定策略转移] 对于任何 $y\in{\mathcal{Y}}$ ，让 $Y^{t}_{y}\sim P^{\tilde{\pi}}(\cdot\,|\,Y^{t-1}_{y})$ 定义从 $Y^{0}_{y}=y$ 开始并遵循策略 $\tilde{\pi}$ 遇到的随机状态序列。我们有：

\mathbb{E}_{Y^{t}_{y}}\left[\sum_{t\geq 0}\gamma^{t}TV\left(\tilde{\pi}(Y^{t}_{y}),\pi^{*}(Y^{t}_{y})\right)\right]\leq\frac{1+\gamma}{1-\gamma}d^{*}(\tilde{x}_{y},y)~{}.

证明在附录(A 节）中。每当 $d^{*}(\tilde{x}_{y},y)<1/(1+\gamma)$ 时，定理 1 都是非空的。特别是， $d^{*}(\tilde{x}_{y},y)=0$ 意味着转移的策略是最优的。虽然这个方案并不实用（计算 $d^{*}$ 需要 $\pi^{*}_{\mathcal{Y}}$ 的知识），但它表明，如果我们能找到一个泛化于 ${\mathcal{S}}$ 的映射，就可以获得有意义的策略泛化。 t2>。换句话说，PSM 为我们提供了一种将跨输入的泛化（监督学习问题）提升到跨环境的泛化的原则方法。我们现在描述如何使用 PSM 来学习表示，将代理的长期最佳行为相似的状态组合在一起。

4 学习对比度量嵌入

为了将学习到的策略推广到新环境，我们以对比表示的成功为基础（第 2 节）。给定状态相似性度量 $d$ ，我们开发了一个通用程序（算法1)来学习 $d$ 的对比度量嵌入（CME）。我们利用度量 $d$ 来定义正负对的集合，并为对比损失中的这些对分配重要性权重（方程 $4$ )。

算法1 对比度量嵌入 (CME)

1: Given: State embedding

z_{\theta}(\cdot)

, Metric

d(\cdot,\cdot)

Training environments

\{{\mathcal{M}}_{i}\}_{i=1}^{N}

. Hyperparameters: Temperature

1/\lambda

, Scale

\beta

, Total training steps

K

2: for each step

k=1,\ldots,K

3: Sample a pair of training MDPs

{\mathcal{M}}_{\mathcal{X}},{\mathcal{M}}_{\mathcal{Y}}

4: Update

\theta

to minimize

\mathscr{L}_{\mathrm{CME}}

where

\mathscr{L}_{\mathrm{CME}}=\mathbb{E}_{{\mathcal{M}}_{\mathcal{X}},{\mathcal{M}}_{\mathcal{Y}}\,\sim\,\rho}\left[L_{\theta}({\mathcal{M}}_{{\mathcal{X}}},{\mathcal{M}}_{{\mathcal{Y}}})\right]

5: end for

我们首先应用转换将 $d$ 转换为相似性度量 $\Gamma$ ，以 [0, 1] 为界，表示“软”相似性。在这项工作中，我们使用具有正尺度参数 $\beta$ 的高斯核来变换 $d$ ，即 $\Gamma(x,y)=\exp(-d(x,y)/\beta)$ 。 $\beta$ 控制相似性度量对 $d$ 的敏感度。

其次，我们分别从 MDP ${\mathcal{M}}_{{\mathcal{X}}},{\mathcal{M}}_{{\mathcal{Y}}}$ 中选择给定一组状态 ${\mathcal{X}}^{\prime}\subseteq{\mathcal{X}}$ 和 ${\mathcal{Y}}$ 的正负对。对于每个锚状态 $y\in{\mathcal{Y}}$ ，我们基于相似性度量 $\Gamma$ 使用其在 ${\mathcal{X}}^{\prime}$ 中的最近邻居来定义正对 $\{(\tilde{x}_{y},y)\}$ ，其中 $\tilde{x}_{y}=\underset{x\in{\mathcal{X}}^{\prime}}{\operatorname{argmax}}~{}\Gamma(x,y)$ 。 ${\mathcal{X}}^{\prime}$ 中的其余状态与 $y$ 配对，用作负对。这种对的选择是由定理 1 驱动的，该定理表明，如果我们将 ${\mathcal{M}}_{{\mathcal{X}}}$ 中的最优策略转移到使用 PSM 定义的最近邻居，则其在 ${\mathcal{M}}_{{\mathcal{Y}}}$ 中的性能t3> 具有受 PSM 限制的次优性。

接下来，我们定义 SimCLR 对比损失的软版本（方程 2)，用于学习函数 $z_{\theta}$ ，该函数将状态（通常是高维）映射到嵌入。给定正状态对 $(\tilde{x}_{y},y)$ 、集合 ${\mathcal{X}}^{\prime}$ 和相似性度量 $\Gamma$ ，损失(I.2

\displaystyle\ell_{\theta}(\tilde{x}_{y},y;{\mathcal{X}}^{\prime})=-\log\frac{\Gamma(\tilde{x}_{y},y)\exp(\lambda s_{\theta}(\tilde{x}_{y},y))}{\Gamma(\tilde{x}_{y},y)\exp(\lambda s_{\theta}(\tilde{x}_{y},y))+\sum_{x^{\prime}\in{{\mathcal{X}}^{\prime}\setminus\{{\tilde{x}_{y}}\}}}(1-\Gamma(x^{\prime},y))\exp(\lambda s_{\theta}(x^{\prime},y))}~{}~{}(4),

其中我们使用与公式 2 中相同的符号。按照 SimCLR，我们使用表示形式的非线性投影 $z_{\theta}$ （图 3)。代理的策略是表示的仿射函数。

${\mathcal{M}}_{{\mathcal{X}}}$ 和 ${\mathcal{M}}_{{\mathcal{Y}}}$ 的总对比损失利用最佳轨迹 $\tau^{*}_{\mathcal{X}}=\{x_{t}\}_{t=1}^{N}$ 和 $\tau^{*}_{\mathcal{Y}}=\{y_{t}\}_{t=1}^{N}$ ，其中 $x_{t+1}\sim P^{\pi^{*}}_{\mathcal{X}}(\cdot\,|\,x_{t})$ 和 $y_{t+1}\sim P^{\pi^{*}}_{\mathcal{Y}}(\cdot\,|\,y_{t})$ 。我们设置 ${\mathcal{X}}^{\prime}=\tau^{*}_{\mathcal{X}}$ 并定义

L_{\theta}({\mathcal{M}}_{{\mathcal{X}}},{\mathcal{M}}_{{\mathcal{Y}}})=\mathbb{E}_{y\,\sim\,\tau^{*}_{\mathcal{Y}}}\left[\ell_{\theta}(\tilde{x}_{y},y;\tau^{*}_{\mathcal{X}})\right]\qquad\mathrm{where}\ \tilde{x}_{y}=\underset{x\in\tau^{*}_{\mathcal{X}}}{\operatorname{argmax}}~{}\Gamma(x,y).\\

我们将通过策略相似性度量学习的 CME 称为策略相似性嵌入（PSE）。通过在计算状态嵌入时使用增强状态，PSE 可以轻松地与数据增强相结合。我们通过在训练期间添加 $\mathscr{L}_{\mathrm{CME}}$ （算法 1)作为辅助目标，与 RL 代理同时学习 PSE。接下来，我们将说明这个辅助目标的好处。

5 像素跳跃任务：案例研究

任务描述。跳跃任务（Tachet des Combes等人，2018）（图1) 使用明确定义的变化因素来捕获代理是否可以直接从图像输入中学习泛化所需的正确不变性。该任务包括代理尝试跳过障碍物。代理可以执行两个操作：右和跳跃。智能体需要在距障碍物特定距离处精确计算跳跃时间，否则最终会撞到障碍物。不同的任务包括改变地板高度和/或障碍物位置。概括来说，智能体在根据障碍物位置跳跃时需要保持楼层高度不变。障碍物可以位于 26 个不同的位置，而地板有 11 个不同的高度，总共 286 个任务。

问题设置。我们将问题分为 18 个已见（训练）和 268 个未见（测试）任务，以使用在期间看到的变化的潜在因素中的一些变化来对泛化进行压力测试。正面例子数量较少³³3我们有 18 种不同的轨迹，其中包含多个动作示例向右，但只有一个实例每个轨迹的跳跃动作，导致总共只有 18 个动作实例跳跃。导致数据量低的高度不平衡的分类问题，使得在没有额外归纳偏差的情况下变得具有挑战性。因此，我们评估有和没有数据增强的情况下的泛化. 不同的网格配置（图4)捕获不同类型的泛化：“宽”网格通过“插值”测试泛化，“窄”网格通过“外推”测试分布外泛化，随机网格实例评估类似于监督学习的泛化能力，其中训练和测试样本是独立同分布的。来自相同的分布。

我们使用了 RandConv (Lee 等人, 2020a)，这是一种用于泛化的最先进的数据增强。对于超参数选择，我们在包含“宽”网格中 54 个未见任务的验证集上评估所有代理（图4(a))，并选择具有最佳验证性能的参数。我们对所有网格配置使用这些固定参数，以显示 PSE 对超参数调整的鲁棒性。我们首先计算训练任务中的最佳轨迹。使用这些轨迹，我们使用动态规划计算 PSM(C.1 节）。我们通过模仿学习来训练智能体，并结合 PSE 的辅助损失（第 4 节）。更多详细信息请参见 F 节。

表格1：通过不使用和使用数据增强的不同方法解决的测试任务的百分比 (%)。 “宽”、“窄”和随机网格如图4所示。我们报告了 100 次不同随机初始化运行的平均性能，括号内有标准差。

Data Augmentation	Method	Grid Configuration (%)
Data Augmentation	Method	“Wide”	“Narrow”	Random
✗	Dropout and $\ell_{2}$ reg.	17.8 (2.2)	10.2 (4.6)	9.3 (5.4)
	Bisimulation Transfer⁴	17.9 (0.0)	17.9 (0.0)	30.9 (4.2)
	PSEs	33.6 (10.0)	9.3 (5.3)	37.7 (10.4)
✓	RandConv	50.7 (24.2)	33.7 (11.8)	71.3 (15.6)
	RandConv + $\pi^{*}$ -bisimulation	41.4 (17.6)	17.4 (6.7)	33.4 (15.6)
	RandConv + PSEs	87.0 (10.1)	52.4 (5.8)	83.4 (10.1)

5.1 评估跳跃任务的泛化能力

我们展示了 PSE 与常见泛化方法（例如正则化（例如，Cobbe 等人，2019；Farebrother 等人，2018）和数据增强（例如，Lee 等人， 2020a；Laskin 等人，2020a)，这对于基于像素的 RL 任务非常有效。我们还将 PSE 与互模拟传输进行了对比（Castro & Precup，2010），这是一种基于互模拟指标基于表格状态的传输方法不进行任何学习和保留表示的互模拟(Zhang 等人, 2021)，显示了 PSM 相对于流行的状态相似性度量的优势。

我们首先研究了 PSE 在没有纳入额外领域知识的情况下对现有训练方法的泛化程度。表 1 总结了在没有数据增强的情况下，这些方法在不同训练/测试分组中的性能 (c.f. 详细说明见图4)。 PSE 仅包含 18 个示例，已带来比标准正则化更好的性能。

PSE 在“宽”和随机网格中的性能也优于互模拟传输。虽然互模拟传递是不切实际的⁴⁴4互模拟传输假设预言机可以访问未见过的环境以及表格状态空间的动态和奖励，以计算精确的互模拟指标(B 节）。在评估零样本泛化时，我们仍然进行了这种对 PSE 不公平的比较，以突显其功效。 PSE 表现更好，因为与互模拟相比，PSM 与奖励无关(c.f. 命题 C.1) – 跳跃动作的预期返回根据障碍物位置的不同而有很大不同 (c.f. 图F.2 PSM 和互模拟的视觉并置）。总的来说，这些结果是有希望的，因为它们将 PSE 视为一种不依赖于数据增强的有效泛化方法。

尽管如此，PSE 是对数据增强的补充，数据增强不断提高深度强化学习的泛化能力。我们将 RandConv 与 PSE 结合使用与仅使用 RandConv 进行了比较。特定领域的增强在跳跃任务中也取得了成功。因此，与没有增强的技术相比，RandConv 如此有效也就不足为奇了。表 1( $2^{nd}$ 行）显示 PSE 显着提高了所有网格配置中 RandConv 的性能。此外，表1( $2^{nd}$ 行）表明，当与RandConv结合使用时，保留表示的互模拟（Zhang等人，2021）将泛化能力降低了 $30-50\%$ 相对于 PSE。

值得注意的是，表1( $1^{st}$ 行）表明基于学习的方法在没有数据增强的“窄”网格上无效。也就是说，PSE 与 RandConv 结合使用时效果非常好。然而，即使有了数据增强，“窄”网格中的泛化也仅发生在训练任务附近，这表明该网格给基于学习的方法带来了挑战。我们认为这是由于神经网络的外推能力较差（例如，Haley & Soloway，1992；Xu 等人，2020），在没有数据增强的先验归纳偏差的情况下，这种外推能力更容易被察觉。

5.2 了解 PSE 的收益：消融和可视化

表2：消融 PSE。当我们在宽网格上的数据增强设置中消除相似性度量和度量嵌入的学习过程时，解决的测试任务的百分比 (%)。 PSE 将 CME 与 PSM 相结合，其性能大大优于其他嵌入。我们报告 100 次运行的平均性能，并在括号内显示标准差。与仅使用数据增强 (RandConv) 相比，除 PSE 之外的所有消融都会降低性能，如表 1 中所示。

Metric / Embedding	$\ell_{2}$ -embeddings	CMEs
$\pi^{*}$ -bisimulation	41.4 (17.6)	23.1 (7.6)
PSM	17.5 (8.4)	87.0 (10.1)

PSE 是通过 PSM 学习的对比度量嵌入 (CME)。我们通过消除 CME（第 4 节）和 PSM（第 3 节）来研究它们的收益。 CME 可以通过任何状态相似性度量来学习 - 我们使用 $\pi^{*}$ -bisimulation (Castro, 2020) 作为替代方案。同样，PSM 可以与任何度量嵌入一起使用 - 我们使用 $\ell_{2}$ -embeddings（第 D 节）作为替代方案，其中 Zhang 等人 (2021) 与 $\pi^{*}$ -bisimulation 一起使用，用于在单任务强化学习设置中学习表示。为了公平比较，我们为表 2 中每个消融条目的 128 次试验调整超参数。

表 2 显示 PSE( $=$ PSM + CME）的泛化能力明显优于 $\pi^{*}$ -与 CME 的互模拟或 $\ell_{2}$ -嵌入，两者都会显着降低性能（分别为 $-60\%$ 和 $-45\%$ )。这是预期的，因为 $\pi^{*}$ -互模拟对跳跃任务施加了不正确的不变性(c.f. 图2(a)和2(d))。此外，从表 2 的行来看，对于 PSM，CME 优于 $\ell_{2}$ -嵌入，而对于 $\pi^{*}$ -bisimulation 则较差。这一结果符合这样的假设：与 $\ell_{2}$ -embeddings 相比，CME 更好地强化了由相似性度量编码的不变性(c.f. 图5(b)和5(c))。

可视化学习到的表示。我们通过使用 UMAP （McInnes 等人，2018）将上面的消融中的度量嵌入投影到二维来可视化，UMAP 是一种流行的高维数据可视化技术，与其他技术相比，它可以更好地保留数据的全局结构t-SNE 等方法（Coenen & Pearce，2019）。

图 5 显示 PSE 将状态分为两组：(1) 单个次优操作导致失败的状态(jump 之前的所有状态）和 (2) 其中动作不会影响最终结果(jump之后的状态）。此外，PSE 会对齐第一组中的标记状态，其 PSM 距离为零。这些对齐的状态与障碍物的距离相同，这是跨任务通用的不变特征。另一方面，带有 PSM 的 $\ell_{2}$ -embeddings (Zhang 等人, 2021) 不会将状态与零 PSM 对齐，除了具有跳跃动作的状态 - 正如所观察到的，泛化性很差从经验上看，这可能是由于具有相同最佳行为的状态最终导致了遥远的嵌入。具有 $\pi^{*}$ -bisimulation 的 CME 将状态与 $\pi^{*}$ -bisimulation 距离为零 – 这些状态与开始状态等距，并且对于具有不同障碍物位置的任何任务对具有不同的最佳行为（图2(c))。

5.3 政策次优对私营企业的影响

为了了解学习有效 PSE 对策略质量的敏感性，我们在跳跃任务上使用 $\epsilon$ 次优策略来计算 PSE，该策略以概率 $1-\epsilon$ 采取最优动作，并且次优行动的概率为 $\epsilon$ 。

我们针对日益次优的策略评估 PSE 的泛化性能，范围从最优策略 ( $\epsilon=0$ ) 到统一随机策略 ( $\epsilon=0.5$ )。为了隔离次优对 PSE 的影响，智能体仍然在训练期间对所有 $\epsilon$ 模仿最优动作。

图 6 显示 PSE 使用 $\epsilon\leq 0.4$ 显示接近最优的泛化能力，而使用统一随机策略则降低泛化能力。这一结果与命题C.3非常一致，命题表明对于次优性降低的策略，PSM 近似变得更加准确，从而提高 PSE。总的来说，这项研究证实了 PSE 的泛化效用对于次优性是稳健的。这种稳健性的原因之一是，PSE 可能会将国家与类似的长期贪婪最优行动结合起来，即使采用保留这些贪婪行动的次优政策，也会产生良好的性能。

5.4 用颜色跳跃任务：任务相关的不变性很重要

PSE 捕获的任务相关的不变性通常与数据增强的任务无关的不变性正交。这种差异很重要，因为对于某些 RL 任务，数据增强可能会错误地将状态与不同的最佳行为混为一谈。通常需要领域知识来选择适当的增强，否则增强甚至会损害泛化。相比之下，PSE 不需要任何领域知识，而是利用 RL 任务的固有结构。

为了演示 PSE 和数据增强之间的差异，我们只需在跳跃任务中添加彩色障碍物（见图 F.5)。在这个修改后的任务中，智能体的最佳行为取决于障碍物颜色：智能体需要跳过红色障碍物但撞击绿色障碍物以获得高回报。红色障碍物任务与原来的跳跃任务难度相同，而绿色障碍物任务则更容易。我们在“宽”网格上针对两种障碍物颜色，分别对智能体进行 18 个训练任务的联合训练，并评估对未见过的红色任务的泛化能力。

图 7 显示了 PSE 与 RandConv 数据增强之间的巨大性能差距。所有方法都解决了绿色障碍任务（表F.1)。与最初的跳跃任务相反(c.f. 表 1)，数据增强抑制泛化，因为 RandConv 强制代理忽略颜色，合并红色和绿色任务（图 F.6)。 PSE 的性能仍然优于正则化和数据增强。此外，数据增强与 PSE 结合时表现更好。因此，即使数据增强损害了性能，PSE 仍然有效。

6 额外的实证评估

在本节中，我们展示了 PSM 使用具有非图像输入的 LQR 任务（Song 等人，2019）忽略了泛化的虚假信息。然后，我们使用 Distracting DM Control Suite （Stone 等人，2021）展示了 PSE 的可扩展性，无需在具有连续操作的 RL 设置中显式访问最优策略。

6.1 具有虚假相关性的 LQR

我们展示了当面对语义等效的环境时，使用 PSM 学习的表示如何能够学习变化的主要因素并忽略阻碍的虚假相关性

概括。我们使用带有干扰项的 LQR （Song 等人，2019；Sonar 等人，2020）通过线性函数近似来评估基于特征的 RL 设置中的泛化能力。干扰因素是与最佳动作虚假相关的输入特征，可用于在训练期间预测这些动作，但会损害泛化能力。代理使用 2 个具有固定干扰因素的环境来学习线性策略。该策略是在具有看不见的干扰因素的环境中进行评估的。

我们在 PSM 接近于零的训练环境中聚合状态对。我们将这种方法与 (i) IPO (Sonar 等人, 2020) 进行对比，这是一种基于 IRM (Arjovsky 等人, 2019) 的策略优化方法，适用于非分布泛化，(ii) 过参数化，通过隐式正则化实现更好的泛化（宋等人，2019），以及 (iii) 自策略以来使用 $\ell_{1}$ 正则化实现权重稀疏在此任务中泛化的权重是稀疏的。

所有方法都最优地解决了训练环境；然而，与 PSM 的状态聚合相比，基线在泛化方面表现不佳（图8)，这表明它们对干扰因素的依赖。 PSM 获得了接近最优的泛化能力，我们通过这个猜想(G.1 节）证实了这一点：假设 PSM 的状态聚合误差为零，则使用梯度下降学习的策略与干扰项无关。详细讨论请参阅G节。

6.2分散注意力的 DM 控制套件

最后，我们在 Distracting DM Control Suite (DCS) （Stone 等人，2021）上展示了 PSE 的可扩展性，测试智能体是否可以忽略与 RL 任务无关的高维视觉干扰因素。由于我们无法获得最佳训练策略，因此我们使用学习策略作为 $\pi^{*}$ 的代理来计算 PSM 并收集数据以优化 PSE。即使采用这种近似值，PSE 的性能也优于最先进的数据增强。

DCS 通过视觉干扰扩展了 DM 控制（Tassa 等人，2020）。我们使用动态背景干扰（Stone 等人，2021；Zhang 等人，2018b），其中视频在特定帧的背景中播放。每个新剧集都会对视频和帧进行随机采样。我们在训练期间使用 2 个视频（图 9)，并评估 30 个未见过的视频的泛化能力（图 H.1)。

所有代理均建立在 SAC （Haarnoja 等人，2018）之上，并结合 DrQ （Kostrikov 等人，2020），这是一种具有最新技术的增强方法DM控制上的艺术表演。如果没有对 DM 控制进行数据增强，SAC 的表现很差，即使在训练（Kostrikov 等人，2020）期间也是如此。我们通过学习 PSE 的辅助损失来增强 DrQ，并将其与 DrQ 进行比较（表 3)。与 DrQ 正交，PSE 基于 PSM 跨环境对齐不同状态的表示(c.f. 图3). 所有代理都经过 500K 环境步骤的随机作物增强训练。为了计算 PSM，我们使用 DrQ 在训练环境中预训练 500K 步学习的策略。

表3：泛化性能，在 Distracting Suite 中以 500K 步进行看不见的干扰。我们报告 5 个种子的平均分数

\pm

标准误差。所有方法均已添加到 SAC (Haarnoja 等人, 2018) 中。预训练初始化使用经过 500K 步骤训练的 DrQ。图H.2和H.3显示了学习曲线。

Initialization	Method	BiC-catch	C-swingup	C-run	F-spin	R-easy	W-walk
Random	DrQ	747 $\pm$ 28	582 $\pm$ 42	220 $\pm$ 12	646 $\pm$ 54	931 $\pm$ 14	549 $\pm$ 83
Random	DrQ + PSEs	821 $\pm$ 17	749 $\pm$ 19	308 $\pm$ 12	779 $\pm$ 49	955 $\pm$ 10	789 $\pm$ 28
Pretrained	DrQ	748 $\pm$ 30	689 $\pm$ 22	219 $\pm$ 10	764 $\pm$ 48	943 $\pm$ 10	709 $\pm$ 29
Pretrained	DrQ + PSEs	805 $\pm$ 25	753 $\pm$ 13	282 $\pm$ 8	803 $\pm$ 19	962 $\pm$ 11	829 $\pm$ 21

首先，假设预先向代理提供了 PSM，我们研究 PSE 相对于 DrQ 的泛化能力有多好。代理的策略是随机初始化的，因此相对于 DrQ 的额外收益可以归因于 PSM 的辅助信息。表 3 中的显着收益表明 PSE 在编码干扰项不变性方面比 DrQ 更有效。

由于 PSE 使用使用预训练策略近似的 PSM，因此我们还与 DrQ 代理进行比较，在 DrQ 代理中我们使用这些预训练策略对其进行初始化。这种比较为 DrQ 提供了与 PSE 可用的相同的辅助信息，因此，泛化差异源于它们如何利用这些信息。表 3 表明，经过预训练初始化后，PSE 的性能优于 DrQ，这表明额外的预训练步骤可以更明智地用于计算 PSM，而不是使用 DrQ 进行更长的训练。更多详细信息，包括学习曲线，请参见 H 部分。

7相关工作

PSM(3 节）受到互模拟指标(B 节）的启发。然而，与传统的互模拟（例如，Larsen & Skou，1991；Givan 等人，2003；Ferns 等人，2011）不同，PSM 更容易处理，因为它是针对类似于以下的单一策略进行定义的：最近提出的 $\pi^{*}$ -bisimulation（Castro，2020；Zhang等人，2021）。然而，与 PSM 相比，互模拟指标依赖于奖励信息，并且可能无法在某些环境中提供有意义的行为相似性概念（第 5 节）。例如，PSM 下相似的状态将具有相似的最优政策，但它们之间可以具有任意大的 $\pi^{*}$ -互模拟距离（命题C.1)。

PSE(4 节）使用对比学习来编码跨 MDP 的行为相似性(3 节）。此前，对比学习已应用于强加状态自一致性（Laskin等人，2020b），捕获预测信息（Oord等人，2018；Mazoure等人，2020；Lee等人, 2020b) 或在 MDP 内编码过渡动态 (van der Pol 等人, 2020; Stooke 等人, 2020; Schwarzer 等人, 2020) 。这些方法可以与 PSE 集成以编码额外的不变性。有趣的是，本着与 PSE 类似的精神，Pacchiano 等人 (2020)； Moskovitz 等人 (2021) 探索比较策略之间的行为相似性，以指导 MDP 内的策略优化。

PSE 是数据增强方法的补充（Kostrikov 等人，2020；Lee 等人，2020a；Raileanu 等人，2020；Ye 等人，2020），最近被证明可以显着提高智能体的能力泛化能力。事实上，我们将 PSE 与最先进的增强方法结合起来，包括跳跃任务中的随机卷积 (Lee 等人, 2020a; Laskin 等人, 2020a) 和 DrQ (Kostrikov)等人，2020）关于分散控制套件，从而提高性能。此外，对于某些 RL 任务，可能不清楚最优不变增强是什么样子(5.4 节）。 PSM 可以量化此类增强的不变性（命题C.2)。

8结论

本文通过两个贡献推进了 RL 中的泛化：(1) 政策相似度量 (PSM)，它提供了基于行为邻近性的状态相似性新概念；(2) 对比度量嵌入，它利用对比学习的优势，基于相似度量进行表征。 PSE 将这两种想法结合起来以提高泛化能力。总的来说，本文展示了利用强化学习的固有结构来学习有效表示的好处。

参考

Agarwal et al. (2019) Rishabh Agarwal, Chen Liang, Dale Schuurmans, and Mohammad Norouzi. Learning to generalize from sparse and underspecified rewards. In ICML, 2019.
Arjovsky et al. (2019) Martín Arjovsky, Léon Bottou, Ishaan Gulrajani, and David Lopez-Paz. Invariant risk minimization. CoRR, abs/1907.02893, 2019.
Arora et al. (2019) Sanjeev Arora, Nadav Cohen, Wei Hu, and Yuping Luo. Implicit regularization in deep matrix factorization. In Advances in Neural Information Processing Systems, pp. 7413–7424, 2019.
Balaji et al. (2018) Yogesh Balaji, Swami Sankaranarayanan, and Rama Chellappa. Metareg: Towards domain generalization using meta-regularization. In Advances in Neural Information Processing Systems, pp. 998–1008, 2018.
Castro (2020) Pablo Samuel Castro. Scalable methods for computing state similarity in deterministic Markov decision processes. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020.
Castro & Precup (2010) Pablo Samuel Castro and Doina Precup. Using bisimulation for policy transfer in MDPs. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2010.
Chen et al. (2020) Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey E. Hinton. A simple framework for contrastive learning of visual representations. CoRR, abs/2002.05709, 2020.
Cobbe et al. (2019) Karl Cobbe, Oleg Klimov, Christopher Hesse, Taehoon Kim, and John Schulman. Quantifying generalization in reinforcement learning. In Proceedings of the International Conference on Machine Learning (ICML), 2019.
Coenen & Pearce (2019) Andy Coenen and Adam Pearce. Understanding umap, 2019. URL https://pair-code.github.io/understanding-umap/.
Farebrother et al. (2018) Jesse Farebrother, Marlos C. Machado, and Michael Bowling. Generalization and regularization in DQN. In NeurIPS Deep Reinforcement Learning Workshop, 2018.
Ferns et al. (2004) Norm Ferns, Prakash Panangaden, and Doina Precup. Metrics for finite Markov decision processes. In Proceedings of the Conference in Uncertainty in Artificial Intelligence (UAI), 2004.
Ferns et al. (2006) Norm Ferns, Pablo Samuel Castro, Doina Precup, and Prakash Panangaden. Methods for computing state similarity in Markov decision processes. In Proceedings of the 22nd Conference on Uncertainty in Artificial Intelligence, UAI ’06. AUAI Press, 2006.
Ferns et al. (2011) Norm Ferns, Prakash Panangaden, and Doina Precup. Bisimulation metrics for continuous markov decision processes. SIAM Journal on Computing, 40(6):1662–1714, 2011.
Ferns & Precup (2014) Norman Ferns and Doina Precup. Bisimulation metrics are optimal value functions. In The 30th Conference on Uncertainty in Artificial Intelligence, pp. 10, 2014.
Finn et al. (2017) Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. In Proceedings of the International Conference on Machine Learning (ICML), 2017.
Givan et al. (2003) Robert Givan, Thomas Dean, and Matthew Greig. Equivalence notions and model minimization in markov decision processes. Artificial Intelligence, 147(1-2):163–223, 2003.
Golovin et al. (2017) Daniel Golovin, Benjamin Solnik, Subhodeep Moitra, Greg Kochanski, John Karro, and D Sculley. Google vizier: A service for black-box optimization. In Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, pp. 1487–1495, 2017.
Gunasekar et al. (2017) Suriya Gunasekar, Blake E Woodworth, Srinadh Bhojanapalli, Behnam Neyshabur, and Nati Srebro. Implicit regularization in matrix factorization. In Advances in Neural Information Processing Systems, pp. 6151–6159, 2017.
Haarnoja et al. (2018) Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, and Sergey Levine. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. arXiv preprint arXiv:1801.01290, 2018.
Hadsell et al. (2006) Raia Hadsell, Sumit Chopra, and Yann LeCun. Dimensionality reduction by learning an invariant mapping. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06), volume 2, pp. 1735–1742. IEEE, 2006.
Haley & Soloway (1992) Pamela J Haley and DONALD Soloway. Extrapolation limitations of multilayer feedforward neural networks. In [Proceedings 1992] IJCNN International Joint Conference on Neural Networks, volume 4, pp. 25–30. IEEE, 1992.
Igl et al. (2019) Maximilian Igl, Kamil Ciosek, Yingzhen Li, Sebastian Tschiatschek, Cheng Zhang, Sam Devlin, and Katja Hofmann. Generalization in reinforcement learning with selective noise injection and information bottleneck. In Advances in Neural Information Processing Systems, pp. 13978–13990, 2019.
Jin et al. (2020) Wengong Jin, Regina Barzilay, and Tommi Jaakkola. Domain extrapolation via regret minimization. arXiv preprint arXiv:2006.03908, 2020.
Juliani et al. (2019) Arthur Juliani, Ahmed Khalifa, Vincent-Pierre Berges, Jonathan Harper, Ervin Teng, Hunter Henry, Adam Crespi, Julian Togelius, and Danny Lange. Obstacle Tower: A generalization challenge in vision, control, and planning. In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI), 2019.
Justesen et al. (2018) Niels Justesen, Ruben Rodriguez Torrado, Philip Bontrager, Ahmed Khalifa, Julian Togelius, and Sebastian Risi. Illuminating generalization in deep reinforcement learning through procedural level generation. arXiv preprint arXiv:1806.10729, 2018.
Killian et al. (2017) Taylor W. Killian, George Dimitri Konidaris, and Finale Doshi-Velez. Robust and efficient transfer learning with hidden parameter Markov decision processes. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), pp. 4949–4950, 2017.
Kostrikov et al. (2020) Ilya Kostrikov, Denis Yarats, and Rob Fergus. Image augmentation is all you need: Regularizing deep reinforcement learning from pixels. CoRR, abs/2004.13649, 2020.
Larsen & Skou (1991) Kim G Larsen and Arne Skou. Bisimulation through probabilistic testing. Information and computation, 94(1):1–28, 1991.
Laskin et al. (2020a) Michael Laskin, Kimin Lee, Adam Stooke, Lerrel Pinto, Pieter Abbeel, and Aravind Srinivas. Reinforcement learning with augmented data. CoRR, abs/2004.14990, 2020a.
Laskin et al. (2020b) Michael Laskin, Aravind Srinivas, and Pieter Abbeel. Curl: Contrastive unsupervised representations for reinforcement learning. Proceedings of the 37th International Conference on Machine Learning, Vienna, Austria, PMLR 119, 2020b. arXiv:2003.06417.
Lee et al. (2020a) Kimin Lee, Kibok Lee, Jinwoo Shin, and Honglak Lee. Network randomization: A simple technique for generalization in deep reinforcement learning. In The International Conference on Learning Representations (ICLR), 2020a.
Lee et al. (2020b) Kuang-Huei Lee, Ian Fischer, Anthony Liu, Yijie Guo, Honglak Lee, John Canny, and Sergio Guadarrama. Predictive information accelerates learning in rl. arXiv preprint arXiv:2007.12401, 2020b.
Li et al. (2018) Da Li, Yongxin Yang, Yi-Zhe Song, and Timothy M. Hospedales. Learning to generalize: Meta-learning for domain generalization. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2018.
Mazoure et al. (2020) Bogdan Mazoure, Remi Tachet des Combes, Thang Long DOAN, Philip Bachman, and R Devon Hjelm. Deep reinforcement and infomax learning. Advances in Neural Information Processing Systems, 33, 2020.
McInnes et al. (2018) L. McInnes, J. Healy, and J. Melville. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. ArXiv e-prints, February 2018.
Moskovitz et al. (2021) Ted Moskovitz, Michael Arbel, Ferenc Huszar, and Arthur Gretton. Efficient wasserstein natural gradients for reinforcement learning. In International Conference on Learning Representations, 2021.
Oh et al. (2017) Junhyuk Oh, Satinder P. Singh, Honglak Lee, and Pushmeet Kohli. Zero-shot task generalization with multi-task deep reinforcement learning. In Proceedings of the International Conference on Machine Learning (ICML), 2017.
Oord et al. (2018) Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018.
Pacchiano et al. (2020) Aldo Pacchiano, Jack Parker-Holder, Yunhao Tang, Krzysztof Choromanski, Anna Choromanska, and Michael Jordan. Learning to score behaviors for guided policy optimization. In International Conference on Machine Learning, 2020.
Packer et al. (2018) Charles Packer, Katelyn Gao, Jernej Kos, Philipp Krähenbühl, Vladlen Koltun, and Dawn Song. Assessing generalization in deep reinforcement learning. arXiv preprint arXiv:1810.12282, 2018.
Perez et al. (2020) Christian F. Perez, Felipe Petroski Such, and Theofanis Karaletsos. Generalized hidden parameter mdps transferable model-based rl in a handful of trials. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020.
Pont-Tuset et al. (2017) Jordi Pont-Tuset, Federico Perazzi, Sergi Caelles, Pablo Arbeláez, Alex Sorkine-Hornung, and Luc Van Gool. The 2017 davis challenge on video object segmentation. arXiv preprint arXiv:1704.00675, 2017.
Puterman (1994) Martin L Puterman. Markov Decision Processes: Discrete Stochastic Dynamic Programming. John Wiley & Sons, Inc., 1994.
Raileanu et al. (2020) Roberta Raileanu, Max Goldstein, Denis Yarats, Ilya Kostrikov, and Rob Fergus. Automatic data augmentation for generalization in deep reinforcement learning. arXiv preprint arXiv:2006.12862, 2020.
Rajeswaran et al. (2017) Aravind Rajeswaran, Kendall Lowrey, Emanuel Todorov, and Sham M. Kakade. Towards generalization and simplicity in continuous control. In Advances in Neural Information Processing Systems (NeurIPS), 2017.
Recht (2019) Benjamin Recht. A tour of reinforcement learning: The view from continuous control. Annual Review of Control, Robotics, and Autonomous Systems, 2019.
Schwarzer et al. (2020) Max Schwarzer, Ankesh Anand, Rishab Goel, R Devon Hjelm, Aaron Courville, and Philip Bachman. Data-efficient reinforcement learning with momentum predictive representations. arXiv preprint arXiv:2007.05929, 2020.
Sonar et al. (2020) Anoopkumar Sonar, Vincent Pacelli, and Anirudha Majumdar. Invariant policy optimization: Towards stronger generalization in reinforcement learning. arXiv preprint arXiv:2006.01096, 2020.
Song et al. (2019) Xingyou Song, Yiding Jiang, Yilun Du, and Behnam Neyshabur. Observational overfitting in reinforcement learning. In The International Conference on Learning Representations (ICLR), 2019.
Stone et al. (2021) Austin Stone, Oscar Ramirez, Kurt Konolige, and Rico Jonschkowski. The distracting control suite – a challenging benchmark for reinforcement learning from pixels. arXiv preprint arXiv:2101.02722, 2021.
Stooke et al. (2020) Adam Stooke, Kimin Lee, Pieter Abbeel, and Michael Laskin. Decoupling representation learning from reinforcement learning. arXiv preprint arXiv:2009.08319, 2020.
Tachet des Combes et al. (2018) Remi Tachet des Combes, Philip Bachman, and Harm van Seijen. Learning invariances for policy generalization. In Workshop track at the International Conference on Learning Representations (ICLR), 2018.
Tang et al. (2020) Yujin Tang, Duong Nguyen, and David Ha. Neuroevolution of self-interpretable agents. arXiv preprint arXiv:2003.08165, 2020.
Tassa et al. (2020) Yuval Tassa, Saran Tunyasuvunakool, Alistair Muldal, Yotam Doron, Siqi Liu, Steven Bohez, Josh Merel, Tom Erez, Timothy Lillicrap, and Nicolas Heess. dm_control: Software and tasks for continuous control. arXiv preprint arXiv:2006.12983, 2020.
Taylor & Stone (2009) Matthew E. Taylor and Peter Stone. Transfer learning for reinforcement learning domains: A survey. Journal of Machine Learning Research, 10:1633–1685, 2009.
Tobin et al. (2017) Josh Tobin, Rachel Fong, Alex Ray, Jonas Schneider, Wojciech Zaremba, and Pieter Abbeel. Domain randomization for transferring deep neural networks from simulation to the real world. In 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 23–30. IEEE, 2017.
van der Pol et al. (2020) Elise van der Pol, Thomas Kipf, Frans A Oliehoek, and Max Welling. Plannable approximations to mdp homomorphisms: Equivariance under actions. In Proceedings of the 19th International Conference on Autonomous Agents and MultiAgent Systems, pp. 1431–1439, 2020.
Villani (2008) Cédric Villani. Optimal transport: old and new. Springer, 2008.
Witty et al. (2018) Sam Witty, Jun Ki Lee, Emma Tosch, Akanksha Atrey, Michael Littman, and David Jensen. Measuring and characterizing generalization in deep reinforcement learning. In NeurIPS Critiquing and Correcting Trends in Machine Learning Workshop, 2018.
Xu et al. (2020) Keyulu Xu, Jingling Li, Mozhi Zhang, Simon S Du, Ken-ichi Kawarabayashi, and Stefanie Jegelka. How neural networks extrapolate: From feedforward to graph neural networks. arXiv preprint arXiv:2009.11848, 2020.
Ye et al. (2020) Chang Ye, Ahmed Khalifa, Philip Bontrager, and Julian Togelius. Rotation, translation, and cropping for zero-shot generalization. CoRR, abs/2001.09908, 2020.
Zhang et al. (2018a) Amy Zhang, Nicolas Ballas, and Joelle Pineau. A Dissection of Overfitting and Generalization in Continuous Reinforcement Learning. CoRR, abs/1806.07937, 2018a.
Zhang et al. (2018b) Amy Zhang, Yuxin Wu, and Joelle Pineau. Natural environment benchmarks for reinforcement learning. arXiv preprint arXiv:1811.06032, 2018b.
Zhang et al. (2020) Amy Zhang, Clare Lyle, Shagun Sodhani, Angelos Filos, Marta Kwiatkowska, Joelle Pineau, Yarin Gal, and Doina Precup. Invariant causal prediction for block mdps. In Proceedings of the International Conference on Machine Learning (ICML), 2020.
Zhang et al. (2021) Amy Zhang, Rowan McAllister, Roberto Calandra, Yarin Gal, and Sergey Levine. Learning invariant representations for reinforcement learning without reconstruction. The International Conference on Learning Representations (ICLR), 2021.
Zhang et al. (2018c) Chiyuan Zhang, Oriol Vinyals, Rémi Munos, and Samy Bengio. A study on overfitting in deep reinforcement learning. CoRR, abs/1804.06893, 2018c.

附录

附录A证明

我们首先定义一些将在这些结果中使用的符号：

•

我们表示 $\mathbb{E}_{t\geq 0}[\gamma^{t}TV(\tilde{\pi}(Y^{t}_{y}),\pi^{*}(Y^{t}_{y}))]=\mathbb{E}_{Y^{t}_{y}}\left[\sum_{t\geq 0}\gamma^{t}TV(\tilde{\pi}(Y^{t}_{y}),\pi^{*}(Y^{t}_{y}))\right]$
•

对于任何 $y\in Y$ ，设 $Y^{t}_{y}\sim P^{\tilde{\pi}}(\cdot|Y^{t-1}_{y})$ ，其中 $Y^{0}_{y}=y$ 。
•

$TV^{n}(Y^{k}_{y})=\mathbb{E}_{0\leq t<n}\gamma^{t}TV(\tilde{\pi}(Y^{k+t}_{y}),\pi^{*}(Y^{k+t}_{y}))$ 。

我们现在继续讨论主要结果所必需的一些技术引理。

Lemma 1.

给定任意两个伪度量⁵⁵5伪计量学是度量的概括，其中两个不同状态之间的距离可以为零。 $d,d^{\prime}\in{\mathbb{M}}$ 和概率分布 $P_{\mathcal{X}},\ P_{\mathcal{Y}}$ ，其中 ${\mathcal{X}},{\mathcal{Y}}\subset{\mathcal{S}}$ ，我们有：

{\mathcal{W}}^{1}(d)(P_{\mathcal{X}},P_{\mathcal{Y}})\leq\|d-d^{\prime}\|+{\mathcal{W}}^{1}(d^{\prime})(P_{\mathcal{X}},P_{\mathcal{Y}})

证明。

请注意，用于计算 ${\mathcal{W}}^{1}(d)(P_{\mathcal{X}},P_{\mathcal{Y}})$ 的线性程序的对偶由下式给出

	$\displaystyle\min_{\Gamma}\sum_{x\in{\mathcal{X}},\ y\in{\mathcal{Y}}}\Gamma(x,y)\ d(x,y)$
	$\displaystyle\mathrm{subject\ to\ }\sum_{x}\Gamma(x,y)=P_{\mathcal{Y}}(y)\ \forall y,\quad\sum_{y}\Gamma(x,y)=P_{\mathcal{X}}(x)\ \forall x,\quad\Gamma(x,y)\geq 0\ \forall x,y$

使用受上述约束的对偶公式， ${\mathcal{W}}^{1}(d)$ 可以写为

	$\displaystyle{\mathcal{W}}^{1}(d)(P_{\mathcal{X}},P_{\mathcal{Y}})\leq\\|d-d^{\prime}\\|$	$\displaystyle={\mathcal{W}}^{1}(d-d^{\prime}+d^{\prime})(P_{\mathcal{X}},P_{\mathcal{Y}})\leq\\|d-d^{\prime}\\|$
		$\displaystyle=\min_{\Gamma}\sum_{x\in{\mathcal{X}},\ y\in{\mathcal{Y}}}\Gamma(x,y)\ (d(x,y)-d^{\prime}(x,y)+d^{\prime}(x,y))$
		$\displaystyle\leq\min_{\Gamma}\sum_{x\in{\mathcal{X}},\ y\in{\mathcal{Y}}}\Gamma(x,y)\ (\\|d-d^{\prime}\\|+d^{\prime}(x,y))$
		$\displaystyle=\\|d-d^{\prime}\\|+\min_{\Gamma}\sum_{x\in{\mathcal{X}},\ y\in{\mathcal{Y}}}\Gamma(x,y)\ d^{\prime}(x,y)$
		$\displaystyle=\\|d-d^{\prime}\\|+{\mathcal{W}}^{1}(d^{\prime})(P_{\mathcal{X}},P_{\mathcal{Y}})$

∎

Lemma 2.

给定任何 $y_{0}\in Y$ ，我们有：

\displaystyle\sum_{y_{1}\in Y}\left(P^{\tilde{\pi}}(y_{1}|y_{0})-P^{\pi^{*}}(y_{1}|y_{0})\right)TV^{n}(Y^{0}_{y_{1}})\leq\frac{2}{1-\gamma}TV(\tilde{\pi}(y_{0}),\pi^{*}(y_{0}))

证明。

	$\displaystyle\sum_{y_{1}\in Y}\left(P^{\tilde{\pi}}(y_{1}\|y_{0})-P^{\pi^{*}}(y_{1}\|y_{0})\right)TV^{n}(Y^{0}_{y_{1}})$	$\displaystyle\leq\left\|\sum_{y_{1}\in Y}\left(P^{\tilde{\pi}}(y_{1}\|y_{0})-P^{\pi^{*}}(y_{1}\|y_{0})\right)TV^{n}(Y^{0}_{y_{1}})\right\|$
		$\displaystyle\leq\sum_{y_{1}\in Y}\left\|\sum_{a\in A}P(y_{1}\|y_{0},a)\left(\tilde{\pi}(a\|y_{0})-\pi^{*}(a\|y_{0})\right)\right\|TV^{n}(Y^{0}_{y_{1}})$
		$\displaystyle\leq\frac{1}{1-\gamma}\sum_{y_{1}\in Y}\sum_{a\in A}P(y_{1}\|y_{0},a)\left\|\tilde{\pi}(a\|y_{0})-\pi^{*}(a\|y_{0})\right\|$
		$\displaystyle=\frac{1}{1-\gamma}\sum_{a\in A}\left\|\tilde{\pi}(a\|y_{0})-\pi^{*}(a\|y_{0})\right\|\sum_{y_{1}\in Y}P(y_{1}\|y_{0},a)$
		$\displaystyle=\frac{1}{1-\gamma}\sum_{a\in A}\left\|\tilde{\pi}(a\|y_{0})-\pi^{*}(a\|y_{0})\right\|$
		$\displaystyle=\frac{2}{1-\gamma}TV(\tilde{\pi}(y_{0}),\pi^{*}(y_{0}))$

∎

Lemma 3.

给定任何 $y_{0}\in Y$ ，如果 $TV^{n}(Y^{0}_{y_{1}})\leq\frac{1+\gamma}{1-\gamma}d^{*}(\tilde{x}_{y_{1}},y_{1})$ ，我们有：

\sum_{y_{1}\in Y}P^{\pi^{*}}(y_{1}|y_{0})TV^{n}(Y^{0}_{y_{1}})\leq\frac{1+\gamma}{1-\gamma}W_{1}(d^{*})\left(P^{\pi^{*}}(\cdot|\tilde{x}_{y_{0}}),P^{\pi^{*}}(\cdot|y_{0})\right)

证明。

请注意，我们有以下等式，其中 $\mathbf{0}$ 是一个由零组成的向量：

\sum_{y_{1}\in Y}P^{\pi^{*}}(y_{1}|y_{0})TV^{n}(Y^{0}_{y_{1}})=\sum_{y_{1}\in Y}P^{\pi^{*}}(y_{1}|y_{0})TV^{n}(Y^{0}_{y_{1}})-\sum_{x\in X}P^{\pi^{*}}(x|\tilde{x}_{y_{0}})\mathbf{0}

这与 $W_{1}(d^{*})(P^{\pi^{*}}(\cdot|y_{0}),P^{\pi^{*}}(\cdot|\tilde{x}_{y_{0}}))$ 的原始 LP 的形式相同。根据假设，我们有

TV^{n}(Y^{0}_{y_{1}})\leq\frac{1+\gamma}{1-\gamma}d^{*}(\tilde{x}_{y_{1}},y_{1})

这意味着 $\frac{1-\gamma}{1+\gamma}TV^{n}(Y^{0}_{\cdot})$ 是 $W_{1}(d^{*})(P^{\pi^{*}}(\cdot|y_{0}),P^{\pi^{*}}(\cdot|\tilde{x}_{y_{0}}))$ 的可行解决方案：

\sum_{y_{1}\in Y}P^{\pi^{*}}(y_{1}|y_{0})\frac{1-\gamma}{1+\gamma}TV^{n}(Y^{0}_{y_{1}})\leq W_{1}(d^{*})\left(P^{\pi^{*}}(\cdot|\tilde{x}_{y_{0}}),P^{\pi^{*}}(\cdot|y_{0})\right)

结果如下。 ∎

Proposition A.1.

运算符 ${\mathcal{F}}$ 给出：

{\mathcal{F}}(d)(x,y)=\textsc{Dist}(\pi^{*}(x),\pi^{*}(y))+\gamma{\mathcal{W}}_{1}(d)(P^{\pi^{*}}_{{\mathcal{X}}}(\cdot|x),P^{\pi^{*}}_{{\mathcal{Y}}}(\cdot|y))

是收缩映射，并且对于有界 $d i s t$ 具有唯一的固定点。

证明。

我们首先证明 ${\mathcal{F}}$ 是收缩映射。然后，巴纳赫不动点定理的简单应用断言 ${\mathcal{F}}$ 具有唯一的不动点。请注意，对于所有伪计量 $d,d^{\prime}\in{\mathbb{M}}$ 和所有状态 $x\in{\mathcal{X}}$ 、 $y\in{\mathcal{Y}}$ ，

	$\displaystyle{\mathcal{F}}(d)(x,y)-{\mathcal{F}}(d^{\prime})(x,y)$
	$\displaystyle=\gamma\left({\mathcal{W}}_{1}(d)(P^{\pi^{}_{{\mathcal{X}}}}(\cdot\|x),P^{\pi^{}}_{{\mathcal{Y}}}(\cdot\|y))-{\mathcal{W}}_{1}(d^{\prime})(P^{\pi^{}_{{\mathcal{X}}}}(\cdot\|x),P^{\pi^{}}_{{\mathcal{Y}}}(\cdot\|y))\right)$
	$\displaystyle\overset{\autoref{lemma:thirdHalf}}{\leq}\gamma\left(\\|d-d^{\prime}\\|+{\mathcal{W}}_{1}(d^{\prime})(P^{\pi^{}_{{\mathcal{X}}}}(\cdot\|x),P^{\pi^{}}_{{\mathcal{Y}}}(\cdot\|y))-{\mathcal{W}}_{1}(d^{\prime})(P^{\pi^{}_{{\mathcal{X}}}}(\cdot\|x),P^{\pi^{}}_{{\mathcal{Y}}}(\cdot\|y))\right)$
	$\displaystyle=\gamma\ \\|d-d^{\prime}\\|$

因此， $\|{\mathcal{F}}(d)-{\mathcal{F}}(d^{\prime})\|\leq\gamma\|d-d^{\prime}\|$ ，使得 ${\mathcal{F}}$ 是 $\gamma<1$ 的收缩映射并且具有唯一的固定点 $d^{*}$ 。 ∎

请参阅1

证明。

我们将通过归纳法来证明这一点。假设 $TV^{n}$ 的界限成立，我们证明 $TV^{n+1}$ 的界限成立。 $n=1$ 的基本情况源自 $TV(\tilde{\pi}(y),\pi^{*}(y))=TV(\pi^{*}(\tilde{x}_{y}),\pi^{*}(y))\leq d^{*}(\tilde{x}_{y},y)$ 。请注意， $TV^{n}\leq\frac{1-\gamma^{n+1}}{1-\gamma}$ 因为每个时间步的 $T V$ 距离最多可为 1。

让 $P^{\pi}_{t}(y^{\prime}|y)$ 表示在遵循政策 $\pi$ 并从状态 $y$ 开始时，经过 $t$ 步后结束于状态 $y^{\prime}\in Y$ 的概率。然后我们有：

	$\displaystyle T$	$\displaystyle V^{n+1}(Y^{k}_{y})=\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)TV(\tilde{\pi}(y_{k}),\pi^{*}(y_{k}))+\gamma TV^{n}(Y^{k+1}_{y})$
		$\displaystyle=\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[TV(\tilde{\pi}(y_{k}),\pi^{*}(y_{k}))+\gamma\sum_{y_{k+1}\in Y}P^{\tilde{\pi}}(y_{k+1}\|y_{k})TV^{n}(Y^{0}_{y_{k+1}})\right]$
		$\displaystyle=\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[TV(\tilde{\pi}(y_{k}),\pi^{}(y_{k}))+\gamma\sum_{y_{k+1}\in Y}\left(P^{\tilde{\pi}}(y_{k+1}\|y_{k})-P^{\pi^{}}(y_{k+1}\|y_{k})\right)TV^{n}(Y^{0}_{y_{k+1}})\right.$
		$\displaystyle\qquad\left.+\gamma\sum_{y_{k+1}\in Y}P^{\pi^{*}}(y_{k+1}\|y_{k})TV^{n}(Y^{0}_{y_{k+1}})\right]$
		$\displaystyle\overset{\autoref{lemma:firstHalf}}{\leq}\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[TV(\tilde{\pi}(y_{k}),\pi^{}(y_{k}))+\frac{2\gamma}{1-\gamma}TV(\tilde{\pi}(y_{k}),\pi^{}(y_{k}))+\gamma\sum_{y_{k+1}\in Y}P^{\pi^{*}}(y_{k+1}\|y_{k})TV^{n}(Y^{0}_{y_{k+1}})\right]$
		$\displaystyle\overset{\autoref{lemma:secondHalf}}{\leq}\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[TV(\tilde{\pi}(y_{k}),\pi^{*}(y_{k}))\right.$
		$\displaystyle\qquad\left.+\gamma\left(\frac{2}{1-\gamma}TV(\tilde{\pi}(y_{k}),\pi^{}(y_{k}))+\frac{1+\gamma}{1-\gamma}W_{1}(d^{})\left(P^{\pi^{}}(\cdot\|\tilde{x}_{y_{k}}),P^{\pi^{}}(\cdot\|y_{k})\right)\right)\right]$
		$\displaystyle=\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[\frac{1+\gamma}{1-\gamma}\left(TV(\pi^{}(\tilde{x}_{y_{k}}),\pi^{}(y_{k}))+\gamma W_{1}(d^{})(P^{\pi^{}}(\cdot\|\tilde{x}_{y_{k}}),P^{\pi^{*}}(\cdot\|y_{k}))\right)\right]$
		$\displaystyle\leq\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\frac{1+\gamma}{1-\gamma}d^{*}(\tilde{x}_{y_{k}},y_{k})$

因此，通过归纳，对于所有 $n$ 可以得出：

TV^{n}(Y^{0}_{y})\leq\frac{1+\gamma}{1-\gamma}d^{*}(\tilde{x}_{y},y),

这就完成了证明。 ∎

附录 B 双向模拟指标

符号。我们使用 2 节中定义的符号。

双向模拟指标（Givan等人，2003；Ferns等人，2011）定义了伪度量 $d_{\sim}:{\mathcal{S}}\times{\mathcal{S}}\rightarrow{\mathbb{R}}$ ，其中 $d_{\sim}(x,y)$ 是根据即时奖励和奖励之间的距离来定义的。下一个状态分布。定义 ${\mathcal{F}}^{e}_{\sim}:{\mathbb{M}}\rightarrow{\mathbb{M}}$ 为

\displaystyle{\mathcal{F}}^{e}_{\sim}(d)(x,y)=\max_{a\in{\mathcal{A}}}|R(x,a)-R(y,a)|+\gamma{\mathcal{W}}_{1}(d)\left(P^{a}(\cdot\,|\,x),P^{a}(\cdot\,|\,y)\right)

(B.1)

那么， ${\mathcal{F}}^{e}_{\sim}$ 有一个唯一的固定点 $d_{\sim}$ ，它是互模拟度量。 ${\mathcal{F}}^{e}_{\sim}$ 使用 1-Wasserstein 度量 ${\mathcal{W}}_{1}:{\mathbb{M}}\rightarrow{\mathbb{M}}_{p}$ 。伪测量 $d$ 下的 1-Wasserstein 距离 ${\mathcal{W}}_{1}(d)$ 可以使用对偶线性程序计算：

\max_{{\mathbf{u}},{\mathbf{v}}}\sum_{x\in{\mathcal{X}}}P(x)u_{x}-\sum_{y\in{\mathcal{Y}}}P(y)v_{y}\quad\mathrm{subject\ to\ }\forall x\in{\mathcal{X}},y\in{\mathcal{Y}}\quad u_{x}-v_{y}\leq d(x,y)

由于我们只对计算 ${\mathcal{X}}$ 和 ${\mathcal{Y}}$ 中的状态之间的耦合感兴趣，因此上述公式假设 $P_{\mathcal{X}}(y)=0$ 对于所有 $y\in{\mathcal{Y}}$ 和所有 $x\in{\mathcal{X}}$ 的 $P_{\mathcal{Y}}(x)=0$ 。 $d_{\sim}$ 的计算成本很高，并且需要状态的表格表示，这对于大型状态空间来说是不切实际的。在政策互模拟（Castro，2020）(例如， $\pi^{*}$ -互模拟）与特定行为策略相关，并且比互模拟更容易近似。

附录 C策略相似度度量

C.1 计算 PSM

一般来说，跨 MDP ${\mathcal{M}}_{\mathcal{X}}$ 和 ${\mathcal{M}}_{\mathcal{Y}}$ 的给定 Dist 的 PSM 由下式给出

\displaystyle d^{*}(x,y)=\textsc{Dist}\big{(}\pi^{*}_{{\mathcal{X}}}(x),\pi^{*}_{{\mathcal{Y}}}(y)\big{)}+\gamma{\mathcal{W}}_{1}\big{(}d^{*})(P^{\pi^{*}}_{\mathcal{X}}(\cdot\,|\,x),P^{\pi^{*}}_{\mathcal{Y}}(\cdot\,|\,y)\big{)}.

(C.1)

由于我们的主要重点是展示 PSM 在泛化方面的实用性，因此我们仅使用可以使用动态编程计算 PSM 的环境。使用与 Castro (2020) 类似的观察，我们断言 $d^{*}$ 的递归在确定性环境中采用以下形式：

\displaystyle d^{*}(x,y)=\textsc{Dist}\big{(}\pi^{*}_{{\mathcal{X}}}(x),\pi^{*}_{{\mathcal{Y}}}(y)\big{)}+\gamma d^{*}(x^{\prime},y^{\prime}\big{)}.

(C.2)

其中 $x^{\prime}=P^{\pi^{*}}_{\mathcal{X}}(x)$ 、 $y^{\prime}=P^{\pi^{*}}_{\mathcal{Y}}(y)$ 分别是从状态 $x,\ y$ 采取操作 $\pi^{*}_{{\mathcal{X}}}(x)$ 、 $\pi^{*}_{{\mathcal{X}}}(y)$ 的下一个状态。此外，我们假设 ${\mathcal{M}}_{\mathcal{X}}$ 和 ${\mathcal{M}}_{\mathcal{Y}}$ 的终端状态之间的 Dist 为零。请注意，方程C.2的形式与Q学习中的更新规则非常相似，因此可以使用近似动态规划对样本进行有效计算。给定最佳轨迹 $\tau^{*}_{\mathcal{X}}=\{x_{t}\}_{t=1}^{N}$ 和 $\tau^{*}_{\mathcal{Y}}=\{y_{t}\}_{t=1}^{N}$ ，其中 $x_{t+1}=P^{\pi^{*}}_{\mathcal{X}}(x_{t})$ 和 $y_{t+1}=P^{\pi^{*}}_{\mathcal{Y}}(y_{t})$ ，方程C.2可以使用精确的动态规划来求解；我们在I.1节中提供了伪代码。

还有其他方法可以近似互模拟度量中的 Wasserstein 距离（例如 Ferns 等人，2006；2011；Castro，2020；Zhang 等人，2021）。也就是说，随机环境的近似互模拟（或 PSM）仍然是一个令人兴奋的研究方向（Castro，2020）。研究 PSM 中长期行为差异的其他距离度量对于未来的工作也很有趣。

C.2 PSM 与数据增强和双向模拟的连接

连接到互模拟。尽管互模拟指标具有吸引人的特性，例如边界值函数差异(例如，（Ferns & Precup，2014）)，但它们依赖于奖励信息，可能无法提供有意义的概念某些环境下的行为相似性。命题C.1意味着PSM下相似的国家将具有相似的最优政策，但它们之间可以具有任意大的互模拟距离。

Proposition C.1.

存在环境 $M_{\mathcal{X}}$ 和 $M_{\mathcal{Y}}$ ，使得 $\forall(x,y)\in{\mathcal{L}}$ 其中 ${\mathcal{L}}=\{(x,y)\ |x\in{\mathcal{X}},\ y\in{\mathcal{Y}},\ d^{*}(x,y)=0\}$ 、 $d^{*}_{\sim}(x,y)=\frac{|R_{\mathrm{max}}-R_{\mathrm{min}}|}{1-\gamma}-\epsilon\$ 对于任何给定的 $\epsilon>0$ .

例如，考虑图 2 中两个语义等效的环境，其中 $\pi^{*}_{\mathcal{X}}(x_{0})=\pi^{*}_{\mathcal{Y}}(y_{0})=a_{0}$ 和 $\pi^{*}_{\mathcal{X}}(x_{1})=\pi^{*}_{\mathcal{Y}}(y_{1})=a_{1}$ 分别具有不同的奖励 $r_{x},r_{y}$ 。每当 $r_{y}>(1+1/\gamma)\ r_{x}$ 时，互模拟指标都会错误地暗示 $x_{0}$ 在行为上与 $y_{1}$ 比 $y_{0}$ 更相似。

对于图 2 中所示的 MDP，为了确定哪个 $y$ 状态在行为上等同于 $x_{0}$ ，我们查看由互模拟度量 $d_{\sim}$ 和 $\pi^{*}$ -互模拟指标 $d^{*}_{\sim}$ ：

	$\displaystyle d_{\sim}(x_{0},y_{0})$	$\displaystyle=d^{*}_{\sim}(x_{0},y_{0})=(1+\gamma)\|r_{y}-r_{x}\|$
	$\displaystyle d_{\sim}(x_{0},y_{1})$	$\displaystyle=\mathrm{max}\left((1+\gamma)\ r_{x},r_{y}\right),\ d^{*}_{\sim}(x_{0},y_{1})=\|r_{y}-r_{x}\|+\gamma r_{x}$

因此， $r_{y}>(1+1/\gamma)\ r_{x}$ 意味着 $d_{\sim}(x_{0},y_{1})<d_{\sim}(x_{0},y_{0})$ 以及 $d^{*}_{\sim}(x_{0},y_{1})<d^{*}_{\sim}(x_{0},y_{0})$ 。

连接到数据增强。数据增强通常假设可以访问最优不变变换，例如基于图像的基准中的随机裁剪或翻转（Laskin 等人，2020a；Kostrikov 等人，2020）。然而，对于某些 RL 任务，这种增强可能会错误地将状态与不同的最佳行为混淆，并损害泛化能力。例如，如果在具有左右动作的目标达成任务中翻转图像观察，则最佳动作也将翻转为采取左侧动作而不是右侧动作，反之亦然。命题C.2指出PSM可以精确地量化这种增强的不变性。

Proposition C.2.

对于 MDP $M_{\mathcal{X}}$ 及其数据增强 $\psi$ 的 Transformer 版本 $M_{\psi({\mathcal{X}})}$ ， $d^{*}(x,\psi(x))$ 表示 $\psi$ 对于任意 $x\in{\mathcal{X}}$ 的最优不变性。

C.3 具有近似最优策略的 PSM

任意策略的广义策略相似性度量。对于给定的 Dist，我们定义一个广义 PSM $d:({\mathcal{S}}\times\Pi)\times({\mathcal{S}}\times\Pi)\rightarrow\mathbb{R}$ ，其中 $\Pi$ 是 ${\mathcal{S}}$ 上所有策略的集合。 $d$ 满足递归方程：

d\big{(}(x,\pi_{1}),(y,\pi_{2})\big{)}=\textsc{Dist}\big{(}\pi_{1}(x),\pi_{2}(y)\big{)}+\gamma{\mathcal{W}}_{1}(d)\big{(}P^{\pi_{1}}(\cdot\,|\,x),P^{\pi_{2}}(\cdot\,|\,y)\big{)}.

(C.3)

由于假定 Dist 是伪几何，而 ${\mathcal{W}}_{1}$ 是概率度量，这意味着 $d$ 是伪几何，因为 (1) $d$ 是非负值、即 $d\big{(}(x,\pi_{1}),(y,\pi_{2})\big{)}\geq 0$ , (2) $d$ 是对称的，即 $d\big{(}(x,\pi_{1}),(y,\pi_{2})\big{)}=d\big{(}(x,\pi_{1}),(y,\pi_{2})\big{)}$ , 并且 $d$ 满足三角形不等式，即 $d\big{(}(x,\pi_{1}),(y,\pi_{2})\big{)}<d\big{(}(x,\pi_{1}),(z,\pi_{3})\big{)}+d\big{(}(z,\pi_{3}),(y,\pi_{2})\big{)}$ .

使用广义 PSM 的概念，我们表明使用次优策略导致的 PSM 近似误差受到策略次优性的限制。因此，对于次优性降低的策略，PSM 近似变得更加准确，从而提高 PSE。

Proposition C.3。

[PSM 中的近似误差] 令 $\hat{d}:{\mathcal{S}}\times{\mathcal{S}}\rightarrow\mathbb{R}$ 为使用在 ${\mathcal{S}}$ 上定义的次优策略 $\hat{\pi}$ 计算的近似 PSM，即 $\hat{d}(x,y)=\textsc{Dist}\big{(}\hat{\pi}(x),\hat{\pi}(y)\big{)}+\gamma{\mathcal{W}}_{1}(\hat{d})\big{(}P^{\hat{\pi}}(\cdot\,|\,x),P^{\hat{\pi}}(\cdot\,|\,y)\big{)}$ 。我们有：

|d^{*}(x,y)-\hat{d}(x,y)|\ <\underbrace{d\big{(}(x,\pi^{*}),(x,\hat{\pi})\big{)}}_{\begin{subarray}{c}\text{Long-term suboptimality}\\ \text{difference\ from \ x}\end{subarray}}+\underbrace{d\big{(}(y,\hat{\pi}),(y,\pi^{*})\big{)}}_{\begin{subarray}{c}\text{Long-term suboptimality}\\ \text{difference\ from \ y}\end{subarray}}.

证明。

PSM $d^{*}$ 和近似 PSM $\hat{d}$ 是广义 PSM（公式C.3）的实例化，两个输入策略分别为 $\pi^{*}$ 和 $\hat{\pi}$ 。

	$\displaystyle d^{}(x,y)=d\left((x,\pi^{}),(y,\pi^{*})\right)$	$\displaystyle<\ d\big{(}(x,\pi^{}),(x,\hat{\pi})\big{)}+d\big{(}(x,\hat{\pi}),(y,\pi^{})\big{)}$
		$\displaystyle<\ d\big{(}(x,\pi^{}),(x,\hat{\pi})\big{)}+d\big{(}(y,\hat{\pi}),(y,\pi^{})\big{)}+d\big{(}(x,\hat{\pi}),(y,\hat{\pi})\big{)}$
	$\displaystyle d^{*}(x,y)-\hat{d}(x,y)$	$\displaystyle<d\big{(}(x,\pi^{}),(x,\hat{\pi})\big{)}+d\big{(}(y,\hat{\pi}),(y,\pi^{})\big{)}\quad\because\hat{d}(x,y)=d\big{(}(x,\hat{\pi}),(y,\hat{\pi})\big{)}$
	$\displaystyle\text{Similarly},\ \hat{d}(x,y)-d^{*}(x,y)$	$\displaystyle<d\big{(}(x,\pi^{}),(x,\hat{\pi})\big{)}+d\big{(}(y,\hat{\pi}),(y,\pi^{})\big{)}$

∎

附录 D L2 度量嵌入

学习度量嵌入的另一个常见选择(Zhang 等人, 2021) 是使用平方损失(即 $l2$ -loss）来匹配一对状态的表示之间的欧几里得距离与这些状态之间的度量距离。具体来说，对于给定的 $d^{*}$ 和表示 $f_{\theta}$ ，损失 ${\mathcal{L}}(\theta)=\mathbb{E}_{s_{i},s_{j}}[(\|f_{\theta}(s_{i})-f_{\theta}(s_{j})\|_{2}-d^{*}(s_{i},s_{j}))^{2}]$ 被最小化。然而，它可能限制性太强，无法匹配精确的度量距离，我们通过将 $l2$ 度量嵌入与 CME 进行比较来实证证明（第 5.2 节）。

附录E扩展相关工作

不同任务之间的泛化过去被描述为迁移学习。过去，大多数迁移学习方法依赖于固定表示并解决不同的问题表述（例如，假设共享状态空间）。 Taylor & Stone (2009) 对表征学习在强化学习中变得如此流行之前的技术进行了全面的调查。最近，在不同但相关的任务中表现良好的问题开始被视为泛化问题；社区强调深度强化学习代理往往会过度适应他们所训练的环境（Cobbe 等人，2019；Witty 等人，2018；Farebrother 等人，2018；Juliani 等人，2019；Kostrikov 等人， 2020；宋等人，2019；Justesen 等人，2018；。

先前的泛化方法通常改编自监督学习，包括正则化（Cobbe等人，2019；Farebrother等人，2018）、随机性（Zhang等人，2018c）、噪声注入（Igl等人，2019；Zhang等人，2018a），更多样化的训练条件（Rajeswaran等人，2017；Witty等人，2018）和自注意力架构（唐等人，2020）。相比之下，PSE 利用行为相似性（第 3 节），这是与 RL 的顺序方面相关的属性。

元学习也与泛化有关。元学习方法试图找到一种需要少量梯度步骤即可在新任务上取得良好性能的参数化（Finn等人，2017）。在此背景下，各种能够进行零样本泛化的元学习方法被提出（Li等人，2018；Agarwal等人，2019；Balaji等人，2018）。这些方法通常包括最小化代理所在环境的损失，同时添加辅助损失以确保代理可用的其他（验证）环境的改进。然而，Tachet des Combes 等人 (2018) 已经表明，元学习方法在跳跃任务中失败了，我们也根据经验观察到这一点。其他人也报告了类似的发现（例如，Farebrother 等人，2018）。

还有其他几种方法可以解决强化学习中的零样本泛化问题，但它们通常依赖于特定领域的信息。一些例子包括关于环境中实体之间的等价性的知识（Oh等人，2017）以及关于代理控制下的内容（Ye等人，2020）。基于因果关系的方法是解决泛化问题的另一种方法，但当前的解决方案无法扩展到高维观察空间（例如，Killian 等人，2017；Perez 等人，2020；Zhang 等人，2020）.

附录F像素跳跃任务

详细任务描述。跳跃任务包括代理尝试跳过地板上的障碍物。环境是确定性的，代理在每个时间步都会观察到 $+1$ 的奖励。如果智能体成功到达屏幕最右侧，它会收到 $+100$ 的额外奖励；如果智能体接触到障碍物，则情节终止。观察空间是环境的像素表示，如图1所示。代理可以执行两个操作：右和跳跃。 jump 动作使代理垂直和水平向右移动。

架构。用于跳跃任务实验的神经网络改编自 Nature DQN 架构。具体来说，该网络由 3 个大小分别为 32、64、64 的卷积层组成，滤波器大小为 $8\times 8$ 、 $4\times 4$ 和 $3\times 3$ ，步幅为 4、2 和 1 ，分别。卷积网络的输出被馈送到大小为 256 的单个全连接层，然后是“ReLU”非线性层。最后，这个 FC 层输出被输入到一个线性层，该线性层计算输出 jump 和 right 动作概率的策略。

对比嵌入。对于我们所有的实验，我们使用具有 $k=64$ 单元的单个 ReLU 层进行非线性投影以获得嵌入 $z_{\theta}$ （图 3)。我们使用跳跃任务网络中的倒数第二层来计算嵌入。表F.2中报告了超参数。

总损失。对于跳跃世界，总损失由 $\mathscr{L}_{\textrm{IL}}+\alpha\mathscr{L}_{\mathrm{CME}}$ 给出，其中 $\mathscr{L}_{\textrm{IL}}$ 是模仿学习损失， $\mathscr{L}_{\mathrm{CME}}$ 是学习 PSE 的辅助损失，系数为 $\alpha$ 。

F.1 颜色跳跃任务

Method	Red (%)	Green (%)
RandConv	6.2	(0.4)	99.6	(0.2)
Dropout and $l_{2}$ reg.	19.5	(0.2)	100.0	(0.0)
RandConv + PSEs	29.8	(1.3)	99.6	(0.2)
PSEs	37.9	(1.9)	100.0	(0.0)

F.2 超参数

对于超参数选择，我们在包含“宽”网格中 54 个未见过的任务的验证集上评估所有代理，并选择具有最佳验证性能的参数。验证集（图F.7)是通过使用地板高度相差1或障碍物位置相差1的环境附近的环境来选择的。

表 F.3：表 1 中报告结果的最佳超参数。这些超参数是使用“宽”网格通过最大化包含 56 个未见任务的验证集的最终性能来选择的。表 1 中的所有网格配置都使用这些超参数。

Hyperparameter	Dropout and $\ell_{2}$ -reg.	PSEs	RandConv	RandConv + PSEs
Learning Rate	$4\text{\times}{10}^{-3}$	$3.2\text{\times}{10}^{-3}$	$7\text{\times}{10}^{-3}$	$2.6\text{\times}{10}^{-3}$
$\ell_{2}$ -reg. coefficient	$4.3\text{\times}{10}^{-4}$	$1\text{\times}{10}^{-5}$	–	–
Dropout coefficient	$3\text{\times}{10}^{-1}$	–	–	–
Contrastive Temperature ( $1/\lambda$ )	–	$1.0$	–	$5\text{\times}{10}^{-1}$
Auxiliary loss coefficient ( $\alpha$ )	–	$1\text{\times}{10}^{1}$	–	$5.0$

表 F.4：图5.4中报告结果的最佳超参数。这些超参数是使用“宽”网格通过最大化包含 56 个未见过的任务的验证集的最终性能来选择的。

Hyperparameter	Dropout and $\ell_{2}$ -reg.	PSEs	RandConv	RandConv + PSEs
Learning Rate	$4\text{\times}{10}^{-3}$	$6\text{\times}{10}^{-3}$	$5\text{\times}{10}^{-3}$	$2.6\text{\times}{10}^{-3}$
$\ell_{2}$ -reg. coefficient	$4.3\text{\times}{10}^{-4}$	$7\text{\times}{10}^{-5}$	–	–
Dropout coefficient	$3\text{\times}{10}^{-1}$	–	–	–
Contrastive Temperature ( $1/\lambda$ )	–	$5\text{\times}{10}^{-1}$	–	$5\text{\times}{10}^{-1}$
Auxiliary loss coefficient ( $\alpha$ )	–	$5.0$	–	$5.0$

表 F.5：表 2 中报告消融结果的最佳超参数。这些超参数是使用“宽”网格通过最大化包含 56 个未见任务的验证集的最终性能来选择的。

Hyperparameter	PSM		$\pi^{*}$ -bisimulation
Hyperparameter	CMEs	$\ell_{2}$ -embeddings	CMEs	$\ell_{2}$ -embeddings
Learning Rate	$4\text{\times}{10}^{-3}$	$5\text{\times}{10}^{-4}$	$4.7\text{\times}{10}^{-4}$	$1\text{\times}{10}^{-4}$
Contrastive Temperature ( $1/\lambda$ )	$1.0$	–	$5\text{\times}{10}^{-1}$	–
Auxiliary loss coefficient ( $\alpha$ )	$5.0$	$1\text{\times}{10}^{-1}$	$1\text{\times}{10}^{-1}$	$1\text{\times}{10}^{-6}$

请注意，表F.3和表F.4对应于两种不同的任务：一种使用带有白色障碍物的标准跳跃任务，而另一种使用带有白色障碍物的彩色障碍物。最佳政策取决于颜色。为了公平比较，我们使用贝叶斯优化（Golovin等人，2017）调整所有方法的超参数。我们使用这些调整的超参数中的最佳参数以及表 F.3 中的参数，从而导致 PSE 和 RandConv 的参数不同。使用表 F.3 中的跳跃任务超参数（而不是表 F.4 中的超参数）评估 PSE 会导致跳跃任务小幅下降 (-4%)颜色（第 5.4 节）。尽管如此，PSE 仍然优于 5.4 节中的其他方法。

附录 GLQR：其他详细信息

表 G.1： LQR 泛化性能：LQR 成本的绝对误差，w.r.t。预言机求解器（可以访问真实状态），在

N=2

环境中使用

n_{d}

干扰器训练的各种方法。报告的平均值和标准差涉及 100 种不同的种子。误差越低越好。

Method	Number of Distractors ( $n_{d}$ )
Method	500	1000	10000
Overparametrization (Song et al., 2019)	25.8 (1.5)	24.9 (1.1)	24.9 (0.4)
IPO (Sonar et al., 2020) (IRM + Policy opt.)	32.6 (5.0)	27.3 (2.8)	24.8 (0.4)
Weight Sparsity ( $\ell_{1}$ -reg.)	28.2 (0.0)	28.2 (0.0)	28.2 (0.0)
PSM (State aggregation)	0.03 (0.0)	0.03 (0.0)	0.02 (0.0)

具有线性动力学和二次成本的最优控制（通常称为 LQR）已越来越多地用作深度强化学习问题的简化替代方法（Recht，2019）。继宋等人（2019）； Sonar 等人 (2020)，我们分析了以下 LQR 问题来评估泛化能力：

\begin{array}[]{ll}\mbox{minimize}&E_{s_{0}\sim{\mathcal{D}}}\left[\frac{1}{2}\sum_{t=0}^{\infty}s_{t}^{T}Qs_{t}+a_{t}^{T}Ra_{t}\right],\\ \mbox{subject to}&s_{t+1}=As_{t}+Ba_{t},o_{t}=\begin{bmatrix}0.1\ W_{c}\\ W_{d}\end{bmatrix}s_{t},a_{t}=Ko_{t},\end{array}

(G.1)

其中 ${\mathcal{D}}$ 是初始状态分布， $s_{t}\in{\mathbb{R}}^{n_{s}}$ 是时间 t 时的（隐藏）真实状态， $a_{t}\in{\mathbb{R}}^{n_{a}}$ 是控制操作， $K$ 是线性策略矩阵。代理接收输入观察 $o_{t}$ ，它是状态 $s_{t}$ 的线性变换。 $W_{c}$ 和 $W_{d}$ 是半正交矩阵，可防止预测最佳动作时的信息损失。一个环境对应于 $W_{d}$ 的特定选择；所有其他系统参数 ( $A,B,Q,R,W_{c}$ ) 都是跨环境共享且代理未知的固定矩阵。代理使用基于方程G.1的 $N$ 训练环境来学习策略矩阵 $K$ 。在测试时，学习的策略在未见过的 $W_{d}$ 环境中进行评估。

此设置中的泛化挑战是忽略干扰项： $W_{c}s_{t}\in{\mathbb{R}}^{n_{s}}$ 表示跨环境不变的状态特征，而 $W_{d}s_{t}\in\mathbb{R}^{n_{d}}$ 是大小为 $n_{s},n_{d}$ 的高维干扰项，分别使得 $n_{s}<<n_{d}$ 。此外，泛化到所有环境的策略矩阵是 $K_{\star}=\begin{bmatrix}10\ W_{c}{P_{\star}}^{T}\\ 0\end{bmatrix}^{T}$ ，其中 $P_{\star}$ 对应于可以访问状态 $s_{t}$ 的最优LQR解决方案。然而，对于具有干扰项 $W_{d}$ 的单一环境，存在多种解决方案，例如 ${K_{\star}}^{\prime}=\begin{bmatrix}10\alpha\ W_{c}{P_{\star}}^{T}\\ (1-\alpha)\ W_{d}{P_{\star}}^{T}\end{bmatrix}^{T}\quad\forall\alpha\in[0,1]$ 。请注意，干扰因素比 $o_{t}$ 中的不变特征大一个数量级，并且对它们的依赖可能会导致代理对具有看不见的干扰因素的输入做出不稳定的行为，从而导致泛化能力较差。

我们使用具有两个线性层的过参数化策略，即 $K=K_{1}K_{2}$ ，其中 $K_{1}(o)$ 是观察 $o$ 的学习表示。我们使用梯度下降来学习 $K$ ，使用 2 个具有不同数量干扰因素的训练环境的组合成本。我们通过使用平方损失来匹配观察对的表示，从而聚合具有接近零 PSM 的观察对。我们使用 Sonar 等人 (2020) 发布的开源代码进行实验。

表 G.2： LQR 超参数概述。

Parameter	Setting
A	Orthogonal matrix, scaled 0.8
B	$I_{20\times 20}$
$n_{x}$	20
$n_{a}$	20
Q	$I_{20\times 20}$
R	$I_{20\times 20}$
$K_{i}\,\forall i$	Orthogonal Initialization, scaled 0.001
$W_{d}$	Random semi-orthogonal matrix

IPO 训练对干扰因素的依赖也凸显了 IRM 的局限性：如果模型可以实现零错误的解决方案，那么无论其泛化能力如何，任何此类解决方案都可以被 IRM 接受 - 这是过度参数化深度神经网络的常见场景（金等人，2020）。

G.1 PSM聚合的接近最优

Conjecture 1.

假设策略相似性度量 (PSM) 的状态聚合误差为零，则使用梯度下降学习的策略矩阵 $K$ 与干扰项无关。

证明。

对于 LQR 域 $x, y$ ，观察对 ( ${o_{t}}^{x}$ 、 ${o_{t}}^{y}$ ) 的 PSM 为零，当且仅当底层状态 $s_{t}$ 与对中的观察结果。这是事实，因为 (a) 两个域具有相同的转换动态，如方程 G.1 所指定，并且 (b) 最优策略是确定性的，并且完全由当前状态 $s_{t}$ 随时 $t$ 。

假设 ${o_{t}}^{x}=\begin{bmatrix}0.1\ W_{c}\\ W_{d^{x}}\end{bmatrix}s_{t}$ 和 ${o_{t}}^{y}=\begin{bmatrix}0.1\ W_{c}\\ W_{d^{y}}\end{bmatrix}s_{t}$ 分别为干扰半正交矩阵 $W_{d^{\mathcal{X}}}$ 和 $W_{d^{\mathcal{Y}}}$ 。此外，分别由 $K_{1}({o_{t}}^{x})$ 和 $K_{1}({o_{t}}^{y})$ 给出表示。假设 $K_{1}=\begin{bmatrix}K_{s}&K_{d}\\ \end{bmatrix}$ 其中 $K_{s}\in{\mathbb{R}}^{h\times n_{s}}$ 和 $K_{d}\in{\mathbb{R}}^{h\times n_{d}}$ 和 $K_{1}\in{\mathbb{R}}^{h\times(n_{s}+n_{d})}$ 。

平方损失的零状态聚合误差意味着对于对应于 $s_{t}$ 的对 ( ${o_{t}}^{x}$ , ${o_{t}}^{y}$ )，

K_{1}({o_{t}}^{x}-{o_{t}}^{y})=K_{1}\begin{bmatrix}0\\ W_{d^{x}}-W_{d^{y}}\end{bmatrix}s_{t}=0\implies K_{d}(W_{d^{x}}-W_{d^{y}})s_{t}=0

(G.2)

由于方程 G.2 对于无限视野 LQR 中最优策略访问的所有状态都成立，因此可以得出 $K_{d}(W_{d^{x}}-W_{d^{y}})=0$ 。

此外，众所周知，由于隐式正则化，梯度下降往往会找到低秩解（Arora等人，2019；Gunasekar等人，2017）,例如，通过足够小的步长和足够接近原点的初始化，矩阵分解的梯度下降收敛到 2 层线性网络的最小核范数解（Gunasekar 等人，2017）。基于此，我们推测 $K_{d}=0$ ，我们在实践中发现这是正确的。 ∎

附录 H 分散控制套件

我们使用与 Kostrikov 等人 (2020) 相同的设置； Stone 等人 (2021) 了解实施细节和协议。为了完整起见，我们在下面描述详细信息。

动态背景干扰。在 Distracting Control Suite (Stone 等人, 2021) 中，随机背景从 DAVIS 2017 数据集 (Pont-Tuset 等人, 2017) 的场景投影到现场。为了使这些背景对所有任务和视图都可见，地板网格是半透明的，透明度系数为 0.3。我们选取 DAVIS 2017 训练集中的前 2 个视频，并从每集开头的场景和帧中随机采样。在动态设置中，视频向前或向后播放，直到到达最后一帧或第一帧，此时视频将向后播放。这样，背景运动总是平滑且没有“剪切”。

软演员评论家。 Soft Actor-Critic (SAC) (Haarnoja 等人, 2018) 学习状态-动作值函数 $Q_{\theta}$ 、随机策略 $\pi_{\theta}$ 和温度 $\alpha$ 通过优化 $\gamma$ 折扣最大熵目标来找到 MDP $({\mathcal{S}},{\mathcal{A}},p,r,\gamma)$ 的最优策略。 $\theta$ 一般用于表示模型各部分通过训练更新的参数。参与者策略 $\pi_{\theta}(a_{t}|s_{t})$ 是一个参数 $\mathrm{tanh}$ -高斯，给定 $s_{t}$ 样本 $a_{t}=\mathrm{tanh}(\mu_{\theta}(s_{t})+\sigma_{\theta}(s_{t})\epsilon)$ ，其中 $\epsilon\sim{\mathcal{N}}(0,1)$ 和 $\mu_{\theta}$ 和 $\sigma_{\theta}$ 是参数平均值和标准差。

策略评估步骤通过优化软贝尔曼残差的单步来学习批评家 $Q_{\theta}(s_{t},a_{t})$ 网络

	$\displaystyle J_{Q}({\mathcal{D}})$	$\displaystyle=E_{\begin{subarray}{c}(s_{t},a_{t},s^{\prime}_{t})\sim{\mathcal{D}}\\ a_{t}^{\prime}\sim\pi(\cdot\|s_{t}^{\prime})\end{subarray}}[(Q_{\theta}(s_{t},a_{t})-y_{t})^{2}]$
	$\displaystyle y_{t}$	$\displaystyle=r(s_{t},a_{t})+\gamma[Q_{\theta^{\prime}}(s^{\prime}_{t},a^{\prime}_{t})-\alpha\log\pi_{\theta}(a^{\prime}_{t}\|s^{\prime}_{t})],$

其中 ${\mathcal{D}}$ 是转换的重播缓冲区， $\theta^{\prime}$ 是权重的指数移动平均值。 SAC 使用截断双 Q 学习，为了简单起见，我们省略了它，但在实践中使用了它。

然后，策略改进步骤通过优化目标来适应参与者策略 $\pi_{\theta}(a_{t}|s_{t})$ 网络

\displaystyle J_{\pi}({\mathcal{D}})

\displaystyle=E_{s_{t}\sim{\mathcal{D}}}[D_{\mathrm{KL}}(\pi_{\theta}(\cdot|s_{t})||\exp\{\frac{1}{\alpha}Q_{\theta}(s_{t},\cdot)\})].

最后，通过损失得知温度 $\alpha$

\displaystyle J_{\alpha}({\mathcal{D}})

\displaystyle=E_{\begin{subarray}{c}s_{t}\sim{\mathcal{D}}\\ a_{t}\sim\pi_{\theta}(\cdot|s_{t})\end{subarray}}[-\alpha\log\pi_{\theta}(a_{t}|s_{t})-\alpha\bar{\mathcal{H}}],

其中 $\bar{\mathcal{H}}\in\mathbb{R}$ 是策略尝试匹配的目标熵超参数，在实践中通常设置为 $\bar{{\mathcal{H}}}=-|{\mathcal{A}}|$ 。

H.1演员和评论家网络

遵循 Kostrikov 等人 (2020)，我们对批评者使用裁剪双 Q 学习，其中每个 $Q$ 函数都被参数化为具有 ReLU 的 3 层 MLP 除最后一层之外的每一层之后的激活。 Actor 也是一个带有 ReLU 的 3 层 MLP，输出表示策略的对角高斯的均值和协方差。评论家和演员的隐藏维度均设置为 $1024$ 。

H.2编码器网络

我们采用 Kostrikov 等人 (2020) 的编码器架构。该编码器由四个带有 $3\times 3$ 内核和 $32$ 通道的卷积层组成。 ReLU 激活在每个卷积层之后应用。除了第一个卷积层具有步幅 $2$ 之外，我们在任何地方都使用步幅到 $1$ 。卷积网络的输出被输入到由 LayerNorm 标准化的单个全连接层中。最后，我们将 tanh 非线性应用于全连接层的 $50$ 维输出。我们使用正交初始化来初始化全连接层和卷积层的权重矩阵，并将偏差设置为零。演员网络和评论家网络都有单独的编码器，尽管我们共享它们之间的转换层的权重。此外，只有批判优化器可以更新这些权重（即，我们会在演员的梯度传播到共享卷积层之前将其停止）。

H.3对比度量嵌入损失

对于我们所有的实验，我们使用具有 $k=256$ 单元的单个 ReLU 层进行非线性投影以获得嵌入 $z_{\theta}$ （图 3)。我们使用参与者网络中的倒数第二层来计算嵌入。为了选择超参数，我们使用“Ball In Cup Catch”作为验证环境，使用 3 个温度 $[0.1,0.01,1.0]$ 和 3 个辅助 $\mathscr{L}_{\mathrm{CME}}$ 损失系数 $[1,3,10]$ 。所有其他超参数与之前的工作相同（参见表H.2)。

我们使用训练 DrQ 代理 500K 环境步骤后获得的策略来近似最佳策略。由于该近似策略中的给定动作序列在不同的训练环境中具有相同的性能，因此我们通过动态编程（请参阅第 I.1 节伪代码）计算跨训练环境的 PSM，使用这样的动作序列。

总损失。总损失由 $\mathscr{L}_{\textrm{RL}}+\alpha\mathscr{L}_{\mathrm{CME}}$ 给出，其中 $\mathscr{L}_{\textrm{RL}}$ 是强化学习损失，结合了 $J_{\pi}({\mathcal{D}})$ 、 $J_{\pi}({\mathcal{D}})$ 和 $J_{\alpha}({\mathcal{D}})$ ），而 $\mathscr{L}_{\mathrm{CME}}$ 是学习 PSE 的辅助损失，系数为 $\alpha$ 。

H.4培训和评估设置

为了进行评估，我们使用 DAVIS 2017 验证数据集中的前 30 个视频（参见图 H.1)。每个检查点都是通过计算未见过的环境中超过 100 个情节的平均情节返回来评估的。所有实验均使用每个任务的五个随机种子进行，用于计算其评估的平均值和标准偏差/误差。我们使用 Kostrikov 等人 (2020) 规定的 $K=2,M=2$ 作为 DrQ。继 Kostrikov 等人 (2020) 和 Stone 等人 (2021) 之后，我们为每个任务使用不同的动作重复超参数，我们在表 H.3。我们将观察输入构建为 $3$ 连续帧 (Kostrikov 等人，2020) 的堆栈，其中每个帧都是大小为 $84\times 84$ 的 RGB 渲染来自第 $0$ 个摄像机。然后，我们将每个像素除以 $255$ ，将其缩小到 $[0,1]$ 范围。对于数据增强，我们通过在连续帧中使用相同的裁剪增强来保持时间一致性。

表 H.1：表 3 中报告结果的 PSE 辅助损失的最佳超参数。

Hyperparameter	Setting
Contrastive temperature ( $1/\lambda$ )	0.1
Auxiliary loss coefficient ( $\alpha$ )	1.0
$\Gamma$ -scale parameter ( $\beta$ )	0.1
Batch Size ( $\mathscr{L}_{\mathrm{CME}}$ )	128
$\|\tau_{\mathcal{X}}^{*}\|$	1000 // Action Repeat

表 H.2：超参数取自 Distracting Control Suite 实验中的 Kostrikov 等人 (2020)。

Parameter	Setting
Replay buffer capacity	$100,000$
Seed steps	$1,000$
Batch size (DrQ)	$512$
Discount $\gamma$	$0.99$
Optimizer	Adam
Learning rate	$10^{-3}$
Critic target update frequency	$2$
Critic Q-function soft-update rate $\tau$	$0.01$
Actor update frequency	$2$
Actor log stddev bounds	$[-10,2]$
Init temperature	$0.1$

表 H.3：用于 Distracting Control Suite 基准测试中每个任务的动作重复超参数。

Task name	Action repeat
Cartpole Swingup	$8$
Reacher Easy	$4$
Cheetah Run	$4$
Finger Spin	$2$
Ball In Cup Catch	$4$
Walker Walk	$2$

H.5泛化曲线

附录一伪代码

I.1 计算 PSM 的动态规划

⬇

1def metric_fixed_point(cost_matrix, gamma=0.99, eps=1e-7):

2 """DP for calculating PSM in environments with deterministic dynamics.

4 Args:

5 cost_matrix: DIST matrix where entries at index (i, j) is DIST(x_i, y_j)

6 gamma: Metric discount factor.

7 eps: Threshold for stopping the fixed point iteration.

8 """

9 d = np.zeros_like(cost_matrix)

10 def operator(d_cur):

11 d_new = 1 * cost_matrix

12 discounted_d_cur = gamma * d_cur

13 d_new[:-1, :-1] += discounted_d_cur[1:, 1:]

14 d_new[:-1, -1] += discounted_d_cur[1:, -1]

15 d_new[-1, :-1] += discounted_d_cur[-1, 1:]

16 return d_new

18 while True:

19 d_new = operator(d)

20 if np.sum(np.abs(d - d_new)) < eps:

21 break

22 else:

23 d = d_new[:]

24 return d

I.2 对比损失

⬇

1def contrastive_loss(similarity_matrix,

2 metric_values,

3 temperature,

4 beta=1.0):

5 """Contrative Loss with embedding similarity ."""

6 metric_shape = tf.shape(metric_values)

7 ## z_\theta(X): embedding_1 = nn_model.representation(X)

8 ## z_\theta(Y): embedding_2 = nn_model.representation(Y)

9 ## similarity_matrix = cosine_similarity(embedding_1, embedding_2

10 ## metric_values = PSM(X, Y)

11 similarity_matrix /= temperature

12 neg_logits1 = similarity_matrix

14 col_indices = tf.cast(tf.argmin(metric_values, axis=1), dtype=tf.int32)

15 pos_indices1 = tf.stack(

16 (tf.range(metric_shape[0], dtype=tf.int32), col_indices), axis=1)

17 pos_logits1 = tf.gather_nd(similarity_matrix, pos_indices1)

19 metric_values /= beta

20 similarity_measure = tf.exp(-metric_values)

21 pos_weights1 = -tf.gather_nd(metric_values, pos_indices1)

22 pos_logits1 += pos_weights1

23 negative_weights = tf.math.log((1.0 - similarity_measure) + 1e-8)

24 neg_logits1 += tf.tensor_scatter_nd_update(

25 negative_weights, pos_indices1, pos_weights1)

27 neg_logits1 = tf.math.reduce_logsumexp(neg_logits1, axis=1)

28 return tf.reduce_mean(neg_logits1 - pos_logits1) # Equation 4

	$\displaystyle{\mathcal{W}}^{1}(d)(P_{\mathcal{X}},P_{\mathcal{Y}})\leq\\|d-d^{\prime}\\|$	$\displaystyle={\mathcal{W}}^{1}(d-d^{\prime}+d^{\prime})(P_{\mathcal{X}},P_{\mathcal{Y}})\leq\\|d-d^{\prime}\\|$
		$\displaystyle=\min_{\Gamma}\sum_{x\in{\mathcal{X}},\ y\in{\mathcal{Y}}}\Gamma(x,y)\ (d(x,y)-d^{\prime}(x,y)+d^{\prime}(x,y))$
		$\displaystyle\leq\min_{\Gamma}\sum_{x\in{\mathcal{X}},\ y\in{\mathcal{Y}}}\Gamma(x,y)\ (\\|d-d^{\prime}\\|+d^{\prime}(x,y))$
		$\displaystyle=\\|d-d^{\prime}\\|+\min_{\Gamma}\sum_{x\in{\mathcal{X}},\ y\in{\mathcal{Y}}}\Gamma(x,y)\ d^{\prime}(x,y)$
		$\displaystyle=\\|d-d^{\prime}\\|+{\mathcal{W}}^{1}(d^{\prime})(P_{\mathcal{X}},P_{\mathcal{Y}})$

	$\displaystyle\sum_{y_{1}\in Y}\left(P^{\tilde{\pi}}(y_{1}\|y_{0})-P^{\pi^{*}}(y_{1}\|y_{0})\right)TV^{n}(Y^{0}_{y_{1}})$	$\displaystyle\leq\left\|\sum_{y_{1}\in Y}\left(P^{\tilde{\pi}}(y_{1}\|y_{0})-P^{\pi^{*}}(y_{1}\|y_{0})\right)TV^{n}(Y^{0}_{y_{1}})\right\|$
		$\displaystyle\leq\sum_{y_{1}\in Y}\left\|\sum_{a\in A}P(y_{1}\|y_{0},a)\left(\tilde{\pi}(a\|y_{0})-\pi^{*}(a\|y_{0})\right)\right\|TV^{n}(Y^{0}_{y_{1}})$
		$\displaystyle\leq\frac{1}{1-\gamma}\sum_{y_{1}\in Y}\sum_{a\in A}P(y_{1}\|y_{0},a)\left\|\tilde{\pi}(a\|y_{0})-\pi^{*}(a\|y_{0})\right\|$
		$\displaystyle=\frac{1}{1-\gamma}\sum_{a\in A}\left\|\tilde{\pi}(a\|y_{0})-\pi^{*}(a\|y_{0})\right\|\sum_{y_{1}\in Y}P(y_{1}\|y_{0},a)$
		$\displaystyle=\frac{1}{1-\gamma}\sum_{a\in A}\left\|\tilde{\pi}(a\|y_{0})-\pi^{*}(a\|y_{0})\right\|$
		$\displaystyle=\frac{2}{1-\gamma}TV(\tilde{\pi}(y_{0}),\pi^{*}(y_{0}))$

	$\displaystyle{\mathcal{F}}(d)(x,y)-{\mathcal{F}}(d^{\prime})(x,y)$
	$\displaystyle=\gamma\left({\mathcal{W}}_{1}(d)(P^{\pi^{}_{{\mathcal{X}}}}(\cdot\|x),P^{\pi^{}}_{{\mathcal{Y}}}(\cdot\|y))-{\mathcal{W}}_{1}(d^{\prime})(P^{\pi^{}_{{\mathcal{X}}}}(\cdot\|x),P^{\pi^{}}_{{\mathcal{Y}}}(\cdot\|y))\right)$
	$\displaystyle\overset{\autoref{lemma:thirdHalf}}{\leq}\gamma\left(\\|d-d^{\prime}\\|+{\mathcal{W}}_{1}(d^{\prime})(P^{\pi^{}_{{\mathcal{X}}}}(\cdot\|x),P^{\pi^{}}_{{\mathcal{Y}}}(\cdot\|y))-{\mathcal{W}}_{1}(d^{\prime})(P^{\pi^{}_{{\mathcal{X}}}}(\cdot\|x),P^{\pi^{}}_{{\mathcal{Y}}}(\cdot\|y))\right)$
	$\displaystyle=\gamma\ \\|d-d^{\prime}\\|$

	$\displaystyle T$	$\displaystyle V^{n+1}(Y^{k}_{y})=\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)TV(\tilde{\pi}(y_{k}),\pi^{*}(y_{k}))+\gamma TV^{n}(Y^{k+1}_{y})$
		$\displaystyle=\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[TV(\tilde{\pi}(y_{k}),\pi^{*}(y_{k}))+\gamma\sum_{y_{k+1}\in Y}P^{\tilde{\pi}}(y_{k+1}\|y_{k})TV^{n}(Y^{0}_{y_{k+1}})\right]$
		$\displaystyle=\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[TV(\tilde{\pi}(y_{k}),\pi^{}(y_{k}))+\gamma\sum_{y_{k+1}\in Y}\left(P^{\tilde{\pi}}(y_{k+1}\|y_{k})-P^{\pi^{}}(y_{k+1}\|y_{k})\right)TV^{n}(Y^{0}_{y_{k+1}})\right.$
		$\displaystyle\qquad\left.+\gamma\sum_{y_{k+1}\in Y}P^{\pi^{*}}(y_{k+1}\|y_{k})TV^{n}(Y^{0}_{y_{k+1}})\right]$
		$\displaystyle\overset{\autoref{lemma:firstHalf}}{\leq}\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[TV(\tilde{\pi}(y_{k}),\pi^{}(y_{k}))+\frac{2\gamma}{1-\gamma}TV(\tilde{\pi}(y_{k}),\pi^{}(y_{k}))+\gamma\sum_{y_{k+1}\in Y}P^{\pi^{*}}(y_{k+1}\|y_{k})TV^{n}(Y^{0}_{y_{k+1}})\right]$
		$\displaystyle\overset{\autoref{lemma:secondHalf}}{\leq}\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[TV(\tilde{\pi}(y_{k}),\pi^{*}(y_{k}))\right.$
		$\displaystyle\qquad\left.+\gamma\left(\frac{2}{1-\gamma}TV(\tilde{\pi}(y_{k}),\pi^{}(y_{k}))+\frac{1+\gamma}{1-\gamma}W_{1}(d^{})\left(P^{\pi^{}}(\cdot\|\tilde{x}_{y_{k}}),P^{\pi^{}}(\cdot\|y_{k})\right)\right)\right]$
		$\displaystyle=\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\left[\frac{1+\gamma}{1-\gamma}\left(TV(\pi^{}(\tilde{x}_{y_{k}}),\pi^{}(y_{k}))+\gamma W_{1}(d^{})(P^{\pi^{}}(\cdot\|\tilde{x}_{y_{k}}),P^{\pi^{*}}(\cdot\|y_{k}))\right)\right]$
		$\displaystyle\leq\sum_{y_{k}\in Y}P^{\tilde{\pi}}_{k}(y_{k}\|y)\frac{1+\gamma}{1-\gamma}d^{*}(\tilde{x}_{y_{k}},y_{k})$

	$\displaystyle d^{}(x,y)=d\left((x,\pi^{}),(y,\pi^{*})\right)$	$\displaystyle<\ d\big{(}(x,\pi^{}),(x,\hat{\pi})\big{)}+d\big{(}(x,\hat{\pi}),(y,\pi^{})\big{)}$
		$\displaystyle<\ d\big{(}(x,\pi^{}),(x,\hat{\pi})\big{)}+d\big{(}(y,\hat{\pi}),(y,\pi^{})\big{)}+d\big{(}(x,\hat{\pi}),(y,\hat{\pi})\big{)}$
	$\displaystyle d^{*}(x,y)-\hat{d}(x,y)$	$\displaystyle<d\big{(}(x,\pi^{}),(x,\hat{\pi})\big{)}+d\big{(}(y,\hat{\pi}),(y,\pi^{})\big{)}\quad\because\hat{d}(x,y)=d\big{(}(x,\hat{\pi}),(y,\hat{\pi})\big{)}$
	$\displaystyle\text{Similarly},\ \hat{d}(x,y)-d^{*}(x,y)$	$\displaystyle<d\big{(}(x,\pi^{}),(x,\hat{\pi})\big{)}+d\big{(}(y,\hat{\pi}),(y,\pi^{})\big{)}$

Hyperparameter	Value
Learning rate decay	0.999
Training epochs	2000
Optimizer	Adam
Batch size (Imitation)	256
Num training tasks	18
$\Gamma$ -scale Parameter ( $\beta$ )	0.01
Embedding size ( $k$ )	64
Batch Size ( $\mathscr{L}_{\mathrm{CME}}$ )	57
$\|\tau_{\mathcal{X}}^{*}\|$	57

对比行为相似性嵌入，用于强化学习中的泛化

摘要

1简介