强化学习中的 Transformer:综述
摘要。
Transformer 在自然语言处理、计算机视觉和机器人等领域产生了重大影响,在这些领域中,与其他神经网络相比,Transformer 提高了性能。 本综述探讨了 Transformer 如何应用于 强化学习 (RL),在强化学习中,Transformer 被认为是解决诸如训练不稳定、信用分配、缺乏可解释性和部分可观测性等挑战的有希望的解决方案。 我们首先简要概述 RL 领域,然后讨论经典 RL 算法的挑战。 接下来,我们深入探讨 Transformer 及其变体的特性,并讨论使其非常适合解决 RL 中固有挑战的特性。 我们研究了 Transformer 在 RL 的各个方面的应用,包括表示学习、转移和奖励函数建模以及策略优化。 我们还讨论了旨在提高 Transformer 在 RL 中的可解释性和效率的最新研究,使用了可视化技术和高效训练策略。 通常,Transformer 架构必须针对给定应用的特定需求进行调整。 我们广泛概述了 Transformer 如何适应多个应用,包括机器人技术、医学、语言建模、云计算和组合优化。 最后,我们讨论了在 RL 中使用 Transformer 的局限性,并评估其在推动该领域未来突破方面的潜力。
1. 绪论
强化学习 (RL) 是一种学习范式,它通过从试错中获得的反馈来实现顺序决策。 它通常用 马尔可夫决策过程 (MDP) 的形式来描述,该过程为建模智能体与其环境之间的交互提供了数学框架。
大多数 RL 算法优化智能体的策略,以选择使预期累积奖励最大化的动作。 在深度 强化学习 (RL) 中,神经网络被用作函数逼近器,用于将环境的当前状态映射到下一个动作,并估计未来的回报。 当处理大型或连续状态空间时,这种方法非常有利,因为这种状态空间会使表格方法在计算上非常昂贵 (Sutton and Barto, 1998),并且已经在具有挑战性的应用中取得成功 (Arulkumaran et al., 2017; Nguyen et al., 2020; Latif et al., 2023)。 然而,标准的神经网络架构,例如 卷积神经网络 (CNN) 和 循环神经网络 (RNN),在 RL 中难以解决长期存在的问题。 这些问题包括部分可观察性 (Esslinger et al., 2022)、无法处理高维状态和动作空间 (Barto and Mahadevan, 2003),以及难以处理长期依赖关系 (Chen et al., 2022a)。
部分可观察性是 RL 中的一个挑战 (Liu et al., 2022a);在缺乏完整信息的情况下,智能体可能无法做出最佳决策。 解决这个问题的一种典型方法是使用 CNN 和 RNN 来整合智能体随时间的输入 (Shao et al., 2019a)。 然而,RNN 往往会忘记信息 (Pascanu et al., 2013),而 CNN 在可以处理的过去时间步数方面受到限制 (Karpathy et al., 2014)。 为了克服这一限制,已经提出了各种策略,包括门控机制、梯度裁剪、非饱和激活函数以及操纵梯度传播路径 (Ribeiro et al., 2020)。 有时,不同的数据模式,如文本、音频和图像,被组合起来,为智能体提供额外的信息 (Lathuilière et al., 2019; Song et al., 2021; Carta et al., 2020)。 然而,集成用于不同模式的编码器会增加模型的架构复杂性。 使用 CNN 和 RNN,也很难确定哪些过去的动作导致了当前的奖励 (Ma et al., 2021)。 这被称为信用分配问题。 这些挑战以及其他挑战,例如训练不稳定性,将大多数 RL 应用的范围限制在不切实际的虚拟环境中。
变形金刚 (transformer) 于 2017 年首次被提出 (Vaswani et al., 2017),并且迅速影响了深度学习领域 (Lin et al., 2022),改进了 自然语言处理 (NLP) 和 计算机视觉 (CV) 任务的最新技术水平 (Tunstall et al., 2022; Khan et al., 2021; Devlin et al., 2019; Petit et al., 2021; Zhong et al., 2021)。 这种神经网络架构背后的关键思想是使用自注意力机制来捕获数据中的长程关系。 这种在序列中对大规模上下文进行建模的能力最初使变形金刚非常适合机器翻译任务。 Transformer 已经被应用于解决更复杂的任务,例如图像分割 (Petit 等人,2021),视觉问答 (Zhong 等人,2021),和语音识别 (Dong 等人,2018)。
本文综述了 Transformer 在 强化学习 中的应用。 我们首先简要概述了 强化学习(第 2.1 节)和 Transformer(第 2.3 节),以便于具备机器学习基础知识的读者理解。 我们重点介绍了传统 强化学习 方法面临的挑战,以及 Transformer 如何帮助解决这些挑战(第 2.2 节和第 2.4 节)。 Transformer 可以通过多种方式应用于 强化学习(图 1)。 我们将讨论如何利用 Transformer 来学习表示(第 3 节)、建模转移函数(第 4 节)、学习奖励函数(第 5 节)和学习策略(第 6 节)。 在第 7 节和第 8 节中,我们将讨论不同的训练和解释策略,在第 9 节中,我们将概述使用 Transformer 的 强化学习 应用,包括机器人、医疗、语言建模、边缘云计算、组合优化、环境科学、调度、交易和超参数优化。 最后,我们将讨论未来研究的局限性和开放性问题(第 10 节)。 通过这项工作,我们旨在激发进一步的研究,并促进 强化学习 方法在现实世界应用中的发展。
2. 背景
本节介绍了 强化学习 的基本概念,并讨论了相关的挑战。 我们还概述了 Transformer 及其在 强化学习 中的潜在优势。
2.1. 强化学习
强化学习 (RL) 是一种基于奖励的学习范式,它使代理能够从经验中学习并随着时间的推移提高其性能。 这通常用 马尔可夫决策过程 (MDPs) 的术语来表述,其中代理选择一个动作 ,该动作基于环境的状态 ,并以奖励 的形式接收反馈。 MDP 框架假设环境满足马尔可夫性质,该性质断言,给定当前状态和最近一次动作,下一个状态独立于过去的状态。 这使得代理能够仅基于当前状态做出决策,而不必跟踪先前状态和动作的历史。 在采取行动后,代理会以奖励的形式从环境中接收反馈。 状态更新为一个新值 ,该值由转移函数 确定,该函数描述了环境如何响应代理的动作。 RL 的总体目标是学习如何通过最大化回报 (即总折扣奖励)来解决多步问题:
(1) |
其中 是在每个时间步 接收的奖励, 是给定情节中的总时间步数,而 是一个折扣因子,影响在给定情节中对立即奖励相对于未来奖励的重要性。
RL 算法有多个类别,每个类别都有其优点和缺点 (AlMahamid and Grolinger, 2021)。 选择合适的类别取决于一些因素,例如问题的复杂性、状态和动作空间的大小以及可用的计算资源。 现在我们将简要回顾这些类别。
基于模型的 RL。 在基于模型的 RL 中,使用环境交互生成的转移 () 学习转移函数。 该转移函数对给定当前状态 和动作 的后续状态 和奖励 上的概率分布 进行建模。 通过利用这个学习到的模型,代理规划并选择能够最大化预期回报 的动作。然而,这种方法在计算上可能很昂贵,并且可能会受到学习到的模型中不准确性的影响,从而导致次优性能 (Moerland et al., 2020)。 尽管存在这些缺点,但这种方法的样本效率很高。 换句话说,与其他方法相比,它可以使用相对较少的与环境的交互来实现良好的性能 (Mohanty 等人,2020;Wang 等人,2022c)。
无模型 RL。 在无模型 RL 中,最优动作是通过与环境的直接交互来学习的。 此类方法无法模拟状态转换动态以规划动作,这会导致与基于模型的 RL 相比收敛速度更慢,样本效率更低 (Yarats 等人,2021)。 但是,无模型 RL 能够更好地适应环境变化,使其在复杂或噪声环境中更加稳健 (Mnih 等人,2013;Lillicrap 等人,2016;Schulman 等人,2017)。 此外,它的计算量更少,因为它不需要学习环境模型。
此外,RL 方法可以根据数据收集与学习策略的关系分为策略内、策略外和离线 RL。
策略内 RL。 策略内 RL 方法使用当前策略来收集用于更新值函数的转换。 例如,在 SARSA (Sutton 和 Barto,1998) 中,当前策略用于收集一个元组 ,该元组包含当前状态-动作对 、即时奖励 和下一个状态-动作对 。 然后,这用于估计当前状态-动作对 和下一个状态-动作对 的回报。 值函数 使用以下 时间差 (TD) 学习规则进行更新:
(2) |
其中 表示学习率。
尽管策略内方法相对易于实现,但它们也有一些缺点。 它们往往样本效率低下 (Larsen 等人,2021),需要与环境进行大量交互才能实现良好的性能。 此外,它们可能容易受到策略振荡和不稳定性的影响 (Young and Sutton, 2020),而且它们缺乏探索的灵活性,从而减慢了学习过程,导致次优策略。
离策略 RL。 离策略 RL 策略使用两种策略 - 行为策略和目标策略。 行为策略收集随后用于估计在给定目标策略下动作的预期回报的数据。 由于行为策略用于数据收集,因此它可以探索不同的状态和动作,而不会影响当前的目标策略。 因此,离策略方法非常适合理解给定状态和动作的价值。 通常,目标策略使用行为策略通过 重要性采样 (IS) 进行更新。 这根据行为 和目标 策略之间的 IS 比例调整目标策略的价值估计:
(3) |
最终的价值估计给出为:
(4) |
离线-RL。 离线 RL 或批处理 RL (Levine et al., 2020a) 使用一个静态数据集来表示转换,用 表示,它使用行为策略收集,因此不需要与环境交互来收集轨迹。 离线-RL 更新状态-动作价值函数 为:
(5) |
其中,max 运算符估计所有可能的动作在下一状态上的最大预期回报。 离线 RL 是安全关键应用中更实用的策略,因为它不需要与环境交互 (Shi et al., 2021; Killian et al., 2023)。 但是,数据集的静态性质不允许代理探索和适应新信息,这可能会限制性能 (Lu et al., 2022)。
多智能体强化学习。 在线、离线和非策略学习设置可用于促进动态环境中具有多个交互代理的适应性决策 (Gronauer 和 Diepold,2022)。 每个 代理都有自己的策略 、状态空间 和动作空间 。 代理相互作用并与环境交互,他们的行为会影响其他代理的结果。 多代理强化学习 (MARL) 的目标是学习一个联合策略 ,最大化所有代理的集体奖励。 正式来说,MARL 中的目标可以表示为最大化所有代理的预期折扣奖励总和:
(6) |
其中 是折扣因子, 是代理 在时间 收到的奖励。
通常,MARL 有两种主要方法:分散式策略 (Zhang 等人,2018a) 和集中式训练 (Sharma 等人,2021)。 分散式策略涉及每个代理独立学习其策略,无需与其他代理进行明确的协调或通信。 相反,集中式训练使用一个共享的价值函数,该函数考虑联合状态和动作,使代理能够通过通信协议进行通信和协调他们的行为。 通信协议 (Foerster 等人,2016) 促进代理之间信息交换和协作。
Upside Down RL。 经典 RL 通常涉及通过估计预期未来回报来优化策略。 Upside-down RL (Schmidhuber,2019;Arulkumaran 等人,2022) 反转了传统的 RL 范式,并使用期望回报 、范围 (即当前试验结束前剩余的时间)和状态作为输入。 此输入充当 命令,映射到动作概率。 与经典 RL 相比,Upside-down RL 提供了更高的稳定性,因为它避免了估计价值函数的需要,而这会在传统的 RL 算法中引入不稳定性 (Chen 等人,2021a;Sutton 和 Barto,1998)。 Upside-down RL 的损失函数可以定义为:
(7) |
其中 包含模型参数。 术语 表示时间步 处的动作, 表示在状态 、预期未来回报 和范围 的条件下预测的动作。
2.2. 强化学习中的挑战
本节讨论经典 RL 算法的不同挑战。
维度灾难。 现实世界的应用通常涉及高维状态空间,这使得经典 RL 算法难以学习最优策略 (Barto 和 Mahadevan,2003)。 这是因为所需的训练数据随着数据维度的增加而呈指数增长 (Wang 等人,2020a)。 缓解此问题的一种方法是将高维状态编码到低维空间中。 在经过编码的低维数据训练后,RL 策略表现更好 (Yarats 等人,2021)。
部分可观测环境。 部分可观测环境对 RL 算法提出了挑战,因为代理无法访问包含每个时间步环境状态的完整信息的观察结果 (Vinyals 等人,2019; OpenAI 等人,2019)。 在没有完整信息的情况下,算法可能难以做出最佳决策,从而导致性能的不确定性和折衷。 为了解决这个问题,策略必须维护一个内部状态表示,通常以记忆的形式,从中可以估计实际状态 (Icarte 等人,2020)。 从历史上看,这通常是通过 RNN 完成的,但它们无法有效地建模较长的上下文 (Pascanu 等人,2013; Hochreiter,1998)。
信用分配。 信用分配是指将代理采取的动作与其获得的奖励联系起来的问题 (Mesnard 等人,2021)。 这具有挑战性,原因有两个:首先,奖励可能会延迟;代理可能无法观察到其行动的结果,直到未来几个时间步。 其次,其他因素或多个动作可能会影响接收到的奖励,因此难以确定哪个动作导致了该奖励。
不准确的奖励分配会导致训练速度变慢和次优策略 (Ausin 等人,2021)。 此外,当奖励稀疏时(即,当代理对其行为几乎没有反馈时),奖励分配问题会变得更加困难 (Seo 等人,2019)。 一种潜在的解决方案是使用在所有时间步跨越信息整合的模型,这可能更适合解决此问题 (Chen 等人,2021a)。
最近的研究利用 Transformer 来解决这三个关键挑战。 Transformer 在对顺序数据中的长期依赖关系进行建模方面已证明其成功,同时在 NLP 和 CV 等领域中显示出促进泛化和更快学习的有希望的结果。 现在,我们简要概述 Transformer,并探讨它们在学习最佳 RL 策略中的各种应用方式。
2.3. Transformer
Transformer 是一类神经网络架构,由多层组成,每层包含一个多头自注意力机制、并行的全连接网络、残差连接和层规范化。 给定一个 输入嵌入序列,Transformer 会生成一个 输出嵌入序列,每个嵌入都表示相应输入嵌入与其余输入序列之间的关系。 在 自然语言处理 (NLP) 中,输入嵌入可能代表来自给定句子的单词,而在 强化学习 (RL) 中,它们可能代表不同的状态。
自注意力机制 允许每个输入嵌入( 的每一行)同时关注输入序列中的所有其他嵌入。 它为每对输入计算一个注意力分数。 这是通过将每个输入投影到一个查询 和一个键 张量来完成的。 然后通过将每个查询向量(查询张量的行)与每个键向量(键张量的行)进行点积来计算注意力分数,然后进行 softmax 操作,对结果分数进行归一化,使其对每个查询加起来为 1。 然后使用注意力分数计算值的 张量的加权和(见图 2):
(8) |
为了帮助在训练期间稳定梯度,点积按一个 因子进行缩放,其中 是查询张量的维度。
Transformer 通常并行计算多组注意力分数(每组都有不同的学习参数集 )。 这使得模型能够同时关注输入序列的多个方面,被称为 多头自注意力。 每个注意力“头”的输出被连接起来并线性变换,以生成最终的输出表示。 对于输入顺序很重要的应用,会添加位置编码,使网络能够确定每个输入的位置。
在 Transformer 块(图 2b)中,残差连接被放置在多头自注意力机制周围。 这通过允许梯度轻松地流过网络来提高训练的稳定性。 然后使用层归一化处理输出,这将跨特征维度对每一层的激活进行归一化。 每个输出都由相同的 MLP 并行处理。 同样,这些被残差连接绕过,随后添加第二个层归一化。
架构变体。 来自 Transformer 的双向编码器表示(BERT) 模型 (Devlin 等人,2019) 和 生成式预训练 Transformer (GPT) (Radford 等人,2018) 是 Transformer 架构的两种流行变体。 BERT(图 4)是一个 Transformer 编码器,其中每个输出在自注意力机制中接收来自每个输入的信息(图 3a)。 目标是处理传入的数据以生成一个整合上下文信息的潜在表示。 这在 RL 中尤其有用,因为它使智能体能够根据对环境的更全面理解做出明智的决定 (Banino 等人,2022;Wang 等人,2023)。
相反,GPT(图5)使用解码器架构自动回归生成输出标记序列,仅考虑过去的标记。 使用屏蔽自注意力(图 3b)可以通过将相关的注意力值限制为零来防止在训练期间预测它不应该知道的标记而进行作弊。 在RL中,这种自回归性质可用于实现一个RL策略,该策略以一系列过去状态和动作进行条件化(Hernandez et al., 2021; Chen et al., 2021a; Janner et al., 2021)。 GPT使用多个块,每个块包含一个多头注意力机制。 原始的Transformer(Vaswani et al., 2017)将这两种方法结合在编码器-解码器架构中,用于机器翻译。 编码器架构处理输入的句子,解码器自回归地生成输出句子。 在此过程中,解码器还考虑了对编码器潜伏表示的注意力,使用“交叉注意力”块。
视觉Transformer。 受BERT和GPT等基于Transformer的架构在NLP中取得成功的启发,Dosovitskiy et al. (2021)提出了用于处理图像的视觉Transformer (ViT)架构。 ViT架构(Dosovitskiy et al., 2021)适用于广泛的RL任务,其中必须使用图像来学习策略(Tao et al., 2022; Kargar and Kyrki, 2021; Goulão and Oliveira, 2022)。 ViT架构是一个Transformer编码器,它处理图像的补丁(图6)。 每个补丁都与位置编码相结合,位置编码提供了有关其原始图像位置的信息。
Transformer-XL。 由于成对比较呈指数级增长,自注意力机制的计算复杂度随着输入序列长度的平方而增加。 因此,迄今为止讨论的 Transformer 架构通常将较长的输入序列划分为较短的序列,以减少内存需求。 虽然这种方法有助于最大程度地减少内存使用,但它使得捕获全局上下文具有挑战性。 此外,传统的 Transformer 模型受到限制,因为它在形成上下文时没有考虑输入序列的边界。 相反,它选择连续的符号块,而不考虑句子或语义边界。 这会导致上下文碎片化,模型缺乏准确预测序列中前几个符号所需的上下文信息。 transformer-XL (TrXL) 架构 (Dai 等人,2019) 通过将输入划分为片段并结合片段级递归 (图 3c) 和相对位置编码来解决这些问题。 通过在训练期间缓存和重用为前一个片段计算的表示,TrXL 可以扩展上下文并更好地捕获长期依赖关系。 此外,TrXL 可以处理新片段的元素,而无需重新计算过去的片段,从而导致更快的推理。
2.4. Transformer 在 RL 中的关键优势
本节概述了对 RL 应用重要的 Transformer 特性。
注意力机制。 注意力机制对于 Transformer 中的状态序列建模至关重要 (Benjamins 等人,2022)。 它使 RL 智能体能够选择性地关注环境中的相关线索 (Manchin 等人,2019) 并忽略冗余特征,从而导致更快的训练。 这在高维状态空间中特别有用,其中有大量输入元素。
多模态架构。 对于复杂的任务,RL 代理可能需要来自不同数据模态的附加信息 (Zhang 等人,2018b;Kiran 等人,2022)。 过去的方法使用不同的架构来处理多种模态 (Ramachandram 和 Taylor,2017)。 但是,Transformer 可以使用相同的架构有效地处理多种数据模态(例如,文本、图像) (Jaegle 等人,2022;Xu 等人,2022c)。
并行处理。 在 RL 中学习策略在计算上可能是昂贵的,特别是对于需要大量样本的复杂任务 (Obando-Ceron 和 Castro,2021)。 RNN 需要对输入进行顺序处理,这效率低下。 Transformer 由于其自注意力机制非常适合并行化,该机制同时考虑所有输入。 RL 算法可以利用 Transformer 在更短的时间内学习更有效的策略。
可扩展性。 当前的 RL 算法难以有效地扩展到需要整合多种技能的复杂任务 (Zhan 等人,2017;Kalashnikov 等人,2018)。 但是,Transformer 的性能已被证明随着模型大小、数据集和计算量的增加而平滑地提高 (Kaplan 等人,2020)。 这种能力可以在 RL 中被利用,以创建能够在不同的环境中执行各种任务并具有不同具体形式的通用代理 (Lee 等人,2022)。
3. 表示学习
简洁且有意义的表示对于 RL 中的有效决策至关重要 (Lesort 等人,2018)。 经验数据表明,直接在高维数据(例如图像像素)上训练代理的样本效率低下 (Lake 等人,2016)。 因此,良好的数据表示对于学习 RL 策略至关重要 (Lesort 等人,2018; Laskin 等人,2020),因为它们可以提高性能、收敛速度和策略稳定性 (Ghosh 和 Bellemare,2020)。
例如,在自动驾驶汽车中,原始感官输入 (例如,摄像机图像,激光雷达读数)是高维的,并且通常包含冗余信息。 如果这些输入 被映射到紧凑的表示 ,那么 RL 代理可以更有效地学习。 同样,在游戏场景(图 6)中,将像素编码和提取相关特征以用作学习策略的 RL 算法的输入是有帮助的。 Transformer 可以为各种数据模态生成可迁移和判别性的特征表示 (Zhou 等人,2021; Brown 等人,2020; Zhang 等人,2022d; Choi 等人,2020; Ying 等人,2021)。
3.1. Transformer、CNN 和 GNN 之间的比较
使用预训练的 CNN 和 Transformer 架构对高维表示进行编码是一个活跃的研究领域。 这两种方法在计算机视觉任务中都获得了相当的性能 (Woo 等人,2023;Liu 等人,2022c;Malpure 等人,2021)。 然而,一些研究 (Zhou 等人,2021;Zhang 等人,2022d)表明,对于在训练和测试时数据分布不同的任务,Transformer 比 CNN 生成更具表现力的表示。 这种优势源于 CNN 对局部空间特征的固有归纳偏差,这限制了它们捕获推理所需全局依赖关系的能力 (Vo 等人,2017)。 Transformer 可以将图像编码为一系列补丁,而无需进行局部卷积和分辨率降低(图 6)。 因此,它们在每一层都对全局上下文进行建模,从而为学习高效策略提供更强大的表示 (Dosovitskiy 等人,2021)。 在图中,Transformer 表现出与 图神经网络 (GNN) 相当的泛化能力 (Dwivedi 和 Bresson,2020),并且在某些情况下,通过捕获远程语义,它们的性能优于 GNN (Ying 等人,2021)。
多任务强化学习 (MTRL) 是一种学习范式,其中一个智能体接受训练以同时执行多个任务。 它传统上依赖 GNN 来处理不兼容的环境(即不同的状态-动作空间) (Wang 等人,2018;Huang 等人,2020a)。 这是因为 GNN 能够在不同大小的图上运行。 但是,Kurin 等人 (2021) 假设,稀疏图中消息传递的限制性本质可能会对性能产生负面影响。 他们建议用 Transformer 替换 GNN,从而避免了学习多跳通信的必要性;Transformer 可以被认为是应用于全连接图的 GNN,其中注意力作为边到顶点聚合操作 (Battaglia 等人,2018)。 这使得每个状态和传递都能够拥有专门的消息传递方案,有效地避免了多跳消息传播的需要。 这克服了由这种多跳传播引起梯度传播和信息丢失的挑战。 基于 Transformer 的模型 Kurin 等人 (2021),Amorpheus,学习了更好的表示,并在没有施加关系归纳偏差的情况下提高了性能。
3.2. 使用 Transformer 进行高级表示学习
Transformer 与其他注意力机制相结合,能够学习具有表现力的表示。 SloTTAr (Gopalakrishnan 等人,2023) 将 Transformer 编码器-解码器架构与槽注意力机制(Locatello 等人,2020) 相结合。 Transformer 编码器专注于从动作-观察序列中学习时空特征。 利用槽注意力机制,在每个时间位置对特征进行分组,从而得到槽表示。 解码器随后对这些槽表示进行解码,以生成动作 logits。 值得注意的是,这种可并行化的过程使得训练速度比现有基准快。
在多智能体强化学习中,Transformer 已被证明在建模智能体与环境之间的关系方面非常有效(Zhang 等人,2022b)。 Li 等人 (2022a) 提议用 Transformer 编码器替换RNN,以进行稳健的时间学习。 同样,Zhang 等人 (2022a) 使用基于ViT 架构的视觉特征提取器来获得更稳健的表示,用于机器人视觉探索。 他们的网络利用自注意力机制,在机器人任务中优于CNN 主干网络。
Transformer 已广泛应用于涉及处理多模态信息的场景中。 Yang 等人 (2022) 引入了场景融合 Transformer,该 Transformer 将观察到的轨迹和场景信息融合在一起,以生成用于轨迹预测的表达性表示。 为了降低计算复杂度,他们采用了稀疏自注意力机制。 Zhang 等人 (2023) 利用 Transformer 有效地整合视觉和文本特征。
3.3. 增强可迁移性和泛化能力
RL 面临的一个固有难题是泛化到新的未见过的任务(Levine 等人,2020b)。 这种困难是由于各种RL 任务之间存在本质上的差异(例如,自动驾驶和药物发现)造成的。 虽然诸如 模型无关元学习 (MAML) (Finn 等人,2017) 之类的元学习方法已被开发出来,以使用有限数据泛化到具有不同分布的新任务,但由于样本效率低下和训练不稳定,这些方法难以在 强化学习 (RL) 中使用 (Liu 等人,2019)。
Transformer 在元强化学习 (TrMRL) 中展现出巨大潜力,正如 Melo (2022) 所证明的那样。 Transformer 擅长处理长序列并捕获长时间范围内的依赖关系,这使它们能够快速适应新的任务,并使用自注意力机制。 在 TrMRL 中,提出的代理使用自注意力块来创建一个情景记忆,该记忆代表最近工作记忆的共识。 Transformer 架构将工作记忆和任务编码为这些记忆上的分布。 在元训练期间,代理学习区分任务并在嵌入空间中识别相似性。 这种方法的性能与 PEARL (Rakelly 等人,2019) 和 MAML (Finn 等人,2017) 相当甚至更好。 它在记忆细化和任务关联方面尤其有效。
Shang 等人 (2022) 引入了状态-动作-奖励 Transformer (StARformer) 来通过学习状态、动作和奖励的单个时间步之间转换表示来建模多个数据分布。 StARformer 由步长 Transformer 和序列 Transformer 组成。 步长 Transformer 使用自注意力来捕获一个局部表示,该表示理解单个时间步窗口内状态-动作-奖励三元组之间的关系。 序列 Transformer 将这些局部表示与全局表示相结合,全局表示的形式为提取为卷积特征的纯状态特征,引入了类似马尔可夫的归纳偏差。 这种偏差有助于减少模型容量,同时有效地捕获长期依赖关系。
4. 转换函数学习
转换函数 描述了环境如何从当前状态 转换到下一个状态 以及响应代理执行的动作 而发放的奖励 。 学习此函数 (图 7) 并随后利用它来训练 强化学习 (RL) 代理被称为基于模型的 强化学习 (RL) (第 2.1 节)。 与无模型 强化学习 方法相比,基于模型的 强化学习 提供了显著优势 (Moerland 等人,2020);它允许智能体为每个动作规划未来的轨迹,从而提高鲁棒性和安全性。 与外部环境的交互在计算上可能很昂贵,尤其是在依赖模拟真实世界的模拟时 (Featherstone,2014)。 如果我们学习了转移函数,这些交互就可以减少。
基于模型的强化学习 (MBRL) 中的一种标准方法 (Ha 和 Schmidhuber,2018) 包括训练一个端到端的世界模型来准确地表示环境的动态。 例如,TransDreamer (Chen 等人,2022a) 训练一个单一模型,该模型使用证据下界损失学习视觉表示和动态 (Kingma 和 Welling,2019)。 但是,这种方法会导致学习到的世界模型出现不准确。
掩码世界模型 (MWM) (Seo 等人,2022) 通过解耦视觉表示和动态学习来解决这个问题。 这种框架利用具有卷积层的自动编码器和 ViT 来学习视觉表示。 自动编码器根据掩码卷积特征重建像素。 潜伏动态模型是通过对自动编码器的表示进行操作来学习的。 为自动编码器引入了辅助奖励预测目标,以编码与任务相关的的信息。 重要的是,这种方法在各种机器人任务上的样本效率和最终性能方面都优于强大的 RNN 模型,即 DreamerV2 (Hafner 等人,2021)。
学习世界的动力学 已被表述为 想象力与内部语言自回归 (IRIS) (Micheli 等人,2022) 中的一个序列建模问题。 这种方法利用了 Transformer 处理离散符号序列的能力。 IRIS 使用离散自动编码器来构建图像符号语言,而 Transformer 对这些符号的动力学进行建模。 通过准确地模拟数百万个轨迹,IRIS 在 Atari 100k 基准测试 (Bellemare 等人,2015) 中仅用 2 小时的实时体验就超越了最近的方法。
基于 Transformer 解码器自回归的性质,Robine 等人 (2023) 引入了基于 Transformer 的世界模型 (TWM)。 基于 TrXL 架构,TWM 从真实世界的情节中学习转移函数,同时关注与每个时间步相关的潜在状态、动作和奖励。 通过允许直接访问先前状态,而不是通过压缩的循环状态查看它们,TrXL 架构使世界模型能够学习长期依赖关系,同时保持计算效率。
5. 奖励学习
奖励函数在 RL 中至关重要,因为它量化了给定状态 下不同动作 的可取性,指导学习过程。 通常,奖励函数是由人类专家根据其领域知识精心考虑相关因素而预先定义的。 但是,在现实世界场景中设计合适的奖励函数具有挑战性,需要对问题领域有深入的了解。 此外,手动设计它会引入偏差,并可能导致次优行为。
最近的研究探索了通过各种形式整合人类数据来学习奖励函数的不同方法,例如实时反馈、专家演示、偏好和语言指令。 Transformer 在这些情况下已被证明是有价值的。 Transformer 架构在非马尔可夫奖励方面尤其有利,非马尔可夫奖励的特点是延迟和对情节期间遇到的状态序列的依赖(例如,当仅在最后提供奖励时)。 Transformer 有效地捕获了输入序列之间的依赖关系,使其非常适合处理此类场景。
偏好 Transformer (Kim 等人,2023) 模型通过关注关键事件并对人类决策过程中固有的时间依赖关系进行建模来捕获人类偏好;它有效地预测了非马尔可夫奖励,并根据轨迹段分配适当的重要性权重。 这种方法减少了设计奖励函数所需的努力,并能够处理复杂的控制任务,例如运动、导航和操作。
为了训练一个用于生成与人类标记的基本事实一致的文本的 RL 策略,通常使用双语评估研究 (BLEU) 分数 (Papineni 等人,2002) 作为奖励函数。 但是,BLEU 可能与人类评估没有始终如一地强相关性。 在 (Nakatani 等人,2022) 中,引入了基于 BERT 的奖励函数,证明了与人类评估的更高相关性。 这种方法利用预训练的 BERT 模型 (图 8) 来评估生成句子和参考句子之间的语义相似性,并相应地更新策略。
6. 策略学习
策略学习是 RL 的核心;它涉及学习策略 ,代理使用该策略来选择动作 ,目标是最大化折扣累积奖励 。 Transformer 已被用于在各种场景中对 进行建模,包括离策略、在线策略和离线 RL。
6.1. 决策 Transformer 的离线 RL
离线 RL 使用有限的、静态的先前收集经验数据集来训练策略。 这与在线或离线 RL 方法不同(这些方法会持续与环境交互以更新其策略),因为代理无法在固定数据集之外收集经验,这限制了它学习、探索和提高性能的能力。
决策转换器 (DT) (Chen 等人,2021a)(图 9)是一种离线 RL 方法,它使用颠倒的 RL 范式(参见第 2.1 节)。 它使用转换器解码器来预测以过去状态、过去动作和预期剩余回报(未来奖励的总和)为条件的动作。 通过最小化预测动作和实际动作之间的交叉熵(离散)或均方误差(连续)损失来优化参数。
DT 使用 GPT 架构来解决信用分配问题;自注意力机制可以将奖励与跨长时间间隔的对应状态-动作对相关联。 这也允许 DT 策略即使在存在干扰奖励的情况下也能有效地学习 (Hung 等人,2018)。 经验实验表明,DT 在 Atari 和 Key-to-Door 等离线数据集上优于最先进的无模型离线方法。
DT 是一种无模型方法,它根据过去的轨迹预测动作,而不会预测新的状态,因此它无法规划未来的动作。 轨迹转换器 (TT) (Janner 等人,2021) 解决了这一局限性,它是一种 MBRL 方法,将 RL 形式化为一个条件序列建模问题。 TT 对过去状态、动作和奖励进行建模,以有效地预测未来的动作、状态和奖励。 使用奖励作为输入可以防止近视行为,并使代理能够通过诸如束搜索之类的搜索方法来规划未来的动作 (Negrinho 等人,2018)。
这种特定于任务的代理条件为学习复杂任务提供了灵活性。 基于提示的 DT (Xu 等人,2022b),实现了离线 RL 中的少样本适应。 输入轨迹,充当提示,包含少样本演示片段,编码特定于任务的信息以指导策略生成。 这种方法允许代理利用从不同任务收集的离线轨迹,并适应新场景以推广到未见过的任务。 同样,文本决策Transformer (TDT) (Putterman 等人,2021) 使用自然语言信号来指导基于策略的语言指令在 Atari-Frostbite 环境中。
然而,DTs 面临着一些挑战。 他们难以从次优轨迹中有效学习。 在随机环境中,他们的性能往往会下降,因为采取的行动可能是次优的,而达成的结果仅仅是随机环境转换的结果。 环境分布覆盖不足是离线 RL 方法(如 DT)的另一个挑战。 为了克服这些挑战,-学习决策Transformer (QDT) (Yamagata 等人,2022) 等解决方案使用更准确的学习 -函数重新标记了返回到去的。 与环境随机性无关的表示 (ESPER) (Paster 等人,2022) 通过以平均回报为条件来解决随机性能下降问题。 此外,自举Transformer (BooT) (Wang 等人,2022e) 将自举纳入,以生成更多离线数据。 通过采用这些方法,DTs 的学习能力可以得到提高,从而在各种场景中实现更有效和更强大的策略。
6.2. 带Transformer 的在线 RL
Transformer 也已应用于在线 RL,其中代理在学习时与环境交互。 在现实环境中,噪声传感器、遮挡图像或未知代理等问题会引入部分可观测性问题。 这使得代理难以选择正确的行动 (第 2.2 节)。 这里,将最近的观察结果保留在内存中对于帮助消除歧义的真实状态至关重要。 传统上,这个问题一直使用 RNN 来解决,但 Transformer 可以提供更好的替代方案。
深度 Transformer 网络 (DTQN) (Esslinger 等人,2022) 利用 Transformer 解码器架构解决了部分可观察环境的挑战。 在每次训练步中,它接收代理的先前 观察结果并生成 组 值。 这种独特的训练策略鼓励网络即使在信息不完整的情况下也预测 值,从而导致开发出更强大的代理。 在评估期间,它从其历史记录中的最后时间步选择具有最高 值的动作 (图 10)。
DTQN 包含一个学习到的位置编码,它使网络能够通过学习特定于域的时间依赖性来适应不同的域。 这种特定于域的编码与每个环境的时间依赖性相匹配,并允许 DTQN 适应具有不同时间敏感度水平的环境。 DTQN 展示了更快的学习速度,并在各种部分可观察域(包括 gym-gridverse、car flag 和 memory cards)中优于先前的循环方法 (Morad 等人,2023)。
6.3. 用于多智能体强化学习的 Transformer
MARL (第 2.1 节) 提出了一些独特的挑战,因为代理通过与其他代理和环境的互动来学习和适应其行为。 其中一个挑战源于模型架构的固定输入和输出维度,这意味着不同的任务必须从头开始独立训练 (Shao 等人,2019b; Wang 等人,2020b)。 因此,跨任务的零样本迁移是有限的。
另一个挑战来自无法将不同代理的观察结果分离 (Hu et al., 2021)。 当所有来自不同代理或环境的信息被同等对待时,会导致单个代理做出错误的决定。 当使用集中式价值函数时,这种挑战变得尤为突出,集中式价值函数作为跨多个代理的行动和状态价值的共享估计,以指导他们的行为 (Chen and Tan, 2023)。 因此,正确分配给单个代理的信用变得困难。
通用策略解耦Transformer (UPDeT) (Hu et al., 2021) 旨在应对在具有不同观察和动作配置要求的任务中遇到的挑战。 它通过将动作空间分离成多个动作组来实现这一点,有效地将相关的观察结果与相应的动作组匹配。 UPDeT 通过采用自注意力机制并在动作组级别优化策略来改进决策过程。 这增强了决策的可解释性,同时允许对新任务进行高度的转移能力。
在多代理Transformer (MAT) (Wen et al., 2022) 中也观察到这种特征。 MAT(图 11)将联合策略搜索问题转化为一个顺序决策过程,允许并行学习代理的策略,无论参与的代理数量如何。 编码器利用自注意力机制来处理每个代理的观测序列,捕获它们的交互。 这会生成一系列潜在表示,然后馈送到解码器。 解码器依次以自回归和顺序的方式生成每个代理的最佳动作。 因此,MAT 具有强大的泛化能力,在多代理 MuJoCo 任务的少样本实验中,超过了 多代理近端策略优化 (MAPPO) (Lohse 等人,2021) 和 异构代理近端策略优化 (HAPPO) (Kuba 等人,2022)。
然而,MARL 在现实世界应用中面临限制,因为 许多代理的诅咒 (Wang 等人,2020a),随着代理数量的增加,状态-动作空间呈指数增长。 这给学习代理的值函数和策略带来了挑战,导致代理之间关系推理效率低下,以及信用分配问题。 将各个代理的状态-动作空间连接起来并将其视为单个代理问题会导致指数级的状态和时间复杂度 (Zhou 等人,2020)。 此外,策略的独立学习可能难以收敛,除非进行合作 (Gupta 等人,2021)。
TransMix (Khan 等人,2022) 通过集中式学习方法解决了这一挑战,使代理能够在训练期间交换信息。 在策略执行期间,每个代理都依赖于部分可观测地图。 星际争霸多代理挑战 (SMAC) (Vinyals 等人,2017) 中的动作空间包含各种动作,包括移动单位、攻击敌人、收集资源、建造建筑以及发出命令来控制游戏状态。 利用 Transformer,TransMix 捕获代理 -值、历史记录和全局状态信息之间的全局和局部上下文交互,从而促进有效的信用分配。
Transformer 能够推理代理之间关系的能力,提高了无模型 MARL(无论代理数量多少)和基于模型的 MARL(对代理数量的对数依赖)的结果 (Guedj,2019)。 值得注意的是,用其他神经网络类型对 Transformer 的自注意力进行建模需要大量不可行的可训练参数,这突出了自注意力在捕获代理交互方面的意义 (Guedj,2019)。 此外,Transformer 的性能在不同的代理数量下保持稳定,准确性受神经网络深度影响 (Guedj,2019),使其在 MARL 中非常高效。
7. 训练策略
由于 Transformer 依赖于残差分支,而残差分支会放大微小的参数扰动,从而破坏模型输出(Liu 等人,2020),因此训练 Transformer 存在挑战;成功训练需要专门的优化器和权重初始化器。 同样,RL 策略的训练也可能不稳定(Nikishin 等人,2018),需要不同的策略来实现最佳性能。 因此,将 Transformer 整合到 RL 中尤其具有挑战性。 这些挑战可能表现为训练期间性能的突然或极端变化,阻碍了有效学习和泛化。
使用 RL 目标很难优化标准的 Transformer 架构,需要大量的超参数调整,这很耗时。 在这里,我们回顾了在 RL 中训练 Transformer 的策略。 这些策略包括预训练和迁移学习以加快学习速度,改进权重初始化以减轻梯度问题,以及有效地利用层来捕获相关信息。
7.1. 预训练和迁移学习
Transformer 可以使用大型无奖励数据集进行预训练,这为仅在少量标注数据集可用时进行微调提供了机会。 Meng 等人 (2021) 提出使用 DT 在大型无奖励的离线先前交互数据集上预训练代理。 在预训练期间,奖励符元被掩盖,使 Transformer 可以学习根据先前的状态和动作内容预测动作,同时从数据集中提取行为。 然后,可以使用一个小型的奖励标注数据集对该预训练模型进行微调,以学习根据奖励函数实现所需行为所需的技能。
当环境动态发生变化时,迁移学习具有挑战性。 用于 DT 的一种训练方法(Boustati 等人,2021) 通过使用反事实推理来解决此挑战。 它在替代环境中生成反事实轨迹,这些轨迹用于训练更具适应性的学习代理。 此过程有助于规范代理对环境的内部表征,增强其对结构变化的适应性。 此外,视觉和序列编码器的无监督预训练也提高了下游少样本学习性能 (Putterman 等人,2021)。 通过利用预训练模型,代理可以快速适应新的、看不见的环境,并在有限的训练数据下实现更高的性能。
7.2. 稳定训练
在 RL 设置中,Transformer 模型需要学习率预热以防止由反向传播通过层归一化模块引起的偏差,这会使优化不稳定。 为了增强稳定性,Melo (2022) 提议使用 T-Fixup 初始化 (Huang 等人,2020b)。 这将 Xavier 初始化 (Glorot 和 Bengio,2010) 应用于除输入嵌入之外的所有参数,从而消除了对学习率预热和层归一化的需求。 在学习到的行为指导探索的环境中,这一点至关重要;它解决了早期训练阶段策略更具探索性且防止收敛到次优策略时的不稳定性。
门控 Transformer-XL (GTrXL) 架构 (Parisotto 等人,2020) 在稳定 RL 训练和提高性能方面已展现出可喜的结果。 它通过在残差模型中的输入流而不是快捷流上独占地应用层归一化,改进了原始 TrXL 架构。 此修改允许初始输入传播到所有层,从而促进训练稳定性。 GTrXL 用 门控循环单元 (GRU) 式门控机制替换残差连接。 此门控机制通过网络调节信息流,控制通过快捷方式传递的信息量。 这项新增的灵活性增强了模型对 RL 场景的适应性,并促进了稳定训练。
8. 可解释性
在医疗保健和自动驾驶等安全关键型应用中,学习到的 RL 策略的可解释性是可取的 (Glanois 等人,2021)。 这有助于建立信任,促进调试,并推动道德和公平的决策。 然而,实现可解释性一直是一个重大挑战,也是强化学习 (Milani 等人,2022;Heuillet 等人,2021) 进步的瓶颈。
解释 Transformer 的一种方法是使用热图可视化注意力权重 (Zhang 等人,2022c)。 这有助于理解哪些特征用于学习特定任务。 在多智能体场景中,这些可视化揭示了各个智能体集中注意力的输入空间的局部区域,从而促进协调和合作行为。 例如,Motokawa 和 Sugawara (2021) 引入了一种多智能体 Transformer 深度 -网络 (MAT-DQN),它将 Transformer 集成到深度 -网络中。 使用热图,MAT-DQN 提供了对影响智能体合作行为决策过程的重要输入信息的见解。
分析注意力热图揭示了智能体能够考虑其他智能体、相关对象和相关任务的能力,从而可以清楚地解释策略。 这种可视化在稀疏奖励设置中至关重要,在稀疏奖励设置中,了解哪个过去状态对决策影响最大至关重要。 注意力增强记忆 (AAM) (Qu 等人,2022) 通过将当前观察结果与记忆相结合来体现这一点。 这使智能体能够理解智能体在当前环境中“观察了什么”,以及智能体在记忆中“将注意力集中在哪里”。
增强可解释性的一个有趣方法是将 Transformer 用于神经符号策略 (Bastani 等人,2020)。 神经符号策略结合了程序和神经网络,以提高强化学习 任务的可解释性和灵活性。 具体来说,神经符号 Transformer 是传统 Transformer 模型的一种变体,它将程序化策略纳入注意力机制。 注意力层不使用神经网络,而是使用程序来确定要关注的相关输入。 这些程序化策略可以采用多种形式,包括决策树、规则列表和状态机。 此方法通过提供对代理为何关注特定输入的更精确理解和可视化来提高可解释性。
然而,事实证明,仅凭注意力权重并不可靠地预测自然语言处理(Serrano 和 Smith, 2019; Bai 等人, 2021)中中间组件的重要性,导致对模型决策的解释不准确;学习到的注意力权重通常会突出显示不太重要的符元,并且与其他特征重要性指标(如基于梯度的度量)的相关性很小。 此外,仅依赖注意力权重会导致支离破碎的解释,忽略了大多数其他计算。 近期工作引入了分配局部相关性分数(Chefer 等人, 2021)。 这些分数通过层传播,以实现基于类别的分离,并提高 Transformer 的可解释性。 此方法有望在未来研究中提高强化学习策略的可解释性。
9. 应用
强化学习传统上被限制在虚拟环境中不切实际的场景中。 然而,随着现代深度神经网络架构的出现,人们已经注意到向使用强化学习来解决更广泛的实际挑战的转变。 下一部分描述了强化学习(由 Transformer 提供支持)可以在其中产生重大影响的现实世界应用。
9.1. 机器人学
在机器人学中,自主代理会自动化复杂现实世界的任务;一个经典的例子是自动驾驶。 在这里,学习强化学习策略以进行轨迹规划至关重要:它涉及在考虑上下文信息的情况下预测环境中一个或多个代理的未来位置。 这需要通过对代理的空间和时间交互进行建模来进行充分的计划和协调。
多项研究建议使用 Transformer 来处理高维场景观察序列以预测动作。 一项最新研究(Kargar 和 Kyrki, 2022) 使用ViT从自我车辆的鸟瞰图中提取空间表示以学习驾驶策略。 与 卷积神经网络 (CNN) 相比,视觉Transformer (ViT) 在捕捉场景的全局上下文方面更加有效。 ViT 中使用的注意力机制允许策略辨别对自我车辆决策过程至关重要的邻近车辆。 因此,基于 ViT 的 DQN 智能体优于基于 CNN 的同类智能体。 Liu 等人 (2022b) 引入了一种 Transformer 架构来编码异构信息,包括自我车辆的历史状态和候选路线路点,并将这些信息编码到场景表示中。 这种方法提高了样本效率,并在推理过程中产生了更多样化和成功的驾驶行为。 对象记忆 Transformer (Fukushima 等人, 2022) 探讨了长期历史记录和第一人称视角如何提升物体导航任务中的导航性能。 一个物体场景记忆存储着长期场景和物体语义,并将注意力集中在过去观察中最显著的事件上。 结果表明,将长期物体历史记录与时间编码结合起来可以显著提高预测性能。
Transformer 在捕捉空间关系和代理内交互方面也表现出色,使它们成为促进协作探索和开发智能具身代理的理想工具。 多代理主动神经 SLAM (MAANS) (Yu 等人, 2022) 解决了协作多代理探索 (Oroojlooy 和 Hajinezhad, 2023) 的挑战,其中多个代理协同探索未知空间区域。 这种方法将单代理主动神经 SLAM (Chaplot 等人, 2020) 方法扩展到多代理场景,并利用基于自注意力的架构的多代理空间规划器,称为 Spatial-TeamFormer。 该方法分层地整合了代理内交互和空间关系,采用两层:一个捕获每个代理空间特征的个体空间编码器,以及一个用于推断代理之间交互的团队关系编码器。 为了专注于空间信息,代理内自注意力对每个代理的空间地图独立地执行空间自注意力。 团队关系编码器专注于捕捉团队间的交互,而不利用空间信息。 正如在 Habitat (Savva 等人, 2019) 上进行的实验所示,这使得 MAANS 在逼真的环境中优于基于规划的竞争对手。
9.2. 医学
强化学习 (RL) 有潜力帮助临床医生;涉及诊断、报告生成和药物发现的任务可以被视为顺序决策问题 (Yu 等人,2023)。
疾病诊断。 诊断一种疾病涉及对患者的信息(例如,治疗史、当前体征和症状)进行建模,以准确地了解该疾病。 Chen 等人 (2022b) 提出了一种用于疾病诊断的模型,称为 DxFormer。 它采用了一个解码器-编码器 Transformer 架构,其中解码器询问隐含症状。 同时,编码器负责疾病诊断,它将症状的输入序列建模为一个序列分类任务。 为了便于症状询问,解码器被制定为一个以序列化方式与患者模拟器交互的代理,生成可能与先前已知症状同时出现的可能症状标记,并询问它们。 查询过程持续进行,直到预测疾病的置信度水平超过选定的阈值,从而实现更准确和可靠的诊断。
临床报告生成。 强化学习 (RL) 可以通过使用适当的评估指标(如人工评估或基于共识的图像描述评估 (CIDEr) (Vedantam 等人,2015) 和 BLEU 指标作为奖励)来从图像生成医疗报告。 以前的医疗图像字幕方法受到它们依赖于 循环神经网络 (RNN) 进行文本生成的限制,这通常会导致缓慢的性能和不连贯的报告,正如 Xiong 等人 (2019) 所强调的那样。 为了解决这一限制,他们的工作引入了基于 Transformer 的 强化学习 (RL) 方法用于医疗图像字幕。 最初,一个预先训练的 卷积神经网络 (CNN) 用于识别胸部 X 光图像中的感兴趣区域。 然后,使用 Transformer 编码器从识别区域中提取视觉特征。 这些特征作为解码器的输入,解码器生成描述 X 光扫描的句子。 同样,Miura 等人 (2021) 使用了网格化内存 Transformer (M2 Trans) (Cornia 等人,2020) 生成放射学报告,证明比传统的 循环神经网络 (RNN) 和 Transformer 模型更有效。 M2 Trans 结合了一个 CNN 来提取图像区域。 然后使用记忆增强的注意力过程对这些区域进行编码。 这涉及到根据存储在记忆矩阵中的先验知识为图像分配注意力权重,这些记忆矩阵捕捉了不同区域之间的关系。 此模型使用奖励进行训练,旨在提高生成的报告的事实完整性和一致性。
药物发现。 RL 有潜力加速药物发现工作。 它已被用来偏置或微调生成模型,从而能够生成具有更理想特性的分子,例如生物活性。 用于分子的传统生成模型,例如 RNN 或 生成对抗网络 (GAN) (Goodfellow et al., 2014) 在满足特定约束方面存在局限性,例如可合成性或理想的物理性质。 最近的研究 (Wang et al., 2021a; Li et al., 2022b; Yang et al., 2021; Liu et al., 2023) 使用 Transformer 作为分子生成的生成模型。 这些方法生成具有丰富语义特征的更好的似是而非的分子。 一个鉴别器授予奖励,这些奖励指导生成器的策略更新。 这些工作表明,基于 Transformer 的方法显着提高了捕获和利用结构-性质关系的能力,从而导致更高的结构多样性和更广泛的生成的分子支架类型。
9.3. 语言建模
语言建模涉及理解语言的顺序上下文,以执行各种任务,例如识别、解释或检索。 像 GPT 这样的大型语言模型利用了在庞大语料库上的预训练,使它们能够通过从学习的分布中采样来生成流畅的自然语言,从而最大限度地减少了对大量特定领域知识工程的需求。 但是,这些模型在维护任务一致性和目标导向性方面面临挑战。 Alabdulkarim 等人 (2021) 使用 近端策略优化 (PPO) 来微调现有的基于 Transformer 的语言模型,专门用于故事生成以解决此问题。 此方法输入文本提示并根据提供的目标生成故事。 此策略使用奖励机制进行更新,该机制考虑了生成的故事与所需的输入目标的接近程度,以及故事中动词出现频率与目标的比较。
许多研究使用增量学习,从数据有限的预训练语言模型中获益,在冻结的预训练语言模型上加入特定任务的适配器。 Jo 等人 (2022) 使用 强化学习 (RL) 在通用预训练语言模型和特定任务的适配器之间选择性地采样符元。 作者认为,这使适配器能够专注于输出序列中与任务相关的部分,从而使模型更能抵抗过度拟合。 Cohen 等人 (2022) 介绍了一种由 强化学习 (RL) 支持的对话机器人,其中预训练模型对对话历史进行编码。 鉴于对话系统的动作空间可能非常大,作者建议将动作空间限制为在每次对话轮次中生成的一组候选动作。 他们使用 学习型 强化学习 (RL) 来允许在对话的每个阶段动态调整动作空间。
仅仅增加语言模型的大小并不一定能减轻训练数据中存在有毒偏差的风险。 已经提出了几种基于 RL 的方法来更好地使这些模型与用户的预期目标保持一致。 为了使 GPT-3 与用户的偏好意图保持一致,Ouyang 等人 (2022) 引入了 InstructGPT。 首先,作者建议收集一组人类编写的所需输出行为的演示,并使用监督学习对 GPT-3 进行微调。 接下来,根据模型输出从最好到最差的排名训练奖励模型。 使用此奖励模型,使用 PPO 通过 RL 进一步优化模型。 结果表明,具有 13 亿个参数的 InstructGPT 比具有 1750 亿个参数的更大模型(如 GPT-3)产生更优的输出。 Faal 等人 (2023) 提出了一种通过使用 PPO 微调来缓解语言模型中毒的替代方法。 他们使用基于多任务学习的奖励模型来减轻与各种社会身份相关的毒性预测中意外偏差。
9.4. 边缘和云计算
RL 是优化需要实时适应不断变化的条件的决策系统性能的宝贵工具,例如边缘和云计算中使用的系统。 在边缘计算中,RL 可以优化资源受限的 物联网 (IoT) 设备的性能 (陈等人,2021b)。 在云计算中,RL 可用于优化大规模分布式系统中的资源分配和调度 (Gondhi 和 Gupta,2017)。 在这两种情况下,将 Transformer 与 RL 集成特别有用,因为它们可以处理高维感官状态 (Ho 等人,2019) 和符号状态序列 (Bhattamishra 等人,2020)。
Wang 等人 (2022d) 提出的分布式深度 RL 算法利用 Transformer 对策略进行建模,以优化车联网中的卸载策略。 这些网络支持车对车通信。 为了表示输入子任务的优先级和依赖关系,使用 有向无环图 (DAG)。 之后,Transformer 采用的注意力机制允许从这种基于 DAG 的拓扑表示中有效地提取状态信息。 这有利于做出明智的卸载决策。 此算法中使用的奖励函数优化了延迟和能耗,从而提供了宝贵的反馈。 这种方法使车辆代理更快地收敛到均衡状态。
9.5. 组合优化
组合优化涉及找到一组离散参数的值,这些值最小化成本函数 (Mazyavkina 等人,2021)。 近年来,基于 Transformer 的模型在组合优化方面(例如,针对旅行商问题和路径规划问题)展现出巨大潜力,这是由于它们能够处理时序数据并对实体之间复杂的关联关系进行建模。
旅行商问题。 该问题是一个经典的组合优化问题,通常存在于人员排班应用中。 该问题已被 Smith (2022) 形式化为一个 强化学习 问题。 该问题是 NP-hard 问题,而不是 NP-complete 问题。 蛮力算法的高多项式复杂度使得开发更快的算法成为必要。 本研究使用 决策 Transformer (DT) 来解决这一挑战。 DT 以随机游走作为输入,旨在找到所有节点之间的最优路径。 DT 的优势在于其具有伪线性时间可扩展性,因为它只需要在路径中的每个节点预测一次。 这显著优于动态规划和模拟退火等先前方法,这些方法具有多项式和指数复杂度。 但是,DT 并不总是能够准确地模拟旅行商问题,导致性能不一致。
路径规划。 在运输、物流和网络等行业中,识别图中两个节点之间最有效的路线至关重要 (Mor and Speranza, 2022)。 传统的启发式算法可能并不总是能够得到最优解,因为适应不断变化的条件具有挑战性 (Wu et al., 2022)。 图神经网络 (GNN) 已被用于解决这些挑战 (Lu et al., 2020)。 然而,这些可能不足以处理具有复杂相互关系和结构的数据,从而促使人们使用 Transformer。 此外,路由通常需要针对成本、时间或距离等多种约束进行优化,这可以使用强化学习来解决。 王和陈(2022)提出了一种基于Transformer的策略,使用标准Transformer编码器和位置编码来解决路由问题,这保证了输入节点的平移不变性。 解码器中使用了图神经网络层,可以考虑节点关系形成的图的拓扑结构。 然后使用REINFORCE算法(Williams, 1992)训练策略。 与传统方法相比,这种方法提高了学习效率和优化精度,同时在新的场景中提供了更好的泛化能力。
9.6. 环境科学
强化学习算法可以通过优化系统和技术的行为来帮助解决气候变化,从而减少温室气体排放并减轻气候变化的影响(Strnad et al., 2019)。 这些算法可以学习并适应多种约束,在不影响生产力的前提下优化性能。 然而,在这种情况下,强化学习算法必须依赖存储在内存中的过去上下文,整合先验知识对于它们的成功至关重要,这表明了使用Transformer。
Nasir和Durlofsky (2023)将闭环储层管理问题表述为部分可观测马尔可夫决策过程(POMDP)。 在地下水流环境中,例如油田,目标是在最大限度地降低成本和环境影响的同时,尽可能多地提取石油。 但是,这需要对井压设置做出决策,而这些决策往往会受到地质模型不确定性的影响。 这项工作使用近端策略优化(PPO)对强化学习策略进行建模,并使用时间卷积和门控Transformer块来有效地表示状态。 该框架的训练是使用从先验地质模型集合中进行的流动模拟生成的数据完成的。 在经过适当的训练后,该策略会立即将观察到的井流数据映射到最佳压力。 这种方法有助于降低计算成本,并改善地下水流环境中的决策。
Wang 等人(2022b) 介绍了基于 Transformer 的多智能体演员-评论家框架(T-MAAC),利用 MARL 算法在配电网络中稳定电压。 该框架认识到电网中多个单元之间协调以处理可再生能源集成增加导致的电力系统快速变化的必要性,并通过使用 MARL 算法解决这一问题。 所提出的方法引入了基于 Transformer 的演员,该演员将电网状态表示作为输入,并输出配电网中每个智能体可以产生的最大无功功率比。 随后,评论家使用自注意力机制来近似全局 值,以模拟整个电网中智能体之间的相关性。 策略通过奖励形式的反馈得到强化,旨在控制电压在安全范围内,同时最大限度地减少配电网络中的功率损耗。 这种方法始终如一地提高了主动电压控制任务的有效性。
9.7. 调度
调度问题涉及在考虑诸如资源可用性或任务之间依赖性之类的约束的情况下,确定在指定时间范围内任务或事件的最佳安排 (Allahverdi, 2016)。 此问题可能出现在各种情况下,例如在制造中调度作业或优化计算机资源使用情况,并且可以使用各种技术来解决 (Parmentier 和 T’kindt, 2023)。 Transformer 现在被用于解决调度问题。
作业车间调度问题(JSSP)是一个经典的 NP 难问题,它涉及在一组机器上调度一组作业,其中每个作业必须在每台机器上精确处理一次,并且受各种约束条件的限制。 RL 算法使用 析取图嵌入递归解码 (DGERD) Transformer 解决 JSSP 的方法由 Chen 等人 (2023) 提出。 这项工作使用注意力机制和析取图嵌入对 JSSP 进行建模,这使得能够捕获作业和机器之间复杂的相互关系。 在 JSSP 的背景下,注意力模块学习根据作业或机器的重要性或可用性来优先处理某些作业或机器。 通过这样做,它可以生成更有效和更强大的调度计划。 析取图嵌入将 JSSP 实例转换为图表示,以捕获结构属性,从而实现更好的泛化并减少过拟合。 这充当了包含并行计算编码器和循环计算解码器的 DGERD 变换器的输入。 编码器采用 JSSP 实例的析取图嵌入,并生成一组隐藏表示,这些表示捕获了输入的相关特征。 然后将此隐藏表示馈送到解码器以按顺序生成输出计划。 该策略使用来自环境的反馈(以制造周期(从工作开始到结束的时间长度)和延迟惩罚的形式)进行优化。 这有助于生成既快又可靠的计划。
9.8. 交易
股票投资组合优化涉及选择资产的最佳组合,以在最小化风险的情况下获得尽可能高的回报 (Hieu, 2020)。 由于影响投资组合表现的各种因素 (Haugh and Lo, 2001),这一过程可能具有挑战性,其中包括市场状况、经济事件以及单个股票价值的变化。 可以使用多种技术来优化投资组合,包括现代投资组合理论和优化算法 (Thakkar and Chaudhari, 2021),而 RL 就是一种自动化交易过程的方法。 对于此应用,RL 涉及训练模型根据历史数据和市场状况做出交易决策,以最大限度地提高投资组合随时间的回报。
尽管过去的表现可能不代表未来的结果,但数据驱动的方法依赖于过去的特征来模拟特定股票的预期未来表现。 这是因为各种历史数据点,例如价格趋势、交易量和市场情绪,可能暗示股票的未来表现 (Milosevic, 2016)。 在投资组合优化中,有必要考虑短期和长期趋势 (Ta et al., 2020)。 变换器架构非常适合此任务。
变换器在投资组合选择中的首次应用,如 Xu et al. (2020) 所介绍,涉及使用 关系感知变换器 (RAT)。 这使用编码器-解码器变换器架构来建模 RL 策略。 编码器将资产(例如股票和加密货币)的顺序价格序列作为输入状态。 它执行顺序特征提取,包括一个顺序注意力层,用于捕获资产价格中的模式,以及一个关系注意力层,用于捕获资产之间的相关性。 解码器具有类似于编码器的网络,还有一个决策层,该层包含杠杆率,并能够对每种资产做出准确的决策,包括卖空。 最终行动是通过组合初始投资组合向量、卖空向量和再投资向量来确定的。 然后,代理会收到基于奖励的反馈,以投资组合的对数回报来衡量。 为了评估所提出的方法,使用现实世界的加密货币和股票数据集,并与最先进的投资组合选择方法进行比较。 结果表明,该方法比现有方法有显著改进。
9.9. 超参数优化
超参数优化 (HPO) 包括为训练机器学习模型找到一组最佳的超参数。 机器学习模型中一些常用的超参数包括学习率、批次大小、神经网络中隐藏单元的数量以及激活函数。 因此,由于大型模型的搜索空间相应地很大,找到这些超参数的最佳组合可能很困难 (Ali 等人,2023)。 手动设置超参数值速度很快,但需要专业知识和领域知识 (Shawki 等人,2021)。 自动化技术(如随机搜索、网格搜索或贝叶斯优化)可以自动找到理想的超参数组合 (Bergstra 和 Bengio,2012; Snoek 等人,2015),但将整体计算成本降至最低仍然是一个挑战。 这些自动调整器很少在复杂的任务中表现良好,并且随着模型复杂性的增加,容易出错 (Shawki 等人,2021)。
注意力和记忆增强 (AME) (Xu 等人,2022a) 是一种基于 Transformer 的搜索算法,用于增强超参数的选择,从而解决了这些挑战。 AME 利用 RL 并解决 HPO,而无需依赖分布假设。 使用 GTrXL 对代理或搜索器进行建模,并根据奖励学习一系列状态到动作的映射。 在此背景下,状态是指评估的配置组合,而动作是指代理从搜索空间中选择的新的配置。 利用 GTrXL 通过记忆机制和多头注意力提高了捕获不同配置之间关系的能力,从而实现了注意力采样。 代理使用奖励形式的反馈进行训练,这促进了高性能配置的生成,并惩罚导致性能降低的配置。 因此,它有效地定位了广阔搜索空间中的高性能配置。 结果表明,AME 算法在适应不同任务、效率和稳定性方面优于其他 HPOs,如贝叶斯优化、进化算法和随机搜索方法。
10. 限制
如上所述,Transformer 正在逐步集成到 RL 中,用于各种应用。 尽管取得了这些进步,但一些限制阻碍了它们的大规模使用。 本节详细介绍了这些限制,并为未来的研究提供了见解。
平衡局部和全局上下文。 在 RL 中,全局上下文信息对于有效的高级规划至关重要 (Barto and Mahadevan, 2003)。 此信息与称为局部上下文的额外附近细节相结合,以准确预测低级动作。 正如 Li 等人 (2019); Wang 等人 (2021b) 所述,Transformer 在捕获局部上下文方面可能不如其他模型有效。 这种限制主要是由于自注意力机制,该机制使用点积比较序列中所有元素的查询和键。 这种逐点比较没有直接考虑每个序列位置的局部上下文,这可能导致由于噪声局部点而产生的混淆。 近期研究 (Lin 等人,2023;Wang 等人,2022a,2021c) 受 卷积神经网络 (CNN) 的启发,对原始注意力机制进行了修改,以更有效地平衡局部和全局上下文。 这些方法包括基于局部窗口的边界感知注意力,允许模型在做出预测时关注附近细节的小窗口和全局上下文。
弱归纳偏差。 卷积神经网络 (CNN) 和 长短期记忆网络 (LSTM) (Hochreiter 和 Schmidhuber,1997) 模型对数据集的结构具有很强的归纳偏差,这有助于缩小搜索空间并加快训练速度 (d’Ascoli 等人,2021)。 这使得它们更适合训练数据较少的场景。 然而,Transformer 具有相对较弱的归纳偏差,使其更能够找到一般解决方案 (Hessel 等人,2019),但更容易过拟合,尤其是在数据较少的情况下。 这种局限性在 强化学习 (RL) 中可能是一个重大挑战,因为训练策略已经需要数百万条轨迹。 此外,像决策 Transformer 这样的学习模型需要从学习到的策略中收集轨迹,这可能更具挑战性。 解决 Transformer 弱归纳偏差的一种方法是使用基础模型 (Zhou 等人,2023;Moor 等人,2023)。 基础模型是在大型和多样化的数据集上预训练的,这使它们能够学习可应用于各种下游任务的一般模式。 通过在较小的特定任务数据集上微调预训练模型,基础模型可以以更少的数据实现最先进的结果。
二次复杂度。 由于符元之间成对比较的二次增长,Transformer 的自注意力机制随着输入序列长度的增加变得计算成本更高 (Keles 等人,2023)。 这种限制,加上硬件和模型尺寸的限制,限制了 Transformer 处理较长输入序列的能力,使其不适合需要大量上下文信息(如文档摘要或基因组片段分类)的特定任务。 这种限制在需要扩展时间建模的应用中也可能对 强化学习 (RL) 构成挑战。 然而,最近的一些工作 (Katharopoulos 等人,2020;Lu 等人,2021;Ren 等人,2021) 提供了将这种成本降低到线性或亚二次的方法,为在需要较长输入序列的应用中使用 Transformer 提供了新的可能性。
11. 结论
本综述探讨了 Transformer 在 强化学习 中的多样化应用,包括表示学习、奖励建模、转移函数建模和策略学习。 虽然原始的 Transformer 架构存在局限性,但它可以针对许多 强化学习 应用进行修改。 我们展示了 Transformer 的进步,这些进步将 强化学习 的范围扩展到了机器人技术、药物发现、股票交易和云计算等现实世界的问题。 最后,我们讨论了 Transformer 在 强化学习 中的当前局限性以及该领域的持续研究。 鉴于其在解决传统 强化学习 中常见问题的多功能性,例如部分可观察性、信用分配、可解释性和训练不稳定性,我们预计 Transformer 架构将继续在 强化学习 领域中流行起来。
致谢. 我们感谢 CIFAR、Google 和 CMLabs 对该项目的资助,并感谢 Vincent Michalski 提供宝贵的反馈。
参考文献
- (1)
- Alabdulkarim et al. (2021) Amal Alabdulkarim, Winston Li, Lara J. Martin, and Mark O. Riedl. 2021. Goal-Directed Story Generation: Augmenting Generative Language Models with Reinforcement Learning. CoRR abs/2112.08593 (2021).
- Ali et al. (2023) Yasser A Ali, Emad Mahrous Awwad, Muna Al-Razgan, and Ali Maarouf. 2023. Hyperparameter Search for Machine Learning Algorithms for Optimizing the Computational Complexity. Processes 11, 2 (2023), 349.
- Allahverdi (2016) Ali Allahverdi. 2016. A survey of scheduling problems with no-wait in process. Eur. J. Oper. Res. 255, 3 (2016), 665–686.
- AlMahamid and Grolinger (2021) Fadi AlMahamid and Katarina Grolinger. 2021. Reinforcement Learning Algorithms: An Overview and Classification. In 34th IEEE Canadian Conference on Electrical and Computer Engineering, CCECE 2021. IEEE, 1–7.
- Arulkumaran et al. (2022) Kai Arulkumaran, Dylan R. Ashley, Jürgen Schmidhuber, and Rupesh Kumar Srivastava. 2022. All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL. CoRR abs/2202.11960 (2022).
- Arulkumaran et al. (2017) Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, and Anil Anthony Bharath. 2017. Deep Reinforcement Learning: A Brief Survey. IEEE Signal Process. Mag. 34, 6 (2017), 26–38.
- Ausin et al. (2021) Markel Sanz Ausin, Mehak Maniktala, Tiffany Barnes, and Min Chi. 2021. Tackling the Credit Assignment Problem in Reinforcement Learning-Induced Pedagogical Policies with Neural Networks. In Artificial Intelligence in Education - 22nd International Conference, AIED, Utrecht, Netherlands, Vol. 12748. Springer, 356–368.
- Bai et al. (2021) Bing Bai, Jian Liang, Guanhua Zhang, Hao Li, Kun Bai, and Fei Wang. 2021. Why Attentions May Not Be Interpretable?. In KDD ’21: The 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining,. ACM, 25–34.
- Banino et al. (2022) Andrea Banino, Adrià Puigdomènech Badia, Jacob C. Walker, Tim Scholtes, Jovana Mitrovic, and Charles Blundell. 2022. CoBERL: Contrastive BERT for Reinforcement Learning. In The Tenth International Conference on Learning Representations, ICLR.
- Barto and Mahadevan (2003) Andrew G. Barto and Sridhar Mahadevan. 2003. Recent Advances in Hierarchical Reinforcement Learning. Discret. Event Dyn. Syst. 13, 1-2 (2003), 41–77.
- Bastani et al. (2020) Osbert Bastani, Jeevana Priya Inala, and Armando Solar-Lezama. 2020. Interpretable, Verifiable, and Robust Reinforcement Learning via Program Synthesis. In xxAI - Beyond Explainable AI - International Workshop, Held in Conjunction with ICML, Vol. 13200. Springer, 207–228.
- Battaglia et al. (2018) Peter W. Battaglia, Jessica B. Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinícius Flores Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, Çaglar Gülçehre, H. Francis Song, Andrew J. Ballard, Justin Gilmer, George E. Dahl, Ashish Vaswani, Kelsey R. Allen, Charles Nash, Victoria Langston, Chris Dyer, Nicolas Heess, Daan Wierstra, Pushmeet Kohli, Matthew M. Botvinick, Oriol Vinyals, Yujia Li, and Razvan Pascanu. 2018. Relational inductive biases, deep learning, and graph networks. CoRR abs/1806.01261 (2018).
- Bellemare et al. (2015) Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. 2015. The Arcade Learning Environment: An Evaluation Platform for General Agents (Extended Abstract). In Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence, IJCAI 2015, Buenos Aires, Argentina, July 25-31, 2015, Qiang Yang and Michael J. Wooldridge (Eds.). AAAI Press, 4148–4152. http://ijcai.org/Abstract/15/585
- Benjamins et al. (2022) Carolin Benjamins, Theresa Eimer, Frederik Schubert, Aditya Mohan, André Biedenkapp, Bodo Rosenhahn, Frank Hutter, and Marius Lindauer. 2022. Contextualize Me - The Case for Context in Reinforcement Learning. CoRR abs/2202.04500 (2022).
- Bergstra and Bengio (2012) James Bergstra and Yoshua Bengio. 2012. Random Search for Hyper-Parameter Optimization. J. Mach. Learn. Res. 13 (2012), 281–305.
- Bhattamishra et al. (2020) Satwik Bhattamishra, Arkil Patel, and Navin Goyal. 2020. On the Computational Power of Transformers and Its Implications in Sequence Modeling. In Proceedings of the 24th Conference on Computational Natural Language Learning, CoNLL 2020, Online, November 19-20, 2020. Association for Computational Linguistics, 455–475.
- Boustati et al. (2021) Ayman Boustati, Hana Chockler, and Daniel C. McNamee. 2021. Transfer learning with causal counterfactual reasoning in Decision Transformers. CoRR abs/2110.14355 (2021).
- Brown et al. (2020) Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language Models are Few-Shot Learners. (2020).
- Carta et al. (2020) Thomas Carta, Subhajit Chaudhury, Kartik Talamadupula, and Michiaki Tatsubori. 2020. VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement Learning. CoRR abs/2010.13839 (2020).
- Chaplot et al. (2020) Devendra Singh Chaplot, Dhiraj Gandhi, Saurabh Gupta, Abhinav Gupta, and Ruslan Salakhutdinov. 2020. Learning To Explore Using Active Neural SLAM. In 8th International Conference on Learning Representations, ICLR.
- Chefer et al. (2021) Hila Chefer, Shir Gur, and Lior Wolf. 2021. Transformer Interpretability Beyond Attention Visualization. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR. Computer Vision Foundation / IEEE, 782–791.
- Chen et al. (2022a) Chang Chen, Yi-Fu Wu, Jaesik Yoon, and Sungjin Ahn. 2022a. TransDreamer: Reinforcement Learning with Transformer World Models. CoRR abs/2202.09481 (2022).
- Chen et al. (2021a) Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, and Igor Mordatch. 2021a. Decision Transformer: Reinforcement Learning via Sequence Modeling. (2021), 15084–15097.
- Chen et al. (2023) Ruiqi Chen, Wenxin Li, and Hongbing Yang. 2023. A Deep Reinforcement Learning Framework Based on an Attention Mechanism and Disjunctive Graph Embedding for the Job-Shop Scheduling Problem. IEEE Trans. Ind. Informatics 19, 2 (2023), 1322–1331.
- Chen and Tan (2023) Renlong Chen and Ying Tan. 2023. Credit assignment with predictive contribution measurement in multi-agent reinforcement learning. Neural Networks 164 (2023), 681–690. https://doi.org/10.1016/j.neunet.2023.05.021
- Chen et al. (2021b) Wuhui Chen, Xiaoyu Qiu, Ting Cai, Hong-Ning Dai, Zibin Zheng, and Yan Zhang. 2021b. Deep Reinforcement Learning for Internet of Things: A Comprehensive Survey. IEEE Commun. Surv. Tutorials 23, 3 (2021), 1659–1692.
- Chen et al. (2022b) Wei Chen, Cheng Zhong, Jiajie Peng, and Zhongyu Wei. 2022b. DxFormer: A Decoupled Automatic Diagnostic System Based on Decoder-Encoder Transformer with Dense Symptom Representations. CoRR abs/2205.03755 (2022).
- Choi et al. (2020) Kristy Choi, Curtis Hawthorne, Ian Simon, Monica Dinculescu, and Jesse H. Engel. 2020. Encoding Musical Style with Transformer Autoencoders. In Proceedings of the 37th International Conference on Machine Learning, ICML, Vol. 119. PMLR, 1899–1908.
- Cohen et al. (2022) Deborah Cohen, Moonkyung Ryu, Yinlam Chow, Orgad Keller, Ido Greenberg, Avinatan Hassidim, Michael Fink, Yossi Matias, Idan Szpektor, Craig Boutilier, and Gal Elidan. 2022. Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning. CoRR abs/2208.02294 (2022).
- Cornia et al. (2020) Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, and Rita Cucchiara. 2020. Meshed-Memory Transformer for Image Captioning. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR. Computer Vision Foundation / IEEE, 10575–10584.
- Dai et al. (2019) Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G. Carbonell, Quoc Viet Le, and Ruslan Salakhutdinov. 2019. Transformer-XL: Attentive Language Models beyond a Fixed-Length Context. In Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL. Association for Computational Linguistics, 2978–2988.
- d’Ascoli et al. (2021) Stéphane d’Ascoli, Hugo Touvron, Matthew L. Leavitt, Ari S. Morcos, Giulio Biroli, and Levent Sagun. 2021. ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases. In Proceedings of the 38th ICML, Vol. 139. PMLR, 2286–2296.
- Devlin et al. (2019) Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers). Association for Computational Linguistics, 4171–4186.
- Dong et al. (2018) Linhao Dong, Shuang Xu, and Bo Xu. 2018. Speech-Transformer: A No-Recurrence Sequence-to-Sequence Model for Speech Recognition. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2018, Calgary, AB, Canada, April 15-20, 2018. IEEE, 5884–5888.
- Dosovitskiy et al. (2021) Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In 9th International Conference on Learning Representations, ICLR.
- Dwivedi and Bresson (2020) Vijay Prakash Dwivedi and Xavier Bresson. 2020. A Generalization of Transformer Networks to Graphs. CoRR abs/2012.09699 (2020).
- Esslinger et al. (2022) Kevin Esslinger, Robert Platt, and Christopher Amato. 2022. Deep Transformer Q-Networks for Partially Observable Reinforcement Learning. CoRR abs/2206.01078 (2022).
- Faal et al. (2023) Farshid Faal, Ketra A. Schmitt, and Jia Yuan Yu. 2023. Reward modeling for mitigating toxicity in transformer-based language models. Appl. Intell. 53, 7 (2023), 8421–8435.
- Featherstone (2014) Roy Featherstone. 2014. Rigid body dynamics algorithms. Springer.
- Finn et al. (2017) Chelsea Finn, Pieter Abbeel, and Sergey Levine. 2017. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. In Proceedings of the 34th ICML, Vol. 70. PMLR, 1126–1135.
- Foerster et al. (2016) Jakob N. Foerster, Yannis M. Assael, Nando de Freitas, and Shimon Whiteson. 2016. Learning to Communicate with Deep Multi-Agent Reinforcement Learning. In NeurIPS. 2137–2145.
- Fukushima et al. (2022) Rui Fukushima, Kei Ota, Asako Kanezaki, Yoko Sasaki, and Yusuke Yoshiyasu. 2022. Object Memory Transformer for Object Goal Navigation. arXiv preprint arXiv:2203.14708 (2022).
- Ghosh and Bellemare (2020) Dibya Ghosh and Marc G. Bellemare. 2020. Representations for Stable Off-Policy Reinforcement Learning. In Proceedings of the 37th ICML, Vol. 119. PMLR, 3556–3565.
- Glanois et al. (2021) Claire Glanois, Paul Weng, Matthieu Zimmer, Dong Li, Tianpei Yang, Jianye Hao, and Wulong Liu. 2021. A Survey on Interpretable Reinforcement Learning. CoRR abs/2112.13112 (2021).
- Glorot and Bengio (2010) Xavier Glorot and Yoshua Bengio. 2010. Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, AISTATS 2010, Chia Laguna Resort, Sardinia, Italy, May 13-15, 2010 (JMLR Proceedings, Vol. 9), Yee Whye Teh and D. Mike Titterington (Eds.). JMLR.org, 249–256. http://proceedings.mlr.press/v9/glorot10a.html
- Gondhi and Gupta (2017) Naveen Kumar Gondhi and Ayushi Gupta. 2017. Survey on machine learning based scheduling in cloud computing. In Proceedings of the 2017 International Conference on Intelligent Systems, Metaheuristics & Swarm Intelligence. 57–61.
- Goodfellow et al. (2014) Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, and Yoshua Bengio. 2014. Generative Adversarial Networks. CoRR abs/1406.2661 (2014).
- Gopalakrishnan et al. (2023) Anand Gopalakrishnan, Kazuki Irie, Jürgen Schmidhuber, and Sjoerd van Steenkiste. 2023. Unsupervised Learning of Temporal Abstractions With Slot-Based Transformers. Neural Comput. 35, 4 (2023), 593–626.
- Goulão and Oliveira (2022) Manuel Goulão and Arlindo L. Oliveira. 2022. Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning. CoRR abs/2209.10901 (2022).
- Gronauer and Diepold (2022) Sven Gronauer and Klaus Diepold. 2022. Multi-agent deep reinforcement learning: a survey. Artif. Intell. Rev. 55, 2 (2022), 895–943.
- Guedj (2019) Benjamin Guedj. 2019. A Primer on PAC-Bayesian Learning. CoRR abs/1901.05353 (2019).
- Gupta et al. (2021) Nikunj Gupta, G. Srinivasaraghavan, Swarup Kumar Mohalik, and Matthew E. Taylor. 2021. HAMMER: Multi-Level Coordination of Reinforcement Learning Agents via Learned Messaging. CoRR abs/2102.00824 (2021).
- Ha and Schmidhuber (2018) David Ha and Jürgen Schmidhuber. 2018. World Models. CoRR abs/1803.10122 (2018). arXiv:1803.10122 http://arxiv.org/abs/1803.10122
- Hafner et al. (2021) Danijar Hafner, Timothy P. Lillicrap, Mohammad Norouzi, and Jimmy Ba. 2021. Mastering Atari with Discrete World Models. In 9th International Conference on Learning Representations, ICLR.
- Haugh and Lo (2001) Martin B. Haugh and Andrew W. Lo. 2001. Computational challenges in portfolio management. Comput. Sci. Eng. 3, 3 (2001), 54–59.
- Hernandez et al. (2021) Alberto Olmo Hernandez, Sarath Sreedharan, and Subbarao Kambhampati. 2021. GPT3-to-plan: Extracting plans from text using GPT-3. CoRR abs/2106.07131 (2021).
- Hessel et al. (2019) Matteo Hessel, Hado van Hasselt, Joseph Modayil, and David Silver. 2019. On Inductive Biases in Deep Reinforcement Learning. CoRR abs/1907.02908 (2019).
- Heuillet et al. (2021) Alexandre Heuillet, Fabien Couthouis, and Natalia Díaz Rodríguez. 2021. Explainability in deep reinforcement learning. Knowl. Based Syst. 214 (2021), 106685.
- Hieu (2020) Le Trung Hieu. 2020. Deep Reinforcement Learning for Stock Portfolio Optimization. CoRR abs/2012.06325 (2020).
- Ho et al. (2019) Jonathan Ho, Nal Kalchbrenner, Dirk Weissenborn, and Tim Salimans. 2019. Axial Attention in Multidimensional Transformers. CoRR abs/1912.12180 (2019).
- Hochreiter (1998) Sepp Hochreiter. 1998. The Vanishing Gradient Problem During Learning Recurrent Neural Nets and Problem Solutions. Int. J. Uncertain. Fuzziness Knowl. Based Syst. 6, 2 (1998), 107–116.
- Hochreiter and Schmidhuber (1997) Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long Short-Term Memory. Neural Comput. 9, 8 (1997), 1735–1780.
- Hu et al. (2021) Siyi Hu, Fengda Zhu, Xiaojun Chang, and Xiaodan Liang. 2021. UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers. CoRR abs/2101.08001 (2021).
- Huang et al. (2020a) Wenlong Huang, Igor Mordatch, and Deepak Pathak. 2020a. One Policy to Control Them All: Shared Modular Policies for Agent-Agnostic Control. In Proceedings of the 37th International Conference on Machine Learning, ICML, Vol. 119. PMLR, 4455–4464.
- Huang et al. (2020b) Xiao Shi Huang, Felipe Pérez, Jimmy Ba, and Maksims Volkovs. 2020b. Improving Transformer Optimization Through Better Initialization. In Proceedings of the 37th International Conference on Machine Learning, ICML, Vol. 119. PMLR, 4475–4483.
- Hung et al. (2018) Chia-Chun Hung, Timothy P. Lillicrap, Josh Abramson, Yan Wu, Mehdi Mirza, Federico Carnevale, Arun Ahuja, and Greg Wayne. 2018. Optimizing Agent Behavior over Long Time Scales by Transporting Value. CoRR abs/1810.06721 (2018).
- Icarte et al. (2020) Rodrigo Toro Icarte, Richard Anthony Valenzano, Toryn Q. Klassen, Phillip J. K. Christoffersen, Amir-massoud Farahmand, and Sheila A. McIlraith. 2020. The act of remembering: a study in partially observable reinforcement learning. CoRR abs/2010.01753 (2020).
- Jaegle et al. (2022) Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier J. Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, and João Carreira. 2022. Perceiver IO: A General Architecture for Structured Inputs & Outputs. (2022).
- Janner et al. (2021) Michael Janner, Qiyang Li, and Sergey Levine. 2021. Offline Reinforcement Learning as One Big Sequence Modeling Problem. In NeurIPS. 1273–1286.
- Jo et al. (2022) DaeJin Jo, Taehwan Kwon, Eun-Sol Kim, and Sungwoong Kim. 2022. Selective Token Generation for Few-shot Natural Language Generation. In Proceedings of the 29th International Conference on Computational Linguistics, COLING 2022, Gyeongju, Republic of Korea, October 12-17, 2022. International Committee on Computational Linguistics, 5837–5856.
- Kalashnikov et al. (2018) Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, and Sergey Levine. 2018. Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation. In 2nd Annual Conference on Robot Learning, CoRL 2018, Zürich, Vol. 87. PMLR, 651–673.
- Kaplan et al. (2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020).
- Kargar and Kyrki (2021) Eshagh Kargar and Ville Kyrki. 2021. Vision Transformer for Learning Driving Policies in Complex Multi-Agent Environments. CoRR abs/2109.06514 (2021).
- Kargar and Kyrki (2022) Eshagh Kargar and Ville Kyrki. 2022. Vision Transformer for Learning Driving Policies in Complex and Dynamic Environments. In IEEE Intelligent Vehicles Symposium. IEEE, 1558–1564.
- Karpathy et al. (2014) Andrej Karpathy, George Toderici, Sanketh Shetty, Thomas Leung, Rahul Sukthankar, and Li Fei-Fei. 2014. Large-Scale Video Classification with Convolutional Neural Networks. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR. IEEE Computer Society, 1725–1732.
- Katharopoulos et al. (2020) Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, and François Fleuret. 2020. Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention. In Proceedings of the 37th ICML, Vol. 119. PMLR, 5156–5165.
- Keles et al. (2023) Feyza Duman Keles, Pruthuvi Mahesakya Wijewardena, and Chinmay Hegde. 2023. On The Computational Complexity of Self-Attention. In International Conference on Algorithmic Learning Theory, Vol. 201. PMLR, 597–619.
- Khan et al. (2022) Muhammad Junaid Khan, Syed Hammad Ahmed, and Gita Sukthankar. 2022. Transformer-Based Value Function Decomposition for Cooperative Multi-Agent Reinforcement Learning in StarCraft. (2022), 113–119.
- Khan et al. (2021) Salman H. Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, and Mubarak Shah. 2021. Transformers in Vision: A Survey. CoRR abs/2101.01169 (2021).
- Killian et al. (2023) Taylor W. Killian, Sonali Parbhoo, and Marzyeh Ghassemi. 2023. Risk Sensitive Dead-end Identification in Safety-Critical Offline Reinforcement Learning. Trans. Mach. Learn. Res. 2023 (2023).
- Kim et al. (2023) Changyeon Kim, Jongjin Park, Jinwoo Shin, Honglak Lee, Pieter Abbeel, and Kimin Lee. 2023. Preference Transformer: Modeling Human Preferences using Transformers for RL. CoRR abs/2303.00957 (2023).
- Kingma and Welling (2019) Diederik P. Kingma and Max Welling. 2019. An Introduction to Variational Autoencoders. Found. Trends Mach. Learn. 12, 4 (2019), 307–392. https://doi.org/10.1561/2200000056
- Kiran et al. (2022) B. Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A. Al Sallab, Senthil Kumar Yogamani, and Patrick Pérez. 2022. Deep Reinforcement Learning for Autonomous Driving: A Survey. IEEE Trans. Intell. Transp. Syst. 23, 6 (2022), 4909–4926.
- Kuba et al. (2022) Jakub Grudzien Kuba, Ruiqing Chen, Muning Wen, Ying Wen, Fanglei Sun, Jun Wang, and Yaodong Yang. 2022. Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning. In 10th International Conference on Learning Representations, ICLR.
- Kurin et al. (2021) Vitaly Kurin, Maximilian Igl, Tim Rocktäschel, Wendelin Boehmer, and Shimon Whiteson. 2021. My Body is a Cage: the Role of Morphology in Graph-Based Incompatible Control. In 9th International Conference on Learning Representations, ICLR.
- Lake et al. (2016) Brenden M. Lake, Tomer David Ullman, Joshua B. Tenenbaum, and Samuel J. Gershman. 2016. Building machines that learn and think like people. Behavioral and Brain Sciences 40 (2016).
- Larsen et al. (2021) Thomas Nakken Larsen, Halvor Ødegård Teigen, Torkel Laache, Damiano Varagnolo, and Adil Rasheed. 2021. Comparing Deep Reinforcement Learning Algorithms’ Ability to Safely Navigate Challenging Waters. Frontiers Robotics AI 8 (2021), 738113.
- Laskin et al. (2020) Michael Laskin, Aravind Srinivas, and Pieter Abbeel. 2020. CURL: Contrastive Unsupervised Representations for Reinforcement Learning. In Proceedings of the 37th ICML, Vol. 119. PMLR, 5639–5650.
- Lathuilière et al. (2019) Stéphane Lathuilière, Benoit Massé, Pablo Mesejo, and Radu Horaud. 2019. Neural network based reinforcement learning for audio-visual gaze control in human-robot interaction. Pattern Recognit. Lett. 118 (2019), 61–71.
- Latif et al. (2023) Siddique Latif, Heriberto Cuayáhuitl, Farrukh Pervez, Fahad Shamshad, Hafiz Shehbaz Ali, and Erik Cambria. 2023. A survey on deep reinforcement learning for audio-based applications. Artif. Intell. Rev. 56, 3 (2023), 2193–2240.
- Lee et al. (2022) Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman, Sergio Guadarrama, Ian Fischer, Winnie Xu, Eric Jang, Henryk Michalewski, and Igor Mordatch. 2022. Multi-Game Decision Transformers. In NeurIPS.
- Lesort et al. (2018) Timothée Lesort, Natalia Díaz Rodríguez, Jean-François Goudou, and David Filliat. 2018. State representation learning for control: An overview. Neural Networks 108 (2018), 379–392.
- Levine et al. (2020a) Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. 2020a. Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems. CoRR abs/2005.01643 (2020).
- Levine et al. (2020b) Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. 2020b. Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems. CoRR abs/2005.01643 (2020).
- Li et al. (2022b) Chen Li, Chikashige Yamanaka, Kazuma Kaitoh, and Yoshihiro Yamanishi. 2022b. Transformer-based Objective-reinforced Generative Adversarial Network to Generate Desired Molecules. In Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence, IJCAI. ijcai.org, 3884–3890.
- Li et al. (2019) Shiyang Li, Xiaoyong Jin, Yao Xuan, Xiyou Zhou, Wenhu Chen, Yu-Xiang Wang, and Xifeng Yan. 2019. Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting. In NeurIPS. 5244–5254.
- Li et al. (2022a) Weiyuan Li, Ruoxin Hong, Jiwei Shen, and Yue Lu. 2022a. Learning to Navigate in Interactive Environments with the Transformer-based Memory. (2022).
- Lillicrap et al. (2016) Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. 2016. Continuous control with deep reinforcement learning. In 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings.
- Lin et al. (2022) Tianyang Lin, Yuxin Wang, Xiangyang Liu, and Xipeng Qiu. 2022. A survey of transformers. AI Open 3 (2022), 111–132.
- Lin et al. (2023) Xian Lin, Li Yu, Kwang-Ting Cheng, and Zengqiang Yan. 2023. BATFormer: Towards Boundary-Aware Lightweight Transformer for Efficient Medical Image Segmentation. IEEE Journal of Biomedical and Health Informatics (2023).
- Liu et al. (2022b) Haochen Liu, Zhiyu Huang, Xiaoyu Mo, and Chen Lv. 2022b. Augmenting Reinforcement Learning with Transformer-based Scene Representation Learning for Decision-making of Autonomous Driving. CoRR abs/2208.12263 (2022).
- Liu et al. (2019) Hao Liu, Richard Socher, and Caiming Xiong. 2019. Taming MAML: Efficient unbiased meta-reinforcement learning. In Proceedings of the 36th ICML, Vol. 97. PMLR, 4061–4071.
- Liu et al. (2020) Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, and Jiawei Han. 2020. Understanding the Difficulty of Training Transformers. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP 2020, Online, November 16-20, 2020. Association for Computational Linguistics, 5747–5763.
- Liu et al. (2022a) Qinghua Liu, Alan Chung, Csaba Szepesvári, and Chi Jin. 2022a. When Is Partially Observable Reinforcement Learning Not Scary?. In Conference on Learning Theory, Vol. 178. PMLR, 5175–5220.
- Liu et al. (2023) Xuhan Liu, Kai Ye, Herman W. T. van Vlijmen, Adriaan P. IJzerman, and Gerard J. P. van Westen. 2023. DrugEx v3: scaffold-constrained drug design with graph transformer-based reinforcement learning. J. Cheminformatics 15, 1, 24.
- Liu et al. (2022c) Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, and Saining Xie. 2022c. A ConvNet for the 2020s. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR. IEEE, 11966–11976.
- Locatello et al. (2020) Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy, and Thomas Kipf. 2020. Object-Centric Learning with Slot Attention. In NeurIPS.
- Lohse et al. (2021) Oliver Lohse, Noah Pütz, and Korbinian Hörmann. 2021. Implementing an Online Scheduling Approach for Production with Multi Agent Proximal Policy Optimization (MAPPO). In Advances in Production Management Systems. Artificial Intelligence for Sustainable and Resilient Production Systems: IFIP WG 5.7 International Conference, APMS 2021, Nantes, France, September 5–9, 2021, Proceedings, Part V. Springer, 586–595.
- Lu et al. (2022) Cong Lu, Philip J. Ball, Tim G. J. Rudner, Jack Parker-Holder, Michael A. Osborne, and Yee Whye Teh. 2022. Challenges and Opportunities in Offline Reinforcement Learning from Visual Observations. CoRR abs/2206.04779 (2022).
- Lu et al. (2020) Hao Lu, Xingwen Zhang, and Shuang Yang. 2020. A Learning-based Iterative Method for Solving Vehicle Routing Problems. In 8th International Conference on Learning Representations, ICLR.
- Lu et al. (2021) Jiachen Lu, Jinghan Yao, Junge Zhang, Xiatian Zhu, Hang Xu, Weiguo Gao, Chunjing Xu, Tao Xiang, and Li Zhang. 2021. SOFT: Softmax-free Transformer with Linear Complexity. In NeurIPS. 21297–21309.
- Ma et al. (2021) Michel Ma, Pierluca D’Oro, Yoshua Bengio, and Pierre-Luc Bacon. 2021. Long-Term Credit Assignment via Model-based Temporal Shortcuts. In Deep RL Workshop NeurIPS 2021.
- Malpure et al. (2021) Durvesh Malpure, Onkar Litake, and Rajesh Ingle. 2021. Investigating Transfer Learning Capabilities of Vision Transformers and CNNs by Fine-Tuning a Single Trainable Block. CoRR abs/2110.05270 (2021).
- Manchin et al. (2019) Anthony Manchin, Ehsan Abbasnejad, and Anton van den Hengel. 2019. Reinforcement Learning with Attention that Works: A Self-Supervised Approach. In Neural Information Processing - 26th International Conference, ICONIP, Vol. 1143. Springer, 223–230.
- Mazyavkina et al. (2021) Nina Mazyavkina, Sergey Sviridov, Sergei Ivanov, and Evgeny Burnaev. 2021. Reinforcement learning for combinatorial optimization: A survey. Comput. Oper. Res. 134 (2021), 105400.
- Melo (2022) Luckeciano C. Melo. 2022. Transformers are Meta-Reinforcement Learners. In International Conference on Machine Learning, ICML, Vol. 162. PMLR, 15340–15359.
- Meng et al. (2021) Linghui Meng, Muning Wen, Yaodong Yang, Chenyang Le, Xiyun Li, Weinan Zhang, Ying Wen, Haifeng Zhang, Jun Wang, and Bo Xu. 2021. Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks. CoRR abs/2112.02845 (2021).
- Mesnard et al. (2021) Thomas Mesnard, Theophane Weber, Fabio Viola, Shantanu Thakoor, Alaa Saade, Anna Harutyunyan, Will Dabney, Thomas S. Stepleton, Nicolas Heess, Arthur Guez, Eric Moulines, Marcus Hutter, Lars Buesing, and Rémi Munos. 2021. Counterfactual Credit Assignment in Model-Free Reinforcement Learning. In Proceedings of the 38th ICML, Vol. 139. PMLR, 7654–7664.
- Micheli et al. (2022) Vincent Micheli, Eloi Alonso, and François Fleuret. 2022. Transformers are Sample Efficient World Models. CoRR abs/2209.00588 (2022).
- Milani et al. (2022) Stephanie Milani, Nicholay Topin, Manuela Veloso, and Fei Fang. 2022. A Survey of Explainable Reinforcement Learning. CoRR abs/2202.08434 (2022).
- Milosevic (2016) Nikola Milosevic. 2016. Equity forecast: Predicting long term stock price movement using machine learning. CoRR abs/1603.00751 (2016).
- Miura et al. (2021) Yasuhide Miura, Yuhao Zhang, Emily Bao Tsai, Curtis P. Langlotz, and Dan Jurafsky. 2021. Improving Factual Completeness and Consistency of Image-to-Text Radiology Report Generation. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2021, Online, June 6-11, 2021. Association for Computational Linguistics, 5288–5304.
- Mnih et al. (2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin A. Riedmiller. 2013. Playing Atari with Deep Reinforcement Learning. CoRR abs/1312.5602 (2013).
- Moerland et al. (2020) Thomas M. Moerland, Joost Broekens, and Catholijn M. Jonker. 2020. Model-based Reinforcement Learning: A Survey. CoRR abs/2006.16712 (2020).
- Mohanty et al. (2020) Sharada P. Mohanty, Jyotish Poonganam, Adrien Gaidon, Andrey Kolobov, Blake Wulfe, Dipam Chakraborty, Grazvydas Semetulskis, João Schapke, Jonas Kubilius, Jurgis Pasukonis, Linas Klimas, Matthew J. Hausknecht, Patrick MacAlpine, Quang Nhat Tran, Thomas Tumiel, Xiaocheng Tang, Xinwei Chen, Christopher Hesse, Jacob Hilton, William Hebgen Guss, Sahika Genc, John Schulman, and Karl Cobbe. 2020. Measuring Sample Efficiency and Generalization in Reinforcement Learning Benchmarks: NeurIPS 2020 Procgen Benchmark. In NeurIPS Competition and Demonstration Track, Vol. 133. PMLR, 361–395.
- Moor et al. (2023) Michael Moor, Oishi Banerjee, Zahra Shakeri Hossein Abad, Harlan M Krumholz, Jure Leskovec, Eric J Topol, and Pranav Rajpurkar. 2023. Foundation models for generalist medical artificial intelligence. Nature 616, 7956 (2023), 259–265.
- Mor and Speranza (2022) Andrea Mor and Maria Grazia Speranza. 2022. Vehicle routing problems over time: a survey. Ann. Oper. Res. 314, 1 (2022), 255–275.
- Morad et al. (2023) Steven D. Morad, Ryan Kortvelesy, Matteo Bettini, Stephan Liwicki, and Amanda Prorok. 2023. POPGym: Benchmarking Partially Observable Reinforcement Learning. CoRR abs/2303.01859 (2023). https://doi.org/10.48550/arXiv.2303.01859 arXiv:2303.01859
- Motokawa and Sugawara (2021) Yoshinari Motokawa and Toshiharu Sugawara. 2021. MAT-DQN: Toward Interpretable Multi-agent Deep Reinforcement Learning for Coordinated Activities. In 30th International Conference on Artificial Neural Networks, Vol. 12894. Springer, 556–567.
- Nakatani et al. (2022) Yuki Nakatani, Tomoyuki Kajiwara, and Takashi Ninomiya. 2022. Comparing BERT-based Reward Functions for Deep Reinforcement Learning in Machine Translation. In Proceedings of the 9th Workshop on Asian Translation, WAT@COLING 2022, Gyeongju, Republic of Korea, October 17, 2022. International Conference on Computational Linguistics, 37–43.
- Nasir and Durlofsky (2023) Yusuf Nasir and Louis J. Durlofsky. 2023. Deep reinforcement learning for optimal well control in subsurface systems with uncertain geology. J. Comput. Phys. 477 (2023), 111945.
- Negrinho et al. (2018) Renato Negrinho, Matthew R. Gormley, and Geoffrey J. Gordon. 2018. Learning Beam Search Policies via Imitation Learning. In NeurIPS. 10675–10684.
- Nguyen et al. (2020) Thanh Thi Nguyen, Ngoc Duy Nguyen, and Saeid Nahavandi. 2020. Deep Reinforcement Learning for Multiagent Systems: A Review of Challenges, Solutions, and Applications. IEEE Trans. Cybern. 50, 9 (2020), 3826–3839.
- Nikishin et al. (2018) Evgenii Nikishin, Pavel Izmailov, Ben Athiwaratkun, Dmitrii Podoprikhin, Timur Garipov, Pavel Shvechikov, Dmitry Vetrov, and Andrew Gordon Wilson. 2018. Improving stability in deep reinforcement learning with weight averaging. In Uncertainty in artificial intelligence workshop on uncertainty in Deep learning.
- Obando-Ceron and Castro (2021) Johan Samir Obando-Ceron and Pablo Samuel Castro. 2021. Revisiting Rainbow: Promoting more insightful and inclusive deep reinforcement learning research. In Proceedings of the 38th International Conference on Machine Learning, ICML, Vol. 139. PMLR, 1373–1383.
- OpenAI et al. (2019) OpenAI, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, Mateusz Litwin, Bob McGrew, Arthur Petron, Alex Paino, Matthias Plappert, Glenn Powell, Raphael Ribas, Jonas Schneider, Nikolas Tezak, Jerry Tworek, Peter Welinder, Lilian Weng, Qiming Yuan, Wojciech Zaremba, and Lei Zhang. 2019. Solving Rubik’s Cube with a Robot Hand. CoRR abs/1910.07113 (2019).
- Oroojlooy and Hajinezhad (2023) Afshin Oroojlooy and Davood Hajinezhad. 2023. A review of cooperative multi-agent deep reinforcement learning. Appl. Intell. 53, 11 (2023), 13677–13722.
- Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul F. Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. In NeurIPS.
- Papineni et al. (2002) Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. ACL, 311–318.
- Parisotto et al. (2020) Emilio Parisotto, H. Francis Song, Jack W. Rae, Razvan Pascanu, Çaglar Gülçehre, Siddhant M. Jayakumar, Max Jaderberg, Raphaël Lopez Kaufman, Aidan Clark, Seb Noury, Matthew M. Botvinick, Nicolas Heess, and Raia Hadsell. 2020. Stabilizing Transformers for Reinforcement Learning. In Proceedings of the 37th International Conference on Machine Learning, ICML, Vol. 119. PMLR, 7487–7498.
- Parmentier and T’kindt (2023) Axel Parmentier and Vincent T’kindt. 2023. Structured learning based heuristics to solve the single machine scheduling problem with release times and sum of completion times. Eur. J. Oper. Res. 305, 3 (2023), 1032–1041.
- Pascanu et al. (2013) Razvan Pascanu, Tomás Mikolov, and Yoshua Bengio. 2013. On the difficulty of training recurrent neural networks. In Proceedings of the 30th International Conference on Machine Learning, ICML, Vol. 28. JMLR.org, 1310–1318.
- Paster et al. (2022) Keiran Paster, Sheila A. McIlraith, and Jimmy Ba. 2022. You Can’t Count on Luck: Why Decision Transformers and RvS Fail in Stochastic Environments. (2022).
- Petit et al. (2021) Olivier Petit, Nicolas Thome, Clément Rambour, Loic Themyr, Toby Collins, and Luc Soler. 2021. U-Net Transformer: Self and Cross Attention for Medical Image Segmentation. In Machine Learning in Medical Imaging - 12th International Workshop, MLMI, MICCAI, Vol. 12966. Springer, 267–276.
- Putterman et al. (2021) Aaron Putterman, Kevin Lu, Igor Mordatch, and P. Abbeel. 2021. Pretraining for Language-Conditioned Imitation with Transformers.
- Qu et al. (2022) Jia Qu, Shotaro Miwa, and Yukiyasu Domae. 2022. Interpretable Navigation Agents Using Attention-Augmented Memory. In IEEE International Conference on Systems, Man, and Cybernetics, SMC 2022, Prague, Czech Republic, October 9-12, 2022. IEEE, 2575–2582.
- Radford et al. (2018) Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. 2018. Improving language understanding by generative pre-training. (2018).
- Rakelly et al. (2019) Kate Rakelly, Aurick Zhou, Chelsea Finn, Sergey Levine, and Deirdre Quillen. 2019. Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables. In Proceedings of the 36th International Conference on Machine Learning, ICML, Vol. 97. PMLR, 5331–5340.
- Ramachandram and Taylor (2017) Dhanesh Ramachandram and Graham W. Taylor. 2017. Deep Multimodal Learning: A Survey on Recent Advances and Trends. IEEE Signal Process. Mag. 34, 6 (2017), 96–108.
- Ren et al. (2021) Hongyu Ren, Hanjun Dai, Zihang Dai, Mengjiao Yang, Jure Leskovec, Dale Schuurmans, and Bo Dai. 2021. Combiner: Full Attention Transformer with Sparse Computation Cost. In NeurIPS. 22470–22482.
- Ribeiro et al. (2020) Antônio H. Ribeiro, Koen Tiels, Luis Antonio Aguirre, and Thomas B. Schön. 2020. Beyond exploding and vanishing gradients: analysing RNN training using attractors and smoothness. In The 23rd International Conference on Artificial Intelligence and Statistics, AISTATS, Vol. 108. PMLR, 2370–2380.
- Robine et al. (2023) Jan Robine, Marc Höftmann, Tobias Uelwer, and Stefan Harmeling. 2023. Transformer-based World Models Are Happy With 100k Interactions. CoRR abs/2303.07109 (2023).
- Savva et al. (2019) Manolis Savva, Jitendra Malik, Devi Parikh, Dhruv Batra, Abhishek Kadian, Oleksandr Maksymets, Yili Zhao, Erik Wijmans, Bhavana Jain, Julian Straub, Jia Liu, and Vladlen Koltun. 2019. Habitat: A Platform for Embodied AI Research. In IEEE/CVF International Conference on Computer Vision, ICCV. IEEE, 9338–9346.
- Schmidhuber (2019) Jürgen Schmidhuber. 2019. Reinforcement Learning Upside Down: Don’t Predict Rewards - Just Map Them to Actions. CoRR abs/1912.02875 (2019).
- Schulman et al. (2017) John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. 2017. Proximal Policy Optimization Algorithms. CoRR abs/1707.06347 (2017).
- Seo et al. (2019) Minah Seo, Luiz Felipe Vecchietti, Sangkeum Lee, and Dongsoo Har. 2019. Rewards Prediction-Based Credit Assignment for Reinforcement Learning With Sparse Binary Rewards. IEEE Access 7 (2019), 118776–118791.
- Seo et al. (2022) Younggyo Seo, Danijar Hafner, Hao Liu, Fangchen Liu, Stephen James, Kimin Lee, and Pieter Abbeel. 2022. Masked World Models for Visual Control. In Conference on Robot Learning, CoRL, Vol. 205. PMLR, 1332–1344.
- Serrano and Smith (2019) Sofia Serrano and Noah A. Smith. 2019. Is Attention Interpretable?. In Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL. Association for Computational Linguistics, 2931–2951.
- Shang et al. (2022) Jinghuan Shang, Kumara Kahatapitiya, Xiang Li, and Michael S. Ryoo. 2022. StARformer: Transformer with State-Action-Reward Representations for Visual Reinforcement Learning. In Computer Vision - ECCV - 17th European Conference, Vol. 13699. Springer, 462–479.
- Shao et al. (2019a) Kun Shao, Zhentao Tang, Yuanheng Zhu, Nannan Li, and Dongbin Zhao. 2019a. A Survey of Deep Reinforcement Learning in Video Games. CoRR abs/1912.10944 (2019).
- Shao et al. (2019b) Kun Shao, Yuanheng Zhu, and Dongbin Zhao. 2019b. StarCraft Micromanagement With Reinforcement Learning and Curriculum Transfer Learning. IEEE Trans. Emerg. Top. Comput. Intell. 3, 1 (2019), 73–84.
- Sharma et al. (2021) Piyush K. Sharma, Rolando Fernandez, Erin G. Zaroukian, Michael R. Dorothy, Anjon Basak, and Derrik E. Asher. 2021. Survey of Recent Multi-Agent Reinforcement Learning Algorithms Utilizing Centralized Training. CoRR abs/2107.14316 (2021).
- Shawki et al. (2021) N Shawki, R Rodriguez Nunez, I Obeid, and J Picone. 2021. On automating hyperparameter optimization for deep learning applications. In 2021 IEEE Signal Processing in Medicine and Biology Symposium (SPMB). IEEE, 1–7.
- Shi et al. (2021) Tianyu Shi, Dong Chen, Kaian Chen, and Zhaojian Li. 2021. Offline Reinforcement Learning for Autonomous Driving with Safety and Exploration Enhancement. CoRR abs/2110.07067 (2021).
- Smith (2022) Carson Smith. 2022. Attention-Based Learning for Combinatorial Optimization. Ph. D. Dissertation. Massachusetts Institute of Technology.
- Snoek et al. (2015) Jasper Snoek, Oren Rippel, Kevin Swersky, Ryan Kiros, Nadathur Satish, Narayanan Sundaram, Md. Mostofa Ali Patwary, Prabhat, and Ryan P. Adams. 2015. Scalable Bayesian Optimization Using Deep Neural Networks. In Proceedings of the 32nd ICML, Vol. 37. JMLR.org, 2171–2180.
- Song et al. (2021) Hailuo Song, Ao Li, Tong Wang, and Minghui Wang. 2021. Multimodal Deep Reinforcement Learning with Auxiliary Task for Obstacle Avoidance of Indoor Mobile Robot. Sensors 21, 4 (2021), 1363.
- Strnad et al. (2019) Felix M. Strnad, Wolfram Barfuss, Jonathan F. Donges, and Jobst Heitzig. 2019. Deep reinforcement learning in World-Earth system models to discover sustainable management strategies. CoRR abs/1908.05567 (2019).
- Sutton and Barto (1998) Richard S. Sutton and Andrew G. Barto. 1998. Reinforcement learning - an introduction. MIT Press.
- Ta et al. (2020) Van-Dai Ta, CHUAN-MING Liu, and Direselign Addis Tadesse. 2020. Portfolio optimization-based stock prediction using long-short term memory network in quantitative trading. Applied Sciences 10, 2 (2020), 437.
- Tao et al. (2022) Tianxin Tao, Daniele Reda, and Michiel van de Panne. 2022. Evaluating Vision Transformer Methods for Deep Reinforcement Learning from Pixels. CoRR abs/2204.04905 (2022).
- Thakkar and Chaudhari (2021) Ankit Thakkar and Kinjal Chaudhari. 2021. A comprehensive survey on portfolio optimization, stock price and trend prediction using particle swarm optimization. Archives of Computational Methods in Engineering 28 (2021), 2133–2164.
- Tunstall et al. (2022) Lewis Tunstall, Leandro von Werra, and Thomas Wolf. 2022. Natural language processing with transformers. " O’Reilly Media, Inc.".
- Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. In 30th Annual Conference on Neural Information Processing Systems. 5998–6008.
- Vedantam et al. (2015) Ramakrishna Vedantam, C. Lawrence Zitnick, and Devi Parikh. 2015. CIDEr: Consensus-based image description evaluation. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015, Boston, MA, USA, June 7-12, 2015. IEEE Computer Society, 4566–4575.
- Vinyals et al. (2019) Oriol Vinyals, Igor Babuschkin, Wojciech M. Czarnecki, Michaël Mathieu, Andrew Dudzik, Junyoung Chung, David H. Choi, Richard Powell, Timo Ewalds, Petko Georgiev, Junhyuk Oh, Dan Horgan, Manuel Kroiss, Ivo Danihelka, Aja Huang, Laurent Sifre, Trevor Cai, John P. Agapiou, Max Jaderberg, Alexander Sasha Vezhnevets, Rémi Leblond, Tobias Pohlen, Valentin Dalibard, David Budden, Yury Sulsky, James Molloy, Tom Le Paine, Çaglar Gülçehre, Ziyu Wang, Tobias Pfaff, Yuhuai Wu, Roman Ring, Dani Yogatama, Dario Wünsch, Katrina McKinney, Oliver Smith, Tom Schaul, Timothy P. Lillicrap, Koray Kavukcuoglu, Demis Hassabis, Chris Apps, and David Silver. 2019. Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nat. 575, 7782 (2019), 350–354.
- Vinyals et al. (2017) Oriol Vinyals, Timo Ewalds, Sergey Bartunov, Petko Georgiev, Alexander Sasha Vezhnevets, Michelle Yeo, Alireza Makhzani, Heinrich Küttler, John P. Agapiou, Julian Schrittwieser, John Quan, Stephen Gaffney, Stig Petersen, Karen Simonyan, Tom Schaul, Hado van Hasselt, David Silver, Timothy P. Lillicrap, Kevin Calderone, Paul Keet, Anthony Brunasso, David Lawrence, Anders Ekermo, Jacob Repp, and Rodney Tsing. 2017. StarCraft II: A New Challenge for Reinforcement Learning. CoRR abs/1708.04782 (2017).
- Vo et al. (2017) Quan-Hoang Vo, Huy-Tien Nguyen, Bac Le, and Minh-Le Nguyen. 2017. Multi-channel LSTM-CNN model for Vietnamese sentiment analysis. In 9th International Conference on Knowledge and Systems Engineering, KSE 2017, Hue, Vietnam, October 19-21, 2017. IEEE, 24–29.
- Wang et al. (2021a) Jike Wang, Chang-Yu Hsieh, Mingyang Wang, Xiaorui Wang, Zhenxing Wu, Dejun Jiang, Benben Liao, Xujun Zhang, Bo Yang, Qiaojun He, Dongsheng Cao, Xi Chen, and Tingjun Hou. 2021a. Multi-constraint molecular generation based on conditional transformer, knowledge distillation and reinforcement learning. Nat. Mach. Intell. 3, 10 (2021), 914–922.
- Wang et al. (2021c) Jiacheng Wang, Lan Wei, Liansheng Wang, Qichao Zhou, Lei Zhu, and Jing Qin. 2021c. Boundary-Aware Transformers for Skin Lesion Segmentation. In Medical Image Computing and Computer Assisted Intervention - MICCAI 24th International Conference, Vol. 12901. Springer, 206–216.
- Wang et al. (2022d) Jiayue Wang, Hongbo Zhao, Haoqiang Liu, Liwei Geng, and Zebin Sun. 2022d. A Distributed Vehicle-assisted Computation Offloading Scheme based on DRL in Vehicular Networks. In 22nd IEEE International Symposium on Cluster, Cloud and Internet Computing, CCGrid 2022, Taormina, Italy, May 16-19, 2022. IEEE, 200–209.
- Wang et al. (2022e) Kerong Wang, Hanye Zhao, Xufang Luo, Kan Ren, Weinan Zhang, and Dongsheng Li. 2022e. Bootstrapped Transformer for Offline Reinforcement Learning. In NeurIPS.
- Wang et al. (2020a) Lingxiao Wang, Zhuoran Yang, and Zhaoran Wang. 2020a. Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration for Mean-Field Reinforcement Learning. In Proceedings of the 37th International Conference on Machine Learning, ICML, Vol. 119. PMLR, 10092–10103.
- Wang et al. (2022b) Minrui Wang, Mingxiao Feng, Wengang Zhou, and Houqiang Li. 2022b. Stabilizing Voltage in Power Distribution Networks via Multi-Agent Reinforcement Learning with Transformer. In KDD ’22: The 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Washington, DC, USA, August 14 - 18, 2022. ACM, 1899–1909.
- Wang et al. (2023) Qi Wang, Kenneth H. Lai, and Chunlei Tang. 2023. Solving combinatorial optimization problems over graphs with BERT-Based Deep Reinforcement Learning. Inf. Sci. 619 (2023), 930–946.
- Wang et al. (2018) Tingwu Wang, Renjie Liao, Jimmy Ba, and Sanja Fidler. 2018. NerveNet: Learning Structured Policy with Graph Neural Networks. In 6th International Conference on Learning Representations, ICLR.
- Wang et al. (2020b) Weixun Wang, Tianpei Yang, Yong Liu, Jianye Hao, Xiaotian Hao, Yujing Hu, Yingfeng Chen, Changjie Fan, and Yang Gao. 2020b. From Few to More: Large-Scale Dynamic Multiagent Curriculum Learning. In The Thirty-Fourth Conference on Artificial Intelligence, AAAI. AAAI Press, 7293–7300.
- Wang and Chen (2022) Yang Wang and Zhibin Chen. 2022. A Deep Reinforcement Learning Algorithm Using A New Graph Transformer Model for Routing Problems. In Intelligent Systems and Applications - Proceedings of the Intelligent Systems Conference, IntelliSys, Vol. 544. Springer, 365–379.
- Wang et al. (2021b) Yifan Wang, Zhichao Min, and Sen Jia. 2021b. Local-Global-Aware Convolutional Transformer for Hyperspectral Image Classification. In 23rd Int Conf on High Performance Computing. IEEE, 1188–1194.
- Wang et al. (2022a) Zhendong Wang, Xiaodong Cun, Jianmin Bao, Wengang Zhou, Jianzhuang Liu, and Houqiang Li. 2022a. Uformer: A General U-Shaped Transformer for Image Restoration. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR. IEEE, 17662–17672.
- Wang et al. (2022c) Zhihai Wang, Jie Wang, Qi Zhou, Bin Li, and Houqiang Li. 2022c. Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic. In Thirty-Sixth AAAI Conference on Artificial Intelligence. AAAI Press, 8612–8620.
- Wen et al. (2022) Muning Wen, Jakub Grudzien Kuba, Runji Lin, Weinan Zhang, Ying Wen, Jun Wang, and Yaodong Yang. 2022. Multi-Agent Reinforcement Learning is a Sequence Modeling Problem. In NeurIPS.
- Williams (1992) Ronald J. Williams. 1992. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning. Mach. Learn. 8 (1992), 229–256.
- Woo et al. (2023) Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, and Saining Xie. 2023. ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders. CoRR abs/2301.00808 (2023).
- Wu et al. (2022) Yaoxin Wu, Wen Song, Zhiguang Cao, Jie Zhang, and Andrew Lim. 2022. Learning Improvement Heuristics for Solving Routing Problems. IEEE Trans. Neural Networks Learn. Syst. 33, 9 (2022), 5057–5069.
- Xiong et al. (2019) Yuxuan Xiong, Bo Du, and Pingkun Yan. 2019. Reinforced Transformer for Medical Image Captioning. In Machine Learning in Medical Imaging - 10th International Workshop, MLMI, MICCAI, Vol. 11861. Springer, 673–680.
- Xu et al. (2020) Ke Xu, Yifan Zhang, Deheng Ye, Peilin Zhao, and Mingkui Tan. 2020. Relation-Aware Transformer for Portfolio Policy Learning. In Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, IJCAI 2020. ijcai.org, 4647–4653.
- Xu et al. (2022b) Mengdi Xu, Yikang Shen, Shun Zhang, Yuchen Lu, Ding Zhao, Joshua B. Tenenbaum, and Chuang Gan. 2022b. Prompting Decision Transformer for Few-Shot Policy Generalization. In International Conference on Machine Learning, ICML, Vol. 162. PMLR, 24631–24645.
- Xu et al. (2022a) Nuo Xu, Jianlong Chang, Xing Nie, Chunlei Huo, Shiming Xiang, and Chunhong Pan. 2022a. AME: Attention and Memory Enhancement in Hyper-Parameter Optimization. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR. IEEE, 480–489.
- Xu et al. (2022c) Peng Xu, Xiatian Zhu, and David A. Clifton. 2022c. Multimodal Learning with Transformers: A Survey. CoRR abs/2206.06488 (2022).
- Yamagata et al. (2022) Taku Yamagata, Ahmed Khalil, and Raúl Santos-Rodríguez. 2022. Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL. CoRR abs/2209.03993 (2022).
- Yang et al. (2022) Biao Yang, Jicheng Yang, Rongrong Ni, Changchun Yang, and Xiaofeng Liu. 2022. Multi-granularity scenarios understanding network for trajectory prediction. Complex & Intelligent Systems (2022), 1–14.
- Yang et al. (2021) Lijuan Yang, Guanghui Yang, Zhitong Bing, Yuan Tian, Yuzhen Niu, Liang Huang, and Lei Yang. 2021. Transformer-Based Generative Model Accelerating the Development of Novel BRAF Inhibitors. ACS Omega 6 (2021), 33864 – 33873.
- Yarats et al. (2021) Denis Yarats, Amy Zhang, Ilya Kostrikov, Brandon Amos, Joelle Pineau, and Rob Fergus. 2021. Improving Sample Efficiency in Model-Free Reinforcement Learning from Images. In Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI. AAAI Press, 10674–10681.
- Ying et al. (2021) Chengxuan Ying, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen, and Tie-Yan Liu. 2021. Do Transformers Really Perform Badly for Graph Representation?. In NeurIPS. 28877–28888.
- Young and Sutton (2020) Kenny Young and Richard S. Sutton. 2020. Understanding the Pathologies of Approximate Policy Evaluation when Combined with Greedification in Reinforcement Learning. CoRR abs/2010.15268 (2020).
- Yu et al. (2023) Chao Yu, Jiming Liu, Shamim Nemati, and Guosheng Yin. 2023. Reinforcement Learning in Healthcare: A Survey. ACM Comput. Surv. 55, 2 (2023), 5:1–5:36.
- Yu et al. (2022) Chao Yu, Xinyi Yang, Jiaxuan Gao, Huazhong Yang, Yu Wang, and Yi Wu. 2022. Learning Efficient Multi-agent Cooperative Visual Exploration. In Computer Vision - ECCV - 17th European Conference, Vol. 13699. Springer, 497–515.
- Zhan et al. (2017) Yusen Zhan, Haitham Bou-Ammar, and Matthew E. Taylor. 2017. Scalable lifelong reinforcement learning. Pattern Recognit. 72 (2017), 407–418.
- Zhang et al. (2022b) Fengzhuo Zhang, Boyi Liu, Kaixin Wang, Vincent Y. F. Tan, Zhuoran Yang, and Zhaoran Wang. 2022b. Relational Reasoning via Set Transformers: Provable Efficiency and Applications to MARL. In NeurIPS.
- Zhang et al. (2022c) Hao Zhang, Hao Wang, and Zhen Kan. 2022c. Exploiting Transformer in Reinforcement Learning for Interpretable Temporal Logic Motion Planning. CoRR abs/2209.13220 (2022).
- Zhang et al. (2018b) Jiaping Zhang, Tiancheng Zhao, and Zhou Yu. 2018b. Multimodal Hierarchical Reinforcement Learning Policy for Task-Oriented Visual Dialog. In Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, Melbourne, Australia. Association for Computational Linguistics, 140–150.
- Zhang et al. (2018a) Kaiqing Zhang, Zhuoran Yang, Han Liu, Tong Zhang, and Tamer Basar. 2018a. Fully Decentralized Multi-Agent Reinforcement Learning with Networked Agents. In Proceedings of the 35th ICML, Vol. 80. PMLR, 5867–5876.
- Zhang et al. (2022d) Li Zhang, Sixiao Zheng, Jiachen Lu, Xinxuan Zhao, Xiatian Zhu, Yanwei Fu, Tao Xiang, and Jianfeng Feng. 2022d. Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective. CoRR abs/2207.09339 (2022).
- Zhang et al. (2022a) Tianyao Zhang, Xiaoguang Hu, Jin Xiao, and Guofeng Zhang. 2022a. TVENet: Transformer-Based Visual Exploration Network for Mobile Robot in Unseen Environment. IEEE Access 10 (2022), 62056–62072.
- Zhang et al. (2023) Zhipeng Zhang, Zhimin Wei, Zhongzhen Huang, Rui Niu, and Peng Wang. 2023. One for all: One-stage referring expression comprehension with dynamic reasoning. Neurocomputing 518 (2023), 523–532.
- Zhong et al. (2021) Huasong Zhong, Jingyuan Chen, Chen Shen, Hanwang Zhang, Jianqiang Huang, and Xian-Sheng Hua. 2021. Self-Adaptive Neural Module Transformer for Visual Question Answering. IEEE Trans. Multim. 23 (2021), 1264–1273.
- Zhou et al. (2023) Ce Zhou, Qian Li, Chen Li, Jun Yu, Yixin Liu, Guangjing Wang, Kai Zhang, Cheng Ji, Qiben Yan, Lifang He, Hao Peng, Jianxin Li, Jia Wu, Ziwei Liu, Pengtao Xie, Caiming Xiong, Jian Pei, Philip S. Yu, and Lichao Sun. 2023. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT. CoRR abs/2302.09419 (2023).
- Zhou et al. (2021) Hong-Yu Zhou, Chixiang Lu, Sibei Yang, and Yizhou Yu. 2021. ConvNets vs. Transformers: Whose Visual Representations are More Transferable?. In IEEE/CVF International Conference on Computer Vision Workshops, ICCVW. IEEE, 2230–2238.
- Zhou et al. (2020) Meng Zhou, Ziyu Liu, Pengwei Sui, Yixuan Li, and Yuk Ying Chung. 2020. Learning Implicit Credit Assignment for Cooperative Multi-Agent Reinforcement Learning. In NeurIPS.