Q-学习决策Transformer:利用动态规划进行离线强化学习中的条件序列建模
摘要
最近的研究表明,利用条件策略解决离线强化学习(RL)问题可以产生有希望的结果。 决策Transformer(DT)结合了条件策略方法和Transformer架构,在几个基准测试中表现出具有竞争力的性能。 但是,DT 缺乏缝合能力——这是离线 RL 从次优轨迹学习最优策略的关键能力之一。 当离线数据集仅包含次优轨迹时,这个问题尤为突出。 另一方面,基于动态规划的传统 RL 方法(例如 Q-学习)没有相同的限制;然而,它们在学习行为方面不稳定,特别是在它们依赖于非策略学习环境中的函数逼近时。 在本文中,我们提出了 Q-学习决策Transformer (QDT) 来解决 DT 的缺陷,方法是利用动态规划 (Q-学习) 的优势。 它利用动态规划的结果重新标记训练数据中的“未来回报”,然后用重新标记的数据训练 DT。 我们的方法有效地利用了这两种方法的优势,并弥补了彼此的缺陷,从而获得更好的性能。
1 引言
Transformer 架构采用自注意力机制从高维数据中提取相关信息。 它在各种应用中取得了最先进的性能,包括自然语言处理 (NLP) (Vaswani 等人,2017;Radford 等人,2018;Devlin 等人,2018) 或计算机视觉 (Ramesh 等人,2021)。 它在 RL 领域的转换,DT (Chen 等人,2021),成功地将 Transformer 架构应用于离线强化学习任务,在将重点转移到序列建模时具有良好的性能。 它采用目标条件策略,将离线 RL 转换为监督学习任务,并避免了与长期信用分配相关的稳定性问题 (Srivastava 等人,2019;Kumar 等人,2019b;Ghosh 等人,2019)。 更具体地说,decision transformer (DT) 将未来奖励的总和——return-to-go (RTG) 视为目标,并学习一个以 RTG 和状态为条件的策略。 它被归类为一种奖励条件方法。 尽管 DT 在离线reinforcement learning (RL) 任务中表现出非常强的竞争力,但它未能实现离线RL 智能体所需的一种特性,即缝合。 这种特性是指将次优轨迹的部分组合起来以生成最优轨迹的能力(Fu 等人,2020)。 我们展示了一个简单的例子,说明 DT (奖励条件 方法) 如何无法找到最优路径。
为了说明奖励条件方法 (DT) 的局限性,考虑一个任务,即在图 1 中找到从最左侧状态到最右侧状态的最短路径,但不能向下移动到失败状态。 我们将奖励设置为每个时间步的,以及向下移动到失败状态的。 训练数据包含最优路径,但没有任何训练数据轨迹包含完整的最优路径。 代理需要将这两条轨迹结合起来,并找出最优路径。 奖励调节方法本质上是从训练数据中找到一条轨迹,该轨迹提供理想的奖励,并采取与轨迹相同的动作。 在这个简单的例子中,轨迹 2 的奖励微不足道。 因此,它始终遵循轨迹 1 的路径,尽管轨迹 2 为第一个动作提供了最优路径。
与奖励调节方法 (DT) 相比,Q 学习 1 11在本文中,我们将使用 Q 学习 和 动态规划 可互换地来表示任何依赖于贝尔曼备份操作的 RL 算法。 没有遇到这个问题,并且在这个简单的例子中很快找到了最优路径。 Q 学习分别处理每个时间步,并将最佳未来奖励向后传播。 因此它可以从轨迹 2 的第一个最优动作中学习。 然而,Q 学习在较长的时间范围和稀疏奖励场景中存在一些问题。 它试图将值函数向后传播到其初始状态,在较长的时间范围和稀疏奖励任务中学习通常很困难。 当 Q 学习在如(Sutton & Barto, 1998)中第 11.3 节所述的离策略设置中使用函数逼近时,尤其如此。
在这里,我们设计了一种方法,通过利用 Q 学习来改进 DT,来解决上述问题。 我们的方法不同于其他离线 RL 算法,这些算法通常提出代理的新单一架构并实现更好的性能。 我们提出了一个框架,该框架可以提高离线数据集的质量,并从现有的离线 RL 算法中获得更好的性能。 我们的方法利用 Q 学习估计值来重新标记训练数据中用于 DT 代理的 RTG。 这方面的动机来自这样一个事实,即 Q 学习学习了最优策略的 RTG 值。 这表明,用学习到的 RTG 重新标记训练数据中的 RTG 应该可以解决 DT 拼接问题。 然而,Q 学习在状态需要较长时间步长反向传播的情况下也会遇到困难。 在这些情况下,我们认为 DT 会有所帮助,因为它在没有反向传播的情况下估计了状态和动作序列。 我们的提案(QDT)利用了两种不同方法的优势,以弥补彼此的弱点,并实现更稳健的性能。 我们的主要评估结果总结在图 2 中。 左侧两幅图(简单环境和迷宫 2D 环境)表明 DT 由于无法拼接轨迹而表现不佳,而右侧图则说明 CQL(用于离线强化学习的 Q 学习算法)在稀疏奖励场景(延迟奖励)中无法学习。 这些结果表明,这些方法都不是对所有环境都有效,选择错误类型的算法可能会导致糟糕的结果。 相反,QDT 在所有环境中都表现良好,并表现出对不同环境的鲁棒性。 通过我们的评估,我们还发现,先前工作中的一些评估结果可能无法直接比较,这导致了一些相互矛盾的结论。 我们将在第 6 节中讨论这个问题。
2 预备知识
离线强化学习。 RL 的目标是在 Markov decision process (MDP) 中学习最大化预期奖励总和的策略,它是一个四元组 ,其中 是状态集, 是动作集, 是状态转移概率,而 是奖励。
在在线或在线策略 RL 设置中,代理可以访问目标环境,并在每次更新其策略时收集一组新的轨迹。 轨迹由 组成,其中 、 和 分别是时间 的状态、动作和奖励,而 是剧集时间范围。 在非策略 RL 情况下,智能体也可以访问环境以收集轨迹,但它可以使用其他策略收集的轨迹来更新其策略。 因此,它提高了样本效率,因为它仍然可以使用过去的轨迹。 脱线 RL 比非策略 RL 更进一步。 它纯粹从一个静态数据集中学习其策略,该数据集是以前使用未知的行为策略(或策略)收集的。 当与环境的交互成本高昂或风险很高(例如,安全关键应用)时,这种范式可能非常宝贵。
决策转换器。 DT 架构 (Chen et al., 2021) 将 RL 问题视为条件序列建模。 与大多数先前的 RL 方法不同,这些方法估计价值函数或计算策略梯度,DT 从目标未来奖励总和 RTGs、过去状态和动作中输出所需的未来动作。
(1) |
等式 1 显示了 DT 的输入,其中 是上下文长度, 是 RTGs (), 是状态, 是动作。 然后 DT 输出下一个动作 ()。 DT 采用 Transformer 架构 (Vaswani et al., 2017),它由具有残差连接的堆叠自注意力层组成。 已经证明,Transformer 架构成功地关联了长输入序列中的分散信息并产生了准确的输出 (Vaswani et al., 2017; Radford et al., 2018; Devlin et al., 2018; Ramesh et al., 2021)。
保守 Q 学习。 在这项工作中,我们使用 conservative Q learning (CQL) 框架 (Kumar et al., 2020) 用于 Q 学习算法。 CQL 是一种离线 RL 框架,它学习 Q 函数,这些函数是真实值的较低界。 它用一个正则化器来增强标准贝尔曼误差目标,该正则化器降低了分布外状态-动作对的价值函数,同时保持了训练数据集中分布的状态-动作对的价值函数。 在实践中,它使用以下迭代更新方程在学习策略 下学习 Q 函数。
(2) |
其中 是训练数据集, 是折扣因子。 Kumar 等人 (2020) 表明,虽然得到的 Q 函数 可能不是逐点下界,但它是 的下界,即 。
3 方法
我们提出了一种利用动态规划方法 (Q 学习) 来弥补奖励条件方法 (DT) 缺点,并为离线 RL 设置构建鲁棒算法的方法。 我们的提案包括三个步骤。 首先,使用 Q 学习学习值函数。 其次,通过使用 Q 学习结果重新标记 RTG 值来细化离线 RL 数据集。 最后,使用重新标记的数据集训练 DT。 第一步和第三步不需要对现有算法进行任何修改。
奖励条件方法 (DT) 采用整个轨迹序列,并使用给定序列的奖励总和对其进行条件化。 这种方法在需要 拼接 (Fu 等人,2020) 的任务上很困难 - 从子最优轨迹中组合它们来学习最优策略的能力。 相反,Q 学习替代方案使用贝尔曼备份分别对每个时间步进行反向传播值函数,并在轨迹中汇集每个状态的信息。 因此,它没有同样的问题。 我们的提案通过使用学习的 Q 函数重新标记 RTG 值来解决奖励条件方法的 拼接 问题。 使用重新标记的数据集,奖励条件方法 (DT) 就可以利用来自各自子最优轨迹的最优子轨迹。
我们现在讨论如何使用学习到的 Q 函数重新标记 RTGs 值。 用 Q 函数替换所有 RTGs 值是不够的,因为并非所有学习到的 Q 函数都是准确的,尤其是在较长时间范围内和稀疏奖励的情况下。 理想情况下,我们希望在学习到的 Q 函数准确的情况下替换 RTGs 值。
在这项工作中,我们采用 CQL 框架作为离线 Q 学习算法,它学习了价值函数的下界。 当轨迹中的 RTG 低于下界时,我们替换 RTGs 值。 通过这种方法,我们的方法替换了学习到的价值函数确实准确(或更接近真实值)的 RTGs 值。 我们还使用奖励递归 () 替换所有替换的 RTG 之前轨迹中的所有 RTG 值。 这将替换的 RTG 值传播到替换点之前的所有时间步。
为了实现这一想法,我们将最后一个状态 RTG 初始化为零 (),然后我们从轨迹末端到初始状态按时间逆序开始以下过程。 首先,使用学习到的价值函数 计算当前状态的状态值, 其中 是学习到的策略。 接下来,将价值函数与当前状态 () 的 RTG 值进行比较 ()。 如果价值函数大于 RTG 的价值函数,则将前一时间步的 RTG 从 () 设置为 ,否则将其设置为 。 我们重复此过程,直到到达初始状态。 此过程在算法 1 中进行了总结。
上述重新标记过程可能会在 DT 输入序列(等式 1)中引入奖励和 RTG 之间的矛盾。 RTG 值是未来奖励的总和,因此它必须始终 。 然而,重新标记过程可能会破坏这种关系。 为了在 DT 的输入序列中保持这种一致性,我们通过复制最后一个 RTG () 并反复向后应用 直到 来为输入序列 () 重新生成 RTG。 我们对每个输入序列重复此操作,以保持奖励和 RTGs 的一致性。 此过程在算法 2 中总结。
QDT 的理论考量。 Q-learning Decision Transformer (QDT) 依赖于 DT 作为代理算法,它可以被视为一个奖励条件模型。 奖励条件模型将状态和 RTG 作为输入,并输出动作。 如果我们假设模型是用状态 和最佳动作 以及最佳状态-动作值函数 () 一起训练的,那么我们可以保证该模型将输出最佳动作 (),只要它被给予 和 作为输入 (Srivastava et al., 2019)。 在实践中,我们不知道最佳值函数 ,因此 DT(以及类似的其他奖励条件方法)使用 RTG。 RTG 是通过行为策略(或策略)收集的,并且通常不是最佳的 - 大多数值远低于相应的最佳值函数 ()。 由于 QDT 使用 CQL 来学习最佳的 保守 值函数,Th. 3.2 in Kumar et al. (2020) 表明 保守 值函数是真实值函数的下界。 因此,QDT 重新标记过程将训练数据集中 RTG 移近最优值函数(参见附录 D)。
4 相关工作
离线强化学习。 离线 RL 纯粹从一个静态数据集学习其策略,该数据集之前是使用未知的行为策略(或策略)收集的。 由于学习到的策略可能与行为策略不同,因此离线算法必须减轻 分布偏移 的影响 (Agarwal et al., 2020; Prudencio et al., 2022)。 解决该问题的最直接方法之一是将学习到的策略限制在行为策略 (Fujimoto et al., 2019; Kumar et al., 2019a; Wu et al., 2019)。 其他方法通过对未来奖励进行保守估计来限制学习到的策略 (Kumar et al., 2020; Yu et al., 2021; Fujimoto & Gu, 2021)。 一些基于模型的方法估计模型的不确定性,并对后果高度不确定的动作进行惩罚 (Janner et al., 2019; Kidambi et al., 2020)。 一些方法在不限制学习到的策略的情况下解决 分布偏移。 其中一种方法组是加权模仿学习 (Wang et al., 2018; Peng et al., 2019; Wang et al., 2020; Nair et al., 2020; Chen et al., 2020; Siegel et al., 2020; Brandfonbrener et al., 2021),它通过对良好的状态-动作对赋予更高的权重来执行模仿学习。 它通常使用估计的优势函数作为权重。 由于这种方法模仿了行为策略的选定部分,因此它自然地将学习到的策略限制在行为策略中。 另一组不限制学习策略的方法是条件序列建模,它学习一个策略,该策略以未来轨迹的特定指标为条件。 指标的一些示例包括未来奖励的总和 (Srivastava et al., 2019; Chen et al., 2021)、某个状态(子目标) (Codevilla et al., 2018; Ghosh et al., 2019; Lynch et al., 2020),甚至从未来轨迹中学习的特征 (Furuta et al., 2021)。
我们的方法不属于这些组中的任何一个,但与学习悲观值函数、条件序列建模和加权模仿学习方法相关。 从本质上讲,我们的方法是一种条件序列建模方法,因为它学习以当前状态和未来奖励之和为条件的后续动作,但训练数据通过学习到的悲观值函数的结果来增强。 此外,整体的高级结构与加权模仿学习 somewhat 相似,它学习价值函数并使用它来加权模仿学习阶段的训练数据。 然而,每个组件与我们的方法都非常不同,它使用价值函数来加权训练数据,而我们的方法通过回溯学习到的价值函数以及轨迹本身来重新标记 RTG 值,其中学习到的价值函数不可靠。 此外,在我们的方法中,策略是通过条件序列建模学习的,而它们使用非条件非序列模型。 我们可以将我们的重新标记方法应用于加权模仿学习算法,这是一个令人兴奋的未来方向。
以数据为中心的方法。 Andrew Ng 最近谈到了训练数据对从机器学习模型中获得良好性能的重要性,并建议我们应该在数据上投入更多精力,而不是在模型上(以数据为中心的方法) (Press, 2021)。 他说:“在 以数据为中心的方法 中,数据的一致性至关重要,使用工具来提高数据质量,这将使多个现有模型能够表现出色。” 我们的方法可以被视为离线 RL 的 以数据为中心的方法,因为我们专注于改进训练数据并使用现有模型。 我们的方法提供了一个工具来提高数据质量。
5 评估
我们研究了 QDT 相对于使用基于动态规划的方法和奖励条件方法的离线 RL 算法的性能。 由于 QDT 利用了 CQL 的结果,并且被认为是最先进的离线 RL 方法,因此我们选择 CQL 作为基于动态规划方法的基准,选择 DT 作为奖励条件方法的基准,原因相同。 从本节中的评估中,我们希望展示动态规划方法和奖励条件方法的优缺点,以及 (QDT) 如何缓解它们的缺点。 我们从一个具有次优轨迹的简单环境开始我们的研究。 由于它是一个简单的环境,因此动态规划方法 (CQL) 应该能很好地工作,并且由于它使用次优轨迹,因此奖励条件方法 (DT) 将难以处理。 有趣的是,看看 QDT 在这种情况下提供了多少帮助。 我们还在 Maze2D 环境中对其进行评估,这些环境旨在测试具有不同复杂程度的缝合能力。 我们预计 DT 会遇到困难,而 CQL 和 QDT 在这些任务上表现良好。 然后,我们根据 Chen et al. (2021) 在复杂的控制任务(Open AI Gym MuJoCo 环境,具有延迟(稀疏)奖励)上评估了这些算法。 它们在所有非终止状态下都为零奖励,并在终止状态下给出总奖励。 这应该会使动态规划方法 (CQL) 的学习更加困难,因为它需要将奖励从终止状态传播到初始状态。 最后,我们展示了 Open AI Gym MuJoCo 环境中使用原始密集奖励设置的评估结果,以供参考。
简单环境。 为了突出 QDT 的优势,我们在一个简单的环境中评估了我们的方法,该环境具有 6x6 的离散状态和 8 个离散动作。 任务的目标是从起始状态到目标状态找到最短路径。 我们准备了一个离线 RL 数据集,其中包含从均匀随机策略生成的 100 个情节,然后删除一个接近最佳总奖励的情节,以确保它只包含次优轨迹。 有关环境和数据集的详细信息,请参阅附录 B。
CQL | DT | QDT | |
---|---|---|---|
Total Reward |
表 1 显示了评估结果的摘要。 我们还评估了 CQL 的性能,它用于重新标记。 它表明普通的 DT 失败得很惨,这表明 DT 难以从次优轨迹中学习,而 CQL 表现良好,因为它采用了动态规划方法,可以跨轨迹收集信息并成功地找出接近最优的策略。 它表明 QDT 的性能与 CQL 相似,这表明尽管 QDT 使用条件策略方法,但它克服了其局限性,并从次优数据中学习了接近最优的策略。 附录 B 中有更多详细信息。
迷宫二维环境。 迷宫二维领域是一个导航任务,需要一个代理到达一个固定的目标位置。 这些任务旨在测试离线强化学习算法拼接不同轨迹部分的能力 (Fu 等人,2020)。 它有四种环境——开放、umaze、中等和大型,它们按照顺序变得更加复杂的迷宫(图 3) 222https://github.com/rail-berkeley/d4rl/wiki/Tasks。 此外,它还有两种奖励函数——正常和密集。 正常奖励仅在代理到达目标时给出正奖励,而密集奖励在每一步都给出与代理和目标之间负距离呈指数比例的奖励。 对于模型,我们使用作者提供的 DT 源代码 333https://github.com/kzl/decision-transformer 和 d3rlpy 444https://github.com/takuseno/d3rlpy (Imai & Seno, 2021)——用于 CQL 的离线强化学习库,然后通过替换 DT 训练前的返回到去来构建 QDT。
Dataset | CQL | DT | QDT | |||
---|---|---|---|---|---|---|
稀疏奖励 | maze2d-open-v0 | |||||
maze2d-umaze-v1 | ||||||
maze2d-medium-v1 | ||||||
maze2d-large-v1 | ||||||
稠密奖励 | maze2d-open-dense-v0 | |||||
maze2d-umaze-dense-v1 | ||||||
maze2d-medium-dense-v1 | ||||||
maze2d-large-dense-v1 |
表格 2 显示了结果的摘要。 我们报告了归一化的总奖励(分数),其中 100 代表专家策略 (Fu 等人,2020)。 CQL 表现良好,尤其是在稠密奖励的情况下。 DT 在许多情况下由于缺乏拼接能力而难以执行。 (这些环境旨在测试拼接能力。) QDT 明显提高了 DT 性能,尤其是在 CQL 性能良好的地方。 这表明 QDT 将拼接能力带到了 DT 方法中。 我们在第 6 节讨论了 CQL 和 QDT 之间的性能差距。
带有延迟(稀疏)奖励的 Open AI Gym MuJoCo 环境。 我们还在复杂控制任务上评估了我们的方法 (QDT) - 带有 D4RL 离线 RL 数据集的 Open AI Gym MuJoCo 环境 (Fu 等人,2020)。 Open AI Gym MuJoCo 环境包含三个任务 Hopper、HalfCheetah 和 Walker2d。 我们在 medium 和 medium-replay v2 数据集上进行测试。 为了证明动态规划方法 (CQL) 的不足,我们遵循 Chen 等人 (2021) 并使用延迟(稀疏)奖励场景评估算法,在该场景中,代理在轨迹中不会收到任何奖励,并且在最后时间步收到奖励的总和。 我们再次使用来自现有源代码的 MuJoCo Gym 环境的 DT 和 CQL 模型,没有任何修改,并添加了额外的代码来重新标记 RTG 值。
CQL | DT | QDT | ||||||
---|---|---|---|---|---|---|---|---|
Dataset | Results | Ref.∗2 | Results | Ref.∗2 | Results | |||
中等 | Hopper-v2 | |||||||
HalfCheetah-v2 | ||||||||
Walker2d-v2 | ||||||||
中等重播 | Hopper-v2 | |||||||
HalfCheetah-v2 | ||||||||
Walker2d-v2 |
表 3 显示了延迟奖励情况下的模拟结果(得分)。 我们还复制了 Chen et al. (2021) 中 DT 和 CQL 的模拟结果作为参考。 表中所有数字都是归一化的总奖励(分数),其中 100 代表专家策略 (Fu et al., 2020)。 如预期,CQL 难以学习良好的策略,而 DT 表现良好。 此外,QDT 的表现与 DT 相似,尽管它们使用的是表现不佳的 CQL 的结果。 这表明 QDT 成功地利用了 CQL 中有用的信息。 一个例外是中等重播-walker2d 结果。 QDT 在这里表现不如 DT。 通过一些调查,我们发现 CQL 算法在 medium-replay-walker2d 数据集中大多数状态下高估了价值函数。 我们在讨论部分中提到了这个问题。
Open AI Gym MuJoCo 环境。 我们还在 Open AI Gym MuJoCo 环境中评估了我们的方法 (QDT),并使用原始密集奖励作为参考。 由于它们具有密集奖励并包含合理良好的轨迹,CQL 和 DT 都可以正常工作。
CQL | DT | QDT | ||||||
---|---|---|---|---|---|---|---|---|
Dataset | Results | Ref.∗1 | Results | Ref.∗2 | Results | |||
中等 | Hopper-v2 | |||||||
HalfCheetah-v2 | ||||||||
Walker2d-v2 | ||||||||
中等重放 | Hopper-v2 | |||||||
HalfCheetah-v2 | ||||||||
Walker2d-v2 |
表 4 显示了我们对 CQL、DT 和 QDT 的模拟结果摘要。 我们还从 Chen 等人(2021 年) 复制了 DT 的模拟结果,从 Emmons 等人(2021 年) 复制了 CQL 的模拟结果,以供参考。 首先,我们可以看到,除了中等重播跳跃结果外,我们的模拟结果与参考结果一致。 由于它具有较高的方差,这可能是由于样本数量少(五个随机种子)造成的。 其次,CQL 在此评估中表现优于或与 DT 和 QDT 相当。 这是可以理解的,因为它们具有密集的奖励(它们不需要在轨迹中传播价值函数)。 最后,从 DT 和 QDT 的比较来看,QDT 的表现与 DT 相同。
6 讨论
我们的实验表明,QDT 是唯一一个在所有环境中表现良好的算法。 虽然 CQL 在许多环境中非常成功,但在延迟奖励 MuJoCo 案例中完全失败。 同样,DT 在延迟奖励 MuJoCo 环境中表现良好,但在 Maze2D 环境中失败。 另一方面,QDT 在各种环境类型中表现出更高的鲁棒性。 本节详细阐述并反思了 QDT 框架最相关的发现和属性。
拼接能力。 为了证明拼接能力,我们评估了每种算法在不同程度的次优数据集上的性能。 我们选择 MuJoCo Gym 环境的中等重播数据集,因为它包含由各种代理级别生成的轨迹,并删除了最佳 % 的轨迹。 随着 的增加,从数据集中删除了更多好的轨迹。 从而进一步偏离了最佳设置。 图 4 显示了 CQL、 DT 和 QDT 的结果以及数据集中最佳轨迹的返回值。 它表明, CQL 提供的结果比数据集中最佳轨迹的结果更好,除了 ,其中轨迹包含最佳分数;因此它不可能比那个更好。 相反, DT 无法超过最佳轨迹,这表明 DT 无法将次优轨迹拼接起来。 QDT 的性能优于 DT,并且在 和 (在 底部轨迹的范围内)接近 CQL 结果。
QDT 和 CQL 之间的性能差距。 虽然 QDT 在次优数据集场景(表 2)中改进了 DT,但 QDT 的性能并不像 CQL 那样好。 来自 Emmons 等人 (2021) 的结果表明,当有大量好的轨迹可用时(中级-专家数据集), DT 的性能可以与 CQL 一样好。 这意味着对于包含远非最佳轨迹的数据集, DT 和 QDT 方法仍然有改进的空间。 事实上,我们在下一小节中的实验表明, QDT 在某些情况下可以与 CQL 在 Maze2D 环境中的表现一样好。 我们相信这表明 QDT 方法具有很好的进一步改进的潜力。
折扣率的作用。 我们的实验使用折扣因子 作为 CQL,如原始论文所述。 相对较大的折扣(较小的 值)有助于 CQL 学习的稳定性,并且值函数估计很快收敛到正确的值。 此外,它使值函数学习折扣值 - 值函数变得小于 RTG 值,特别是在状态远离那些给出正奖励的状态的地方。 折扣值函数可以对 QDT 的性能产生积极和消极的影响。 因为 RTGs 重新标记仅在值函数的值高于 RTG 时才会发生,所以折扣值函数不太可能被使用。 因此,QDT 可能无法利用来自 Q 学习 (CQL) 的所有信息。 在 RTG 计算中引入折扣因子是防止这种影响最直接的方法,方法是在重新标记中使用等式 3。
(3) |
为了确认这个想法,我们评估了在 maze2d-umaze-v1、-medium-v1 和 -large-v1 数据集上使用折扣重新标记的 QDT。 结果(表 5)是对于 maze2d-umaze-v1 和 -medium-v1 数据集 ,以及对于 maze2d-large-v1 数据集 。 通过这种方式,它们都达到了 CQL 的性能。
Dataset | CQL | DT | QDT | QDT with discounted RTGs | |||
---|---|---|---|---|---|---|---|
maze2d-umaze-v1 | |||||||
maze2d-medium-v1 | |||||||
maze2d-large-v1 |
尽管我们可以改进 QDT 结果,但这需要使用不同的折扣因子。 我们观察到,一个小的 有助于 Q 学习的收敛,因为它缩短了要考虑的时间范围。 然而,对于长期范围环境来说,这将成为一个劣势。 另一方面,一个大的 有助于在长期范围内保持奖励。 然而,这使得 Q 学习的收敛更加困难。 因此,对于短期范围任务(umaze 和 medium),一个小 (0.99) 表现良好,而对于长期范围任务(large),一个大的 (0.999) 则适用。 为了解决这个问题,我们需要修改现有的(或全新的)Q 学习 (CQL) 算法。 使用一个值函数来重新标记 QDT 需要准确地估计值。 然而,传统的 Q-learning 算法倾向于优先考虑优势函数,该函数表示不同动作的值之间的差异,而不是值函数中的实际值。 使用一个优先考虑准确值函数估计的 Q-learning 算法至关重要,因为它将通过为重新标记过程提供更精确的值来提高 QDT 的有效性。
保守权重。 CQL 具有一个名为 保守权重 的超参数,在等式 2 中表示为 。 它对正则化项进行加权,其中值越高,值函数估计越保守。 理想情况下,我们希望将其设置得尽可能小,以便估计的值函数成为一个更紧密的较低界;然而,过小的保守权重可能会破坏较低界保证,并且学习到的值函数可能会给出比真实值更高的值 (Kumar 等人,2021)。 凭经验,我们发现这正是我们在延迟奖励实验 (表 3) 中针对 medium-replay-waker2d 数据集示例所发生的情况。 在该数据集中,CQL 学习到的值函数在许多状态下都比相应的真实值更高,这会导致 RTG 的错误重新标记,并因此导致更差的 QDT 性能。 我们用更高的 值对其进行了评估 - 从 5.0 增加到 100。 虽然这将 QDT 结果从 提高到 ,但它仍然比 DT 差。 这留待今后的工作进一步研究。 在本文中,我们假设我们可以访问环境以优化超参数。 然而,这应该纯粹在离线情况下完成,以获得适当的离线 RL 设置。 虽然有一些建议 (Paine 等人,2020;Fu 等人,2021;Emmons 等人,2021),但这仍然是一个活跃的研究领域。
替代方法。 QDT 为 DT 引入了拼接能力,并在各种环境中取得了竞争性的性能。 与我们的工作同时,Hepburn & Montana (2022) 提出了一种使用学习到的状态转移模型和价值函数拼接轨迹的方法,并产生了接近最优轨迹的结果。 这是一个基于模型的方法,需要专门的机制来执行拼接操作,而我们的方法是无模型的,并且使用现有的经过充分研究的方法(例如,Q 学习)来拼接轨迹。
另一种在所有环境中实现稳健性能的方法是改进 Q 学习(动态规划)以用于延迟奖励场景,例如,使用带有资格迹的 CQL 代理 (Precup, 2000; Geist et al., 2014; Daley et al., 2023),多步时差学习 (Munos et al., 2016; De Asis et al., 2018; Hernandez-Garcia & Sutton, 2019),或蒙特卡罗回报 (Wright et al., 2013; Wilcox et al., 2022)。 据我们所知,这些方法已经在非策略设置中得到了广泛的研究,但尚未在离线设置中得到研究。 此外,Q 学习(动态规划)假设奖励函数具有马尔可夫性,即它必须是当前状态和动作的函数,而 DT 和 QDT 不需要这种属性。
复制结果以进行基准测试。 已经有很多尝试通过构建数据集 (Fu et al., 2020; Agarwal et al., 2020),共享源代码,以及制作专门用于离线 RL 的库 (Imai & Seno, 2021) 来建立离线 RL 方法的基准。 然而,我们仍然发现论文之间存在一些相互矛盾的结果。 这个问题的主要原因是,复制其他研究人员的结果需要大量的努力和计算能力。 因此,大多数作者别无选择,只能重新使用文献中最新论文中的原始结果来进行比较。 然而,由于在这些非常多样化的实验设置中重现所有细节的难度,这会导致相互矛盾的结果。 例如,许多离线 RL 论文使用 D4RL MuJoCo 数据集来评估其算法并将其与其他方法进行比较。 在这种情况下,数据集有三个版本——即 v0、v1 和 v2。 虽然并非总是明确说明,但大多数论文使用版本 v0。 然而,一些论文使用版本 v2,这会导致一些相互矛盾的结果。 例如,Chen 等人 (2021) 似乎使用 v2 数据集评估他们的模型,同时引用了使用 v0 的其他论文的结果。 以这种方式对结果进行基准测试的第二个问题是通常的模拟数量不足。 由于模拟需要大量的处理能力,因此无法运行大量的模拟。 大多数作者只评估了 3 个随机种子,这通常不足以比较结果。 在本文中,我们重点强调并仔细分析了来自简单环境的结果,因为它有助于证明算法的特性。 复杂的环境仍然是有帮助的;然而,估计的方差表明,在得出结论时应谨慎处理结果。
7 结论
我们提出了 Q 学习决策 Transformer,将动态规划 (Q 学习) 方法的优势引入到奖励条件序列建模方法中,以解决它们的一些众所周知的弱点。 我们的方法为改进离线强化学习算法提供了一个新框架。 在本文中,为了说明这种方法,我们使用了现有的动态规划 (CQL) 和奖励条件建模 (DT) 的最先进算法。 我们的评估表明,我们的方法比现有的离线算法具有优势,符合预期行为。 尽管结果令人鼓舞,但仍有改进的空间。 例如,QDT 在 Maze2D 上的结果(表 2)优于 DT,但仍然不如 CQL。 另一方面,QDT 在 Gym MuJoCo 延迟奖励上的结果(表 3)明显优于 CQL,但在 walker2d 上不如 DT。 正如我们在讨论部分中所展示的,我们可以在某些情况下解决这些问题。 但是,我们需要进一步的研究来解决所有环境中的问题。
可能的负面社会影响。 强化学习算法(例如 QDT)存在被应用于可能存在争议且对人类生活影响很大的领域(例如军事应用)的风险。 这些问题是所有改进任何自主系统的研究工作中所固有的。
致谢
这项工作得到了英国研究与创新局图灵人工智能研究金 EP/V024817/1 和由英国工程与物理科学研究委员会 (EPSRC) 在 EP/R005273/1 资助下的 SPHERE 下一步项目支持。
参考文献
- Agarwal et al. (2020) Agarwal, R., Schuurmans, D., and Norouzi, M. An optimistic perspective on offline reinforcement learning. pp. 104–114, 2020.
- Agarwal et al. (2021) Agarwal, R., Schwarzer, M., Castro, P. S., Courville, A. C., and Bellemare, M. Deep reinforcement learning at the edge of the statistical precipice. Advances in neural information processing systems, 34:29304–29320, 2021.
- Brandfonbrener et al. (2021) Brandfonbrener, D., Whitney, W. F., Ranganath, R., and Bruna, J. Quantile filtered imitation learning. arXiv preprint arXiv:2112.00950, 2021.
- Chen et al. (2021) Chen, L., Lu, K., Rajeswaran, A., Lee, K., Grover, A., Laskin, M., Abbeel, P., Srinivas, A., and Mordatch, I. Decision transformer: Reinforcement learning via sequence modeling. Advances in neural information processing systems, 34, 2021.
- Chen et al. (2020) Chen, X., Zhou, Z., Wang, Z., Wang, C., Wu, Y., and Ross, K. Bail: Best-action imitation learning for batch deep reinforcement learning. Advances in Neural Information Processing Systems, 33:18353–18363, 2020.
- Codevilla et al. (2018) Codevilla, F., Müller, M., López, A., Koltun, V., and Dosovitskiy, A. End-to-end driving via conditional imitation learning. pp. 4693–4700, 2018.
- Daley et al. (2023) Daley, B., White, M., Amato, C., and Machado, M. C. Trajectory-aware eligibility traces for off-policy reinforcement learning. arXiv preprint arXiv:2301.11321, 2023.
- De Asis et al. (2018) De Asis, K., Hernandez-Garcia, J., Holland, G., and Sutton, R. Multi-step reinforcement learning: A unifying algorithm. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 32, 2018.
- Devlin et al. (2018) Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
- Emmons et al. (2021) Emmons, S., Eysenbach, B., Kostrikov, I., and Levine, S. Rvs: What is essential for offline rl via supervised learning? arXiv preprint arXiv:2112.10751, 2021.
- Fu et al. (2020) Fu, J., Kumar, A., Nachum, O., Tucker, G., and Levine, S. D4rl: Datasets for deep data-driven reinforcement learning, 2020.
- Fu et al. (2021) Fu, J., Norouzi, M., Nachum, O., Tucker, G., Wang, Z., Novikov, A., Yang, M., Zhang, M. R., Chen, Y., Kumar, A., et al. Benchmarks for deep off-policy evaluation. arXiv preprint arXiv:2103.16596, 2021.
- Fujimoto & Gu (2021) Fujimoto, S. and Gu, S. S. A minimalist approach to offline reinforcement learning. Advances in neural information processing systems, 34:20132–20145, 2021.
- Fujimoto et al. (2019) Fujimoto, S., Meger, D., and Precup, D. Off-policy deep reinforcement learning without exploration. In International Conference on Machine Learning, pp. 2052–2062. PMLR, 2019.
- Furuta et al. (2021) Furuta, H., Matsuo, Y., and Gu, S. S. Generalized decision transformer for offline hindsight information matching. arXiv preprint arXiv:2111.10364, 2021.
- Geist et al. (2014) Geist, M., Scherrer, B., et al. Off-policy learning with eligibility traces: a survey. J. Mach. Learn. Res., 15(1):289–333, 2014.
- Ghosh et al. (2019) Ghosh, D., Gupta, A., Reddy, A., Fu, J., Devin, C., Eysenbach, B., and Levine, S. Learning to reach goals via iterated supervised learning. arXiv preprint arXiv:1912.06088, 2019.
- Hasselt (2010) Hasselt, H. Double q-learning. Advances in neural information processing systems, 23, 2010.
- Hepburn & Montana (2022) Hepburn, C. A. and Montana, G. Model-based trajectory stitching for improved offline reinforcement learning. arXiv preprint arXiv:2211.11603, 2022.
- Hernandez-Garcia & Sutton (2019) Hernandez-Garcia, J. F. and Sutton, R. S. Understanding multi-step deep reinforcement learning: A systematic study of the dqn target. arXiv preprint arXiv:1901.07510, 2019.
- Imai & Seno (2021) Imai, M. and Seno, T. d3rlpy: An offline deep reinforcement library. 12 2021.
- Janner et al. (2019) Janner, M., Fu, J., Zhang, M., and Levine, S. When to trust your model: Model-based policy optimization. Advances in Neural Information Processing Systems, 32, 2019.
- Kidambi et al. (2020) Kidambi, R., Rajeswaran, A., Netrapalli, P., and Joachims, T. Morel: Model-based offline reinforcement learning. Advances in neural information processing systems, 33:21810–21823, 2020.
- Kumar et al. (2019a) Kumar, A., Fu, J., Soh, M., Tucker, G., and Levine, S. Stabilizing off-policy q-learning via bootstrapping error reduction. Advances in Neural Information Processing Systems, 32, 2019a.
- Kumar et al. (2019b) Kumar, A., Peng, X. B., and Levine, S. Reward-conditioned policies. arXiv preprint arXiv:1912.13465, 2019b.
- Kumar et al. (2020) Kumar, A., Zhou, A., Tucker, G., and Levine, S. Conservative q-learning for offline reinforcement learning. Advances in Neural Information Processing Systems, 33:1179–1191, 2020.
- Kumar et al. (2021) Kumar, A., Singh, A., Tian, S., Finn, C., and Levine, S. A workflow for offline model-free robotic reinforcement learning. arXiv preprint arXiv:2109.10813, 2021.
- Kumar et al. (2022) Kumar, A., Hong, J., Singh, A., and Levine, S. When should we prefer offline reinforcement learning over behavioral cloning? arXiv preprint arXiv:2204.05618, 2022.
- Lynch et al. (2020) Lynch, C., Khansari, M., Xiao, T., Kumar, V., Tompson, J., Levine, S., and Sermanet, P. Learning latent plans from play. pp. 1113–1132, 2020.
- Munos et al. (2016) Munos, R., Stepleton, T., Harutyunyan, A., and Bellemare, M. Safe and efficient off-policy reinforcement learning. Advances in neural information processing systems, 29, 2016.
- Nair et al. (2020) Nair, A., Dalal, M., Gupta, A., and Levine, S. Accelerating online reinforcement learning with offline datasets. arXiv preprint arXiv:2006.09359, 2020.
- Paine et al. (2020) Paine, T. L., Paduraru, C., Michi, A., Gulcehre, C., Zolna, K., Novikov, A., Wang, Z., and de Freitas, N. Hyperparameter selection for offline reinforcement learning. arXiv preprint arXiv:2007.09055, 2020.
- Peng et al. (2019) Peng, X. B., Kumar, A., Zhang, G., and Levine, S. Advantage-weighted regression: Simple and scalable off-policy reinforcement learning. arXiv preprint arXiv:1910.00177, 2019.
- Precup (2000) Precup, D. Eligibility traces for off-policy policy evaluation. Computer Science Department Faculty Publication Series, pp. 80, 2000.
- Press (2021) Press, G. Andrew ng launches a campaign for data-centric ai. https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/?sh=82961be74f57, June 2021.
- Prudencio et al. (2022) Prudencio, R. F., Maximo, M. R. O. A., and Colombini, E. L. A survey on offline reinforcement learning: Taxonomy, review, and open problems. arXiv preprint arXiv:2203.01387, 2022.
- Radford et al. (2018) Radford, A., Narasimhan, K., Salimans, T., and Sutskever, I. Improving language understanding by generative pre-training. 2018.
- Ramesh et al. (2021) Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., and Sutskever, I. Zero-shot text-to-image generation. In International Conference on Machine Learning, pp. 8821–8831. PMLR, 2021.
- Siegel et al. (2020) Siegel, N. Y., Springenberg, J. T., Berkenkamp, F., Abdolmaleki, A., Neunert, M., Lampe, T., Hafner, R., Heess, N., and Riedmiller, M. Keep doing what worked: Behavioral modelling priors for offline reinforcement learning. arXiv preprint arXiv:2002.08396, 2020.
- Srivastava et al. (2019) Srivastava, R. K., Shyam, P., Mutz, F., Jaśkowski, W., and Schmidhuber, J. Training agents using upside-down reinforcement learning. arXiv preprint arXiv:1912.02877, 2019.
- Sutton & Barto (1998) Sutton, R. S. and Barto, A. G. Reinforcement Learning. The MIT Press, 1998.
- Vaswani et al. (2017) Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Łukasz Kaiser, and Polosukhin, I. Attention is all you need. Advances in neural information processing systems, 30, 2017.
- Wang et al. (2018) Wang, Q., Xiong, J., Han, L., Liu, H., Zhang, T., et al. Exponentially weighted imitation learning for batched historical data. Advances in Neural Information Processing Systems, 31, 2018.
- Wang et al. (2020) Wang, Z., Novikov, A., Zolna, K., Merel, J. S., Springenberg, J. T., Reed, S. E., Shahriari, B., Siegel, N., Gulcehre, C., Heess, N., et al. Critic regularized regression. Advances in Neural Information Processing Systems, 33:7768–7778, 2020.
- Wilcox et al. (2022) Wilcox, A., Balakrishna, A., Dedieu, J., Benslimane, W., Brown, D., and Goldberg, K. Monte carlo augmented actor-critic for sparse reward deep reinforcement learning from suboptimal demonstrations. arXiv preprint arXiv:2210.07432, 2022.
- Wright et al. (2013) Wright, R., Loscalzo, S., Dexter, P., and Yu, L. Exploiting multi-step sample trajectories for approximate value iteration. In Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD 2013, Prague, Czech Republic, September 23-27, 2013, Proceedings, Part I 13, pp. 113–128. Springer, 2013.
- Wu et al. (2019) Wu, Y., Tucker, G., and Nachum, O. Behavior regularized offline reinforcement learning. arXiv preprint arXiv:1911.11361, 2019.
- Yu et al. (2021) Yu, T., Kumar, A., Rafailov, R., Rajeswaran, A., Levine, S., and Finn, C. Combo: Conservative offline model-based policy optimization. Advances in Neural Information Processing Systems, 34, 2021.
附录 A 简单环境示例轨迹数据及其计算
训练数据的两个轨迹是:
(4) |
DT(基于奖励的 approach)被训练用来从状态和 RTG 中预测动作,因此它以 作为输入并输出 。 (在这里,我们为了简单起见,假设 DT 的上下文长度 。) 例如,在 情况下,DT 代理被训练用来从 (轨迹 1)中预测 ,以及从 (轨迹 2)中预测 。 为了评估,我们将 RTG 设置为最佳值(在本例中为 )在 处,然后代理从 中预测动作。 由于输入 比 (轨迹 2)更接近 (轨迹 1),因此代理预测 (轨迹 1),尽管最佳动作是 (轨迹 2)。
附录 B 简单环境评估细节
B.1 环境
该环境具有 6x6 的离散状态和 8 个离散动作,如图 6 所示。 任务的目标是从起点到目标状态找到最短路径。 每个时间步长提供 -10 的奖励,并在目标处提供 +100 的奖励。 最佳策略提供 +50 的总奖励 ()。 我们还重新映射了动作,以便相同的动作索引并不总是最优的。 映射在每个状态下都不同,但在整个情节中是固定的。
B.2 数据集
我们准备了一个离线 RL 数据集,其中包含来自统一随机策略的 100 个情节,然后删除一个获得正总奖励的情节,以确保它只包含次优轨迹。 因此,本次评估中使用的数据集包含 100 个情节和 4,454 个时间步长。 100 个情节的最大回报为 -10.0,最小回报为 -490(因为我们在 50 个时间步长处终止了情节),平均回报为 -415.5。
B.3 CQL 模型细节
我们基于双 Q 学习 (Hasselt, 2010) 为简单环境构建了 CQL 模型,并使用了一个嵌入查找表模块将离散状态转换为连续高维嵌入空间。 详细的模型参数在表 6 中。
Parameter | Value |
---|---|
State embedding dimension | 32 |
DQN type | fully connected |
DQN number of layers | 2 |
DQN number of units | 32 |
Optimizer | Adam |
Optimizer betas | 0.9, 0.999 |
Optimizer learning rate | 5.0e-4 |
Target network update rate | 1.0e-2 |
Batch size | 128 |
Number of training steps | 1000 updates |
Conservative weight () | 0.5 |
B.4 DT 和 QDT 模型详细信息
我们用于简单环境的 DT 和 QDT 模型基于 minGPT 开源代码555https://github.com/karpathy/minGPT构建。 详细的模型参数在表7中。
Parameter | Value |
---|---|
Number of layers | 4 |
Number of attention heads | 4 |
Embedding dimension | 64 |
Nonlinearity function | ReLU |
Batch size | 64 |
Context length | 2 |
return-to-go conditioning | 50 |
Dropout | 0.1 |
Learning rate | 4.0e-4 |
B.5 简单环境的进一步评估结果
下表包含了所有十个种子的简单环境结果。 表8显示了训练期间最高值的奖励。 表9显示了训练结束时模型的奖励。 与 CQL 结果相比,DT 和 QDT 在这两张表之间存在更大的差异,这表明 DT 和 QDT 存在过拟合问题和不稳定的学习行为。
CQL | DT | QDT | |
十个随机种子的结果 | 40.0 | 18.2 | 43.6 |
40.0 | 20.4 | 42.0 | |
40.0 | 11.2 | 49.2 | |
40.0 | 13.8 | 42.6 | |
40.0 | 12.6 | 39.2 | |
40.0 | 8.4 | 27.8 | |
40.0 | 19.6 | 47.2 | |
40.0 | 21.2 | 47.4 | |
40.0 | 14.4 | 37.4 | |
40.0 | 18.8 | 46.0 | |
mean | 40.0 | 15.9 | 42.2 |
std. | 0.0 | 4.4 | 6.3 |
CQL | DT | QDT | |
十个随机种子的结果 | 40.0 | -39.2 | 13.8 |
40.0 | 8.6 | 35.8 | |
40.0 | -25.4 | 46.6 | |
40.0 | -20.8 | 16.6 | |
30.0 | -50.2 | 29.2 | |
40.0 | -26.0 | 19.6 | |
40.0 | 9.4 | 44.0 | |
30.0 | -35.0 | 47.4 | |
40.0 | -10.2 | 23.2 | |
40.0 | 7.8 | 35.0 | |
mean | 38.0 | -18.1 | 31.1 |
std. | 4.2 | 21.3 | 12.5 |
附录 C Open AI Gym MuJoCo 和 Maze2D 评估细节
C.1 CQL 模型细节
对于 MuJoCo Gym CQL 评估,我们使用 d3rlpy 库 (Imai & Seno, 2021)。 它提供了一个脚本用于运行评估 (d3rlpy/reproduce/offline/cql.py),并且它使用与 Kumar 等人 (2020) 相同的超参数。 对于 Mazed2d 模拟,我们使用相同的 d3rlpy 脚本以及相同的超参数设置。
C.2 DT 和 QDT 模型细节
C.3 评估过程
CQL
我们使用五个随机种子训练 CQL 模型,进行 500,000 次更新,批量大小为 256,然后在训练结束时使用 10 次情节展开评估模型。 我们从 d3rlpy 离线 RL 库 (Imai & Seno, 2021) 中继承这些 CQL 设置。
DT
我们使用五个随机种子对 DT 模型进行了 100,000 次更新训练,批次大小为 64,然后在训练结束时用 100 个情节展开进行评估。 我们从 DT 论文作者提供的源代码777https://github.com/kzl/decision-transformer (Chen 等人,2021) 中继承了这些 DT 设置。
量子DT
我们使用五个随机种子训练 QDT 模型,每个种子都使用自己的经过训练的 CQL 模型来重新标记数据集。 QDT 模型针对 MuJoCo Gym 进行了 100,000 次更新训练,针对 maze2d 进行了 150,000 次更新训练,批次大小为 64,然后在训练结束时用 100 个情节展开进行评估——与 DT 相同。
C.4 超参数搜索
我们使用与原始论文(Kumar 等人,2020;Chen 等人,2021) 相同的超参数设置。 但是,我们对保守权重 () 进行了一些超参数搜索。 这是因为 CQL 和 QDT 的最佳保守权重值可能不同。
对于 MuJoCo Gym 环境,我们从 (中等数据集)和 (中等重放数据集)开始。 这些值来自 CQL 论文。 然后,我们减少这些值,看看 CQL 和 QDT 的性能是否会有变化。 表 10 和表 11 分别显示了 CQL 和 QDT 的结果。 这些结果表明,中等数据集的 和中等重放数据集的 对 QDT 表现良好,并且不会显着降低 CQL 的性能。 此外,它们与原始论文中的值相同,因此我们决定将它们保持与论文一致。
CQL | |||||
---|---|---|---|---|---|
Dataset | |||||
中等 | Hopper-v2 | ||||
HalfCheetah-v2 | |||||
Walker2d-v2 | |||||
中等重播 | Hopper-v2 | ||||
HalfCheetah-v2 | |||||
Walker2d-v2 |
QDT | |||||
---|---|---|---|---|---|
Dataset | |||||
中等 | Hopper-v2 | ||||
HalfCheetah-v2 | |||||
Walker2d-v2 | |||||
中等重播 | Hopper-v2 | ||||
HalfCheetah-v2 | |||||
Walker2d-v2 |
对于 maze2d 环境,我们从 开始,这是 CQL 论文中用于 MuJoCo Gym 环境中等数据集的值。 然后,减少这些值以查看 CQL 的性能是否有所不同。 表 12 显示了模拟结果。 我们选择 因为它表现最佳。 可能更低的值会表现更好。 我们看到 QDT 在 DT 上显示出良好的改进,其中 ,因此我们使用该值作为本文的数值。 我们希望将来尝试进一步的优化。
CQL | |||
---|---|---|---|
Dataset | |||
maze2d-umaze-v1 | |||
maze2d-medium-v1 | |||
maze2d-large-v1 |
附录 D 用学习的价值函数替换 RTG 的理由
将最优状态值函数定义为 ,将学习到的值函数的下界定义为 ,并将相应的返回到目标值定义为 。 我们展示了当 时, 中的误差小于 中的误差。 我们从条件开始,
(7) |
由于 是 的下界,因此 也是如此。 因此,以上等式的两边都是非负的。 我们可以对两项取绝对值,得到,
(8) |
这表明 中的误差小于 中的误差。
附录 E 进一步讨论
E.1 为什么 CQL 在 Maze2D 上优于 DT/QDT,但在 MuJoCo Gym 延迟奖励上失败?
这是因为 maze2d 是更简单的环境,并且比 MuJoCo 控制任务的 episode 更短。 表 13 显示了数据集前 5% 返回值的平均动作维度、状态(观测)维度和 episode 长度。 可以看出,MuJoCo 任务的动作/状态维度比 Maze2d 更高,并且情节长度更长。 此外,Sparse maze2d-medium 和 -large 的评估结果显示,与 Dense 对比,其性能有所下降,这与它们的情节长度比 maze2d-open 和 -umaze 更长的事实一致。
Environment | Action Dimension | State Dimension | Good Episode Average Length |
hopper | 3 | 11 | 708.2 |
halfcheetah | 6 | 17 | 1000.0 |
walker2d | 6 | 17 | 996.7 |
maze2d-open | 2 | 4 | 49.8 |
maze2d-umanze | 2 | 4 | 128.6 |
maze2d-medium | 2 | 4 | 224.1 |
maze2d-large | 2 | 4 | 314.6 |
E.2 为什么 QDT 在 Maze2D 上比 DT 表现更好,而在 Gym 上却没有,尽管两者都有密集奖励?
这是由于训练数据的差异。 maze2d 数据集旨在测试拼接能力;因此,它只有次优轨迹,而 MuJoCo Gym 数据集有一些最优轨迹。 如果数据集包含一些最优轨迹,DT 将表现良好。 另一方面,如果数据集只有次优轨迹,DT 将难以处理,而 QDT 通过利用 CQL 中的信息来改善这种情况。
由于 maze2d 只有次优轨迹,因此 DT 难以处理它们,而 QDT 可以比 DT 表现更好。 对于 MuJoCo Gym 案例,数据集包含一些最优轨迹;因此,DT 表现良好,QDT 也是如此。
严格来说,有一些例外。 MuJoCo halfcheetah-medium 和 halfcheetah-medium-replay 数据集没有最优轨迹,但 QDT 的性能与 DT 相似。 这是因为即使 CQL 也难以在这些数据集上取得良好的性能。 (即使 CQL 可以拼接次优轨迹,它也只与 DT 表现相似。) 由于 CQL 难以奏效,QDT 也无法从 CQL 中获得太多帮助。
另一个例外是 maze2d-open 和 maze2d-open-dense。 这些数据集具有良好的轨迹。 这实际上与我们的评估结果一致。 maze2d-open 和 maze2d-open-dense 的结果表明,DT 的性能良好。
表 14 显示了数据集中归一化回报(得分)的最大值、95 百分位数和 90 百分位数。 正如我们上面所讨论的,Maze2d 具有次优轨迹(除了 open 和 open-dense),而 MuJoCo Gym 具有(接近)最优轨迹,分数接近 100(除了 halfcheetah)。
Dataset | max. score | 95 pct. score | 90 pct. score |
maze2d-open-v0 | 232.4 | 130.7 | 116.2 |
maze2d-open-dense-v0 | 188.9 | 128.4 | 117.4 |
maze2d-umaze-v1 | 21.1 | 13.2 | 10.3 |
maze2d-umaze-dense-v1 | -1.4 | -11.7 | -18.3 |
maze2d-medium-v1 | 12.8 | 6.8 | 4.9 |
maze2d-medium-dense-v1 | 8.9 | 4.0 | 0.3 |
maze2d-large-v1 | 16.9 | 6.5 | -2.5 |
maze2d-large-dense-v1 | 14.6 | 7.9 | -2.4 |
hopper-medium-v2 | 99.5 | 63.2 | 57.0 |
hopper-medium-replay-v2 | 98.6 | 46.4 | 31.5 |
halfcheetah-medium-v2 | 45.0 | 43.0 | 42.5 |
halfcheetah-medium-replay-v2 | 42.4 | 39.9 | 39.2 |
walker2d-medium-v2 | 92.0 | 83.4 | 82.4 |
walker2d-medium-replay-v2 | 89.9 | 66.6 | 42.5 |
E.3 为什么 QDT 在图 4(Gym hopper)中表现接近 DT,而不是 CQL?
主要原因是 QDT 使用 DT 作为其代理算法。 差异在于其训练数据。 如果环境/数据集具有不利于 DT 方法的特定特征,这些特征也会不利于 QDT。 QDT 修正/缓解了一些这些属性,例如数据集次优性。 但是,可能存在其他不利于 DT 和 QDT 的因素,例如环境中存在一些关键状态 (Kumar 等人,2022)。 如果这也是导致 CQL 和 DT 之间差距的原因,那么 QDT 可能与 DT 的表现相当或更好。
Kumar 等人 (2022) 研究了动态规划方法和模仿学习方法,并比较了它们次优性的上限(最佳策略的回报与学习策略的回报之间的差异)。 他们表明,当环境具有几个关键状态时,动态规划方法优于模仿学习方法——情节的回报主要取决于这些状态中的动作。 Kumar 等人 (2022) 中的结果基于理论分析(次优性上限)。 因此,模仿学习方法 (DT 和 QDT) 可能在实践中与动态规划方法(如 CQL)表现得一样好或更好。 Kumar 等人 (2022) 经验性地表明,通过选择合适的模型容量和目标,目标条件方法仍然具有竞争力。 关于比较,仍然有许多开放的和正在进行的讨论。
E.4 删除前 X% 的额外结果
E.5 一致性重新标记消融实验
我们对一致性重新标记(算法 2)在环境子集上进行了消融实验。 结果总结在表 15 中。 我们对简单环境运行了十个随机种子,对其他环境运行了三个。 虽然不显著,但简单环境的结果表明使用算法 2 的平均值具有一些优势。 对于其他更复杂的环境,我们没有看到算法 2 的明显优势。 我们认为这是因为与原始 RTG 变化相比,算法 2 应用的更改相对较小。 我们认为最好保留算法 2,至少目前是这样,因为如果没有该算法,训练数据可能包含不切实际的(不一致的)样本。
Dataset | QDT | QDT w/o Alg.2 |
---|---|---|
Simple Environment | ||
hopper-medium-v2 | ||
halfcheetah-medium-v2 | ||
walker2d-medium-v2 | ||
maze2d-large-v1 |
E.6 汇总评估结果
我们使用三种不同的指标计算每组环境(maze2d、MuJoCo Gym 延迟奖励和 MuJoCo Gym)的汇总评估结果——中位数、分位间平均值 (IQM) 和平均值(图 8)。 它使用 95% 分层引导置信区间 (Agarwal 等人,2021)。
结果支持我们的结论 1) DT 在 maze2d 中挣扎,但 QDT 通过从 CQL 获取帮助来提高 DT 性能。 2) CQL 在 MuJoCo Gym 延迟奖励中失败。 3) DT 和 QDT 在 MuJoCo Gym 中表现类似。 请注意,QDT 在所有这些环境组中均未出现任何错误。