基于 Q 值正则化的 Transformer 用于离线强化学习

Shengchao Hu    Ziqing Fan    Chaoqin Huang    Li Shen    Ya Zhang    Yanfeng Wang    Dacheng Tao
摘要

最近,离线强化学习 (RL) 的进展突出了条件序列建模 (CSM) 的能力,该范式根据历史轨迹和每个状态的目标回报来学习动作分布。 然而,由于单个轨迹内采样回报与多个轨迹之间的最优回报之间存在不一致性,这些方法往往难以将来自次优轨迹的最优轨迹拼接在一起。 幸运的是,动态规划 (DP) 方法通过利用价值函数来逼近每个状态的最优未来回报提供了一种解决方案,而这些技术容易出现不稳定的学习行为,特别是在长时域和稀疏奖励场景中。 基于这些见解,我们提出了 Q 值正则化 Transformer (QT),它将 Transformer 的轨迹建模能力与 DP 方法的最优未来回报的可预测性相结合。 QT 学习一个动作-价值函数,并将一个最大化动作-价值的项整合到 CSM 的训练损失中,旨在寻找与行为策略紧密一致的最优动作。 对 D4RL 基准数据集的实证评估表明,QT 优于传统的 DP 和 CSM 方法,突出了 QT 增强离线 RL 技术水平的潜力。

机器学习,ICML

书本标签


1 引言

离线强化学习 (RL) 旨在完全从之前收集的数据中学习有效的策略,而无需与环境交互 (Fujimoto 等人,2019b) 最近,离线 RL 的进展对这个问题采取了一种新的视角,偏离了传统的离线 RL 方法,这些方法集中在策略正则化 (Kumar 等人,2019a;Fujimoto 等人,2019b) 或价值函数逼近的保守性 (Kostrikov 等人,2021a;Kumar 等人,2020) 上。 相反,这个问题被视为一个通用的条件序列建模 (CSM) 任务 (Chen 等人,2021;Janner 等人,2021),其中包含状态-动作-奖励三元组的过去经验被输入到 Transformer (Vaswani 等人,2017a) 中。 模型使用目标条件策略生成一系列动作预测,有效地将离线 RL 转换为监督学习问题。 这种方法通过考虑多个历史步骤来预测动作,从而放松了 MDP 假设,使模型能够处理长序列并避免与引导相关的稳定性问题 (Srivastava 等人,2019;Kumar 等人,2019b)

然而,CSM 方法未能实现离线 RL 中所需的拼接属性,而离线 RL 涉及从次优轨迹中合成最优轨迹 (Fu 等人,2020) 主要挑战在于采样目标回报与行动的最优回报之间存在不一致,因为高回报轨迹可能并不反映优越的行动,而是反映了幸运的状况 (Wang 等人,2023) CSM 将 return-to-go (RTG) 符元值与单个轨迹相关联,忽略了状态转换的随机性以及跨越不同轨迹的最优未来回报 (Paster 等人,2022) 此外,行为策略中的固有随机性和近似误差进一步加剧了这种不一致性,导致拼接任务的性能下降,尤其是在处理次优数据时 (Wang 等人,2023)

幸运的是,传统的动态规划方法 (Q-learning 1 11本文中,术语 Q-learning动态规划 (DP) 将可以互换使用,以指代任何依赖于贝尔曼备份操作的 RL 算法。 ) 提供了一种强大的解决方案来处理这种不一致性。 通过单独处理每个时间步,并为每个状态反向传播最优未来回报,这些方法使智能体能够选择最大化长期回报的行动。 然而,这些技术容易出现不稳定的学习行为,尤其是在长时域和稀疏奖励场景中 (Yamagata 等人,2023) 虽然 Q-learning 与 CSM 的概念集成很简单,但开发一个能够有效地将它们的优势结合起来并克服其局限性的框架是一个重大挑战。 QDT (Yamagata 等人,2023) 首次尝试将这两种方法结合起来,学习一个保守的价值函数来重新标记 RTG 值,同时保持其他组件与 DT (Chen 等人,2021) 相同。 这种方法试图通过将增强轨迹纳入训练数据集来增强拼接能力。 然而,经验评估表明,虽然它可能缓解了一些问题,但在推理过程中由于轨迹级建模导致的 RTG 值不匹配仍然存在 (Wang 等人,2023),通常达到的结果与现有方法相当,但没有超过现有方法 (图 1)。

基于这些见解,我们提出了 Q 值正则化 Transformer (QT),它将轨迹建模能力与 DP 方法中对最优未来回报的可预测性相结合。 我们的策略基于 Transformer 结构,目标损失包含两个部分:1) 一个条件行为克隆项,使 Transformer 的行动采样与训练集的分布一致,以及 2) 一个策略改进项,用于根据学习的 Q 值选择高奖励行动。 这种混合结构提供了多项优势。 首先,轨迹预测损失作为一种有效的分布匹配技术,起着稳健的基于样本的策略正则化方法的作用,从而消除了对额外行为克隆的需要。 其次,策略改进的整合有助于根据 Q 值识别和优先考虑更高奖励的动作,确保采样动作的预期回报与最佳回报一致。 第三,这两种损失的融合在选择最佳动作和保持对行为策略的保真度之间取得平衡,从而降低了偏好具有高估值的非分布外动作的风险,从而提高了性能。

概括地说,我们的贡献有三方面222Our code is available at: https://github.com/charleshsc/QT:

  • QT,一种新的离线 RL 算法,利用 Transformer 进行精确的策略正则化和 Q 值正则化,以使采样动作的预期回报与最佳回报一致。

  • QT 旨在寻找与行为策略高度一致的最佳动作,确保在以长视界和稀疏奖励为特征的场景中,具有强大的拼接能力和有效的轨迹建模。

  • 我们在 D4RL 基准任务上测试了 QT,并证明了 QT 比传统 DP 和 CSM 方法的优越性,突出了 QT 在增强离线 RL 领域领先水平的潜力。

2 预备知识

2.1 离线强化学习

RL 的目标是学习一个策略 πθ(𝐚|𝐬),最大化马尔可夫决策过程 (MDP) 中的预期累积折扣奖励 𝔼[t=0γt(𝐬t,𝐚t)],MDP 是一个六元组 (𝒮,𝒜,𝒯,,γ,d0),具有状态空间 𝒮、动作空间 𝒜、环境动力学 𝒯(𝐬|𝐬,𝐚):𝒮×𝒮×𝒜[0,1]、奖励函数 :𝒮×𝒜、折扣因子 γ[0,1) 和初始状态分布 d0 (Sutton & Barto, 2018) 策略 π 的动作价值或 Q 值定义为 Qπ(𝐬t,𝐚t)=𝔼𝐚t+1,𝐚t+2π[i=0γi(st+i,at+i)] 在离线设置 (Levine et al., 2020) 中,提供了一个由行为策略 πβ 收集的静态数据集 𝒟={(𝐬,𝐚,𝐬,r)},而不是在线环境。 离线 RL 算法完全从这个静态离线数据集 𝒟 中学习策略,无需与环境进行在线交互。

2.2 重新思考 CSM 中的拼接

为了解决 CSM 的拼接能力问题,提出了替代方法。 例如,EDT (Wu et al., 2023) 和 CGDT (Wang et al., 2023) 通过根据学习到的价值估计器动态过滤最佳轨迹来优化轨迹; ESPER (Paster et al., 2022) 对轨迹进行聚类,并利用平均聚类回报作为策略的条件; DoC (Yang et al., 2022) 将策略条件化为未来轨迹的潜在表示,这是通过最小化互信息来实现的。 从多个轨迹中整合概率统计为次优数据提供了一个有希望的解决方案,该解决方案通过从未来轨迹的整个分布中学习到的估计回报来引导策略行为。 尽管这些方法在拼接能力方面表现出有效性,但它们通常需要用于表示学习的复杂目标以及统计等额外步骤,从而使训练过程复杂化并增加负担。

Refer to caption
Refer to caption
图 1: CQL、DT、QDT 和 QT 在 Maze2D 任务 (a) 和 MuJoCo Gym 延迟奖励 (中等) 任务 (b) 中的评估结果。 结果表明,DT 无法有效地拼接轨迹,而 CQL 在稀疏奖励场景(延迟奖励)中表现不佳。 QDT 在所有环境中都产生了持续但中等的結果,而 QT 在所有测试环境中始终获得最佳性能,展现出其优越性。

其他方法利用了 Q 学习的能力,该能力针对每个状态向后传播最佳未来回报,单独考虑每个时间步,从而有效地从次优数据中拼接最佳轨迹。 QDT (Yamagata 等人,2023) 首次尝试将这两种方法结合起来,通过学习保守价值函数来重新标记数据集中的 RTG 符元,同时使其他组件与 DT (Chen 等人,2021) 保持一致。 然而,这种适应本质上构成了简单的数据增强,将“拼接”的轨迹纳入训练集,但在推理过程中由于轨迹级建模 (Wang 等人,2023) 继续遇到不匹配的 RTG 值,因此未能持续超越现有基准。 相反,QT 采用 n 步贝尔曼方程来根据序列历史来逼近 Q 值函数。 然后,该 Q 值函数被整合到策略改进中,以选择高奖励动作,同时保留原始 DT 损失以进行策略正则化。 这种方法不仅使 CSM 拥有拼接能力,而且保持了其原始轨迹建模能力,这对稀疏奖励场景至关重要。 为此,我们在各种场景中比较了 QT 和 QDT,包括像 Maze2D 这样的拼接能力场景和像 MujoCo Gym 这样的稀疏奖励场景,该场景具有延迟奖励。 结果如图 1 所示,表明 QT 始终获得优异的性能,而 QDT 的结果居中,未能超越现有方法(更多详细信息见第 4.2 节)。

3 方法

我们提出了一种方法,该方法将 Transformer 的轨迹建模能力与 DP 方法预测最佳未来回报的能力结合起来,从而构建了一种适用于离线 RL 问题的鲁棒算法。 最初,我们详细介绍了条件 Transformer 策略作为行为克隆的表达策略框架的应用。 随后,我们描述了在 Transformer 策略的训练阶段将 Q 值模块合并进来,行为克隆项作为策略正则化机制。 最后,我们说明了如何使用学习到的 Q 值函数进行推理。

算法 1 QT:Q 值正则化 Transformer
   输入: 序列范围 K,离线数据集 𝒟,系数 ρ,一组候选的返回值 {r^00,r^01,,r^0m}
   初始化策略网络 πθ,评论网络 Qϕ1Qϕ2,以及目标网络 πθ,Qϕ1Qϕ2
   // 训练 QT
   t=1 T
      采样序列转换小批量 ={(r^j,𝐬j,𝐚j,rj)j=tt+K}𝒟
      // Q 值函数学习
      采样 𝐚^t+Kπθ(𝐚^t+K|r^t:t+K,𝐬t:t+K,𝐚t:t+K1)
      使用方程式 4 更新 Qϕ1Qϕ2
      // 策略学习
      i=1 K
         以自回归的方式采样 𝐚^t+iπθ(𝐚^t+i|r^t:t+i,𝐬t:t+i,𝐚t:t+i1)
      结束 循环.
      通过最小化方程 5 更新策略.
      // 更新目标网络
      θ=ρθ+(1ρ)θ,ϕi=ρϕi+(1ρ)ϕi 对于 i={1,2}.
   结束 循环.
   // 使用 QT 推理
   给定多个目标返回-到-去选项 r^01:m 和初始状态 s0.
   重复
      使用不同的返回-到-去值 𝐚^ti=πθ(𝐚^ti|r^tK+1:ti,𝐬tK+1:t,𝐚tK+1:t1)i=1,,m 采样多个动作.
      使用候选状态-动作对 (𝐬t,𝐚^ti) 计算 i=1,,m 的 Q 值.
      从动作集 {𝐚^ti}i=1m 中使用方程 6 采样具有最大 Q 值的动作 𝐚t.
      执行动作 𝐚t 并收集奖励 rt 和下一个状态 𝐬t+1.
      更新当前返回-到-去值 r^t+1i=r^tirti=1,,m.
   直到 Donetrue.

3.1 条件 Transformer 策略

Transformer (Vaswani 等人,2017b) 在 NLP (Devlin 等人,2018) 和 CV (Dosovitskiy 等人,2020) 中得到广泛研究,在 RL 中也使用 CSM 模式 (Hu 等人,2022) 进行探索。 与大多数先前的强化学习方法(估计价值函数或计算策略梯度)不同,DT (Chen et al., 2021) 从历史序列中输出期望的未来动作,涵盖多个状态 𝐬t、动作 𝐚t 和剩余回报 r^t 元组。 剩余回报符元量化了从当前时间步到剧集结束的累积奖励。 在使用离线收集的数据进行训练期间,DT 以自回归方式处理轨迹序列 τt,其中包含最新的 K 步历史上下文:

τt=(r^tK+1,𝐬tK+1,𝐚tK+1,,r^t,𝐬t,𝐚t). (1)

与状态符元 𝐬t 关联的预测头被训练以预测相应的动作 𝐚t 关于连续动作空间,训练目标是最小化均方误差:

DT=𝔼τt𝒟[1Ki=tK+1t(𝐚iπ(τt)i)2], (2)

其中 π(τt)i 表示 Transformer 策略以自回归方式输出的第 i 个动作。

Theorem 3.1.

考虑一个 MDP,行为策略 β 和决策转换器 π,其条件函数为 f。 假设 MDP 的 ϵ 近似确定性,其中 P(r(𝐬,𝐚)or𝐬𝒯(𝐬,𝐚)|𝐬,𝐚)ϵ 在所有 𝐬,𝐚 处对于某些函数 𝒯 成立。 g(τ)=t=1rt,当 Pβ(g(τ)=f(𝐬1)|𝐬1)αf 对于所有初始状态 𝐬1 时,我们有:

𝔼τβ[g(τ)]𝔼τπf[g(τ)]ϵ(1αf+2)2, (3)

其中 是 MDP 的范围。

定理 3.1 表明,使用 DT 损失 DT 进行训练会导致生成策略逐渐收敛到行为策略 β 但是,这种收敛施加了约束,限制了生成策略超过离线数据集中存在的行为轨迹的性能 𝒟 此外,仅使用 DT 损失 DT 进行训练会限制拼接能力,导致策略主要偏向训练轨迹中观察到的动作 (Paster et al., 2022) 由于篇幅有限,本定理以及其他结果的证明见附录 A

3.2 使用 Q 值正则化进行训练

为了解决拼接挑战并开发能够将采样动作的预期回报与最佳回报对齐的策略,我们采用了 Q 值模块。

Q 值函数是通过传统方法学习的,最小化 Bellman 算子 (Fujimoto 等人,2019b) 并采用双 Q 学习技术 (Hasselt,2010) 我们构建了两个 Q 网络,Qϕ1,Qϕ2,以及它们各自的目标网络,Qϕ1,Qϕ2 和目标策略 πθ 鉴于 Transformer 策略的输入包含轨迹历史,我们选择 n 步 Bellman 方程来估计 Q 值函数。 这种选择是基于其在 1 步近似方法 (Sutton & Barto,2018) 上的改进。 ϕi 的优化,针对 i={1,2} 是通过最小化以下公式进行的:

𝔼τt𝒟,𝐚^tπθm=tK+1t1Q^mQϕi(𝐬m,𝐚m)2, (4)
whereQ^m=j=mt1γjmrj+γtmmini=1,2Qϕi(𝐬t,𝐚^t),

其中 γ 是折扣因子,𝐚^t 表示目标模型 πθ 预测的行动输出。

为了增强策略,我们在训练阶段集成了一个 Q 值模块,使能够优先采样高价值动作。 最终的策略学习目标表现为策略正则化和策略改进元素的线性组合:

π =argminπθ{(θ):=DT(θ)+Q(θ)} (5)
=argminπθDT(θ)α𝔼τt𝒟𝔼(𝐬i,𝐚i)τtQϕ(𝐬i,π(τt)i).

考虑到不同离线数据集上 Q 值函数尺度的变化,我们采用来自 Fujimoto & Gu (2021) 的归一化技术。 我们定义 αα=η𝔼τt𝒟𝔼(𝐬,𝐚)τt[|Qϕ(𝐬,𝐚)|],其中 η 是一个超参数,它调节两个损失项之间的平衡。 值得注意的是,分母中的 Q 值仅用于归一化,不受微分影响。

此外,我们从理论角度肯定了公式 5 的有效性,如定理 3.2 所述,这表明学习到的最终策略预计在价值函数方面将始终优于行为策略。 具体来说,它强调了 Q 值正则化如何通过使能够优先采样高价值动作来增强策略,使学习过程更贴近最优回报。 这隐含地保证了对基线行为策略 β 的改进。

Theorem 3.2.

π 为公式 5 的最优策略。 对于任何 𝐬𝒮,我们有 Vπ(𝐬)Vβ(𝐬)π(𝐚|𝐬)=0,鉴于 β(𝐚|𝐬)=0

表 1: QT 和 SOTA 基线在 D4RL Gym、Adroit、Kitchen、Maze2D 和 AntMaze 任务上的性能。 QT 的结果对应于 30 次随机 rollouts(3 个独立训练的模型,每个模型 10 个轨迹)的标准化分数的平均值和标准误差,所有任务通常表现出低性能方差。 我们的方法在几乎所有领域都明显优于所有先前方法,包括传统的 Q 学习算法和 CSM 方法。

colspec = l——*6c—*6c—c, row1, 12, 20, 24, 29 = font= Gym 任务 CQL IQL BCQ BEAR TD3+BC MoRel BC DD DT StAR GDT CGDT QT

halfcheetah-medium-expert-v2 91.6 86.7 69.6 53.4 90.7 53.3 55.2 90.6 86.8 93.7 93.2 93.6 96.1
± 0.2
漏斗介质专家-v2 105.4 91.5 109.1 96.3 98.0 108.7 52.5 111.8 107.6 111.1 111.1 107.6 113.4 ± 0.4

walker2d-medium -专家-v2 108.8 109.6 67.3 40.1 110.1 95.6 107.5 108.8 108.1 109.0 107.7 109.3 112.6 ± 0.6

halfcheetah-medium-v2 49 .2 47.4 41.5 41.7 48.4 42.1 42.6 49.1 42.6 42.9 42.9 43.0 51.4
± 0.4
料斗介质-v2 69.4 66.3 65.1 52.1 59.3 95.4 52.9 79.3 67.6 59.5 77.1 96.9 96.9 ± 3.1

walker2d-medium-v2 83.0 78.3 52.0 59.1 83.7 77.8 75.3 82.5 74.0 73.8 76.5 79.1 88.8
± 0.5
halfcheetah-medium-replay-v2 45.5 44.2 34.8 38.6 44.6 40.2 36.6 39.3 36.6 36.8 40.5 40.4 48.9 ± 0.3
hopper-medium-replay-v2 95.0 94.7 31.1 33.7 60.9 93.6 18.1 100.0 82.7 29.2 85.3 93.4 102.0 ± 0.2

walker2d-medium-replay-v2 77.2 73.9 13.7 19.2 81.8 49.8 32.3 75.0 79.4 39.8 77.5 78.1 98.5 ± 1.1

Average 80.6 77.0 53.8 48.2 75.3 72.9 52.6 81.8 76.2 66.2 79.1 82.4 89.8

Adroit 任务 CQL IQL BCQ BEAR O-RL MoRel BC DD D-QL DT StAR GDT QT

pen-human-v1 37.5 71.5 66.9 -1.0 90.7 -3.2 63.9 66.7 72.8 79.5 77.9 92.5 129.6 ± 4.6

hammer-human-v1 4.4 1.4 0.9 0.3 0.2 2.7 1.2 1.9 0.2 3.7 3.7 5.5 35.6
± 7.0
door- human-v1 9.9 4.3 -0.05 -0.3 -0.1 2.2 2.0 2.8 0.0 14.8 1.5 20.6 28.7 ± 2.4

笔克隆-v1 39.2 37.3 50.9 26.5 60 -0.2 37.0 42.8 57.3 75.8 33.1 86.2 125.0
± 2.8
锤子克隆-v1 2.1 2.1 0.4 0.3 2.0 2.3 0.6 1.7 3.1 3.0 0.3 8.9 23.0 ± 2.3
door-cloned-v1 0.4 1.6 0.01 -0.1 0.4 2.3 0.0 1.3 0.0 16.3 0.0 19.8 20.6 ± 1.7

Average 15.6 19.7 19.8 4.3 25.5 1.0 17.5 19.5 22.2 32.2 19.4 38.9 60.4

Kitchen 任务 CQL IQL BCQ BEAR TD3+BC O-RL BC DD D-QL DT StAR GDT QT

kitchen-complete-v0 43.8 62.5 8.1 0.0 0.0 2.0 65.0 65.0 84.0 50.8 40.8 43.8 81.7 ± 1.2

kitchen-partial-v0 49.8 46.3 18.9 13.1 0.0 35.5 33.8 57.0 60.5 57.9 12.3 73.3 75.0 ± 0.1

Average 46.8 54.4 13.5 6.6 0.0 18.8 51.5 61 72.3 54.4 26.6 58.6 78.4

Maze2D 任务 CQL IQL BCQ BEAR TD3+BC COMBO BC Diffuser DD DT GDT QDT QT

maze2d-umaze-v1 94.7 42.1 49.1 65.7 14.8 76.4 88.9 113.9 116.2 31.0 50.4 57.3 105.4 ± 4.7

maze2d-medium-v1 41.8 34.9 17.1 25.0 62.1 68.5 38.3 121.5 122.3 8.2 7.8 13.3 172.0
± 6.2
maze2d-large-v1 49.6 61.7 30.8 81.0 88.6 14.1 1.5 123.0 125.9 2.3 0.7 31.0 240.1 ± 2.5
Average 62.0 46.2 32.3 57.2 55.2 53.0 42.9 119.5 121.5 13.8 19.6 33.9 172.5

AntMaze 任务 CQL IQL BCQ BEAR TD3+BC O-RL BC DD D-QL DT StAR GDT QT

antmaze-umaze-v0 74.0 87.5 78.9 73.0 78.6 64.3 54.6 73.1 93.4 59.2 51.3 76.0 96.7 ± 4.7

antmaze-umaze-diverse-v0 84.0 62.2 55.0 61.0 71.4 60.7 45.6 49.2 66.2 53.0 45.6 69.0 96.7
± 4.7
antmaze-medium-diverse-v0 53.7 70.0 0.0 8.0 3.0 0.0 0.0 24.6 78.6 0.0 0.0 6.0 59.3 ± 0.9

antmaze-large-diverse-v0 14.9 47.5 2.2 0.0 0.0 0.0 0.0 7.5 56.6 0.0 0.0 0.0 53.3 ± 4.7

平均 56.7 66.8 34.0 57.2 38.3 31.3 25.1 61.2 73.7 28.1 24.2 37.8 76.5

3.3 利用Q值模块进行推断

与之前条件Transformer策略中仔细设计return-to-go符元值不同,该方法需要更多尝试和调优才能找到最佳值,我们对多个候选的return-to-go符元进行采样 {r^00,r^01,,r^0m} ,并根据不同的return-to-go值同时输出动作。 然后,我们利用学习到的Q值函数优先采样具有高回报的动作,这可以被描述为:

argmax𝐚^tiQϕ(𝐬t,𝐚^ti), (6)
where𝐚^ti= π(r^tK+1:ti,𝐬tK+1:t,𝐚tK+1:t1)).

此过程高度可并行化。 通过为每个批次分配不同的RTG值,我们可以利用GPU的计算能力来同时生成多个动作序列,从而最大限度地减少额外的计算开销。 为了证明该程序的有效性,进行了相应的消融研究,详情见第 4.2 节和附录 D。 训练和推断过程概述在算法 1 中,全面总结了所涉及的过程。

4 实验

本节,我们使用广受认可的D4RL基准 (Fu et al., 2020) 对我们提出的QT模型进行了广泛的评估。 我们的主要目标是评估QT在不同领域中的有效性,将其与两种流行的算法进行对比:Q学习方法和CSM算法。 这些算法中的每一种都展示了在特定领域的能力,而在其他领域则表现出次优性能。 此外,我们执行了一个经验性消融研究来剖析和理解我们方法核心组件的个体贡献。

表2: 不同组件作用的消融研究。 对walker2d-medium-replay任务的3个种子进行平均和标准差得分报告。 ’CTP’ 指的是第 3.1 节中详细介绍的条件Transformer策略,’none’ 表示配置中没有Q值模块,’Inf.’ 是推断的简写。
Exp Policy Q-value Update Train with Q-value Inf. with Q-value Performance
1 BC none 32.3 ± 9.8
2 BC n-step 82.2 ± 0.5
3 CTP none 79.4 ± 2.0
4 CTP n-step 87.6 ± 1.1
5 CTP n-step 97.7 ± 0.3
6 CTP 1-step 85.6 ± 1.7
7 CTP n-step 98.5 ± 1.1

数据集。 我们在 D4RL 基准测试中考虑了五个不同的任务领域:Gym、Adroit、Kitchen、Maze2D 和 AntMaze。 Gym-MuJoCo 运动任务通常用作标准基准,相对简单,其特征是数据集包含大量接近最优轨迹和平滑的奖励函数。 相反,Adroit 数据集主要源于人类行为,表现出有限的状态-动作空间,需要强大的策略正则化才能将代理性能维持在预期范围内。 Kitchen 环境提出了一个多任务挑战,要求代理完成四个连续的子任务以实现所需的“状态”配置,从而强调了泛化到未见状态的重要性,而不是纯粹依赖训练期间看到的轨迹。 Maze2D 任务旨在评估离线强化学习算法有效拼接子轨迹以识别通往目标的最近路径的能力。 最后,AntMaze 呈现了更具挑战性的场景,具有稀疏奖励,用复杂 8-DoF“Ant”四足机器人替代了 Maze2D 中更简单的 2D 球体,从而提高了难度等级。

表格 3: 对拼接能力的消融研究。 报告了 Maze2D 任务在 3 个种子上的平均分和标准差。 这涵盖了四个越来越复杂的迷宫——开放式、umaze、中等和大型——每个迷宫都有两个奖励函数:普通和密集。 最高的平均得分以粗体显示。
Dataset CQL DT QDT QT
Sparse Reward maze2d-open-v0 216.7±80.7 196.4±39.6 190.1±37.8 497.9 ± 12.3
maze2d-umaze-v1 94.7±23.1 31.0±21.3 57.3±8.2 105.4 ± 4.8
maze2d-medium-v1 41.8±13.6 8.2±4.4 13.3±5.6 172.0 ± 6.2
maze2d-large-v1 49.6±8.4 2.3±0.9 31.0±19.8 240.1 ± 2.5
Dense Reward maze2d-open-dense-v0 307.6±43.5 346.2±14.3 325.7±61.4 608.4 ± 1.9
maze2d-umaze-dense-v1 72.7±10.1 6.8±10.9 58.6±3.3 103.1 ± 7.8
maze2d-medium-dense-v1 70.9±9.2 31.5±3.7 42.3±7.1 111.9 ± 1.9
maze2d-large-dense-v1 90.9±19.4 45.3±11.2 62.2±9.9 177.2 ± 7.8

基准。 我们针对各种基准方法进行测试,每种方法在特定领域任务中表现出色。 对于基于策略正则化的方法,我们的选择包括 IQL (Kostrikov 等人,2021b)、BCQ (Fujimoto 等人,2019a)、BEAR (Kumar 等人,2019a)、TD3+BC (Fujimoto & Gu, 2021) 和 O-RL (Brandfonbrener 等人,2021) 我们还考虑了用于 Q 值约束方法的 CQL (Kumar 等人,2020) 在基于模型的离线强化学习领域,我们针对 MoRel (Kidambi 等人,2020) 和 COMBO (Yu 等人,2021) 进行评估。 对于 CSM 方法,我们的比较包括 DT (Chen 等人,2021)、StAR (Shang 等人,2022)、QDT (Yamagata 等人,2023)、GDT (Hu 等人,2023a) 和 CGDT (Wang 等人,2023) 此外,我们评估了基于扩散的方法,如 Diffuser (Janner 等人,2022)、DD (Ajay 等人,2022) 和 Diffusion-QL (Wang 等人,2022) 这些基线方法的性能分数要么来自其各自论文中公布的最佳结果,要么来自我们自己的运行,确保公平比较。

4.1 主要结果

我们将我们的 QT 与基线在五个任务域上进行比较,并在表 3.2 中报告结果。 为了确保公平比较,我们根据 Fu 等人 (2020) 中建立的协议对分数进行归一化,其中分数 100 对应于专家策略。 我们将根据每个特定领域给出分析。

Gym 域的结果。 我们可以看到,虽然大多数基线模型在 Gym 任务上表现出熟练度,但 QT 通常能实现进一步的改进,特别是在“中等”和“中等重放”任务中,远远超过其他基于 Transformer 的方法。 值得注意的是,这些数据集包含由在线 SAC (Haarnoja 等人,2018) 代理生成的轨迹,经过训练以达到专家性能的大约三分之一。 因此,其他基于 Transformer 的方法在没有大量高质量轨迹的情况下,通常比 Q 学习方法表现不佳 (Emmons 等人,2021),如中等专家数据集中所示。 正如第 3 节所述,在 QT 中加入策略改进项将策略引导到已探索动作空间子集中的最优动作,这极大地促成了 QT 令人称赞的经验性能。

Adroit 和 Kitchen 域的结果。 在 Adroit 域,由于人类演示范围有限,离线强化学习特别容易受到外推误差的挑战 (Fu 等人,2020),因此稳健的策略正则化至关重要。 我们的基于 Transformer 的策略采用 DT 损失 DT,显著优于基于扩散的基线。 这种优势归因于其高度的表达能力和更有效的策略正则化。 此外,厨房任务需要对看不见的状态进行泛化以及长期价值优化,并且在 QT 的帮助下也见证了显著的性能提升,这突出了其在该领域的可适应性和有效性。

Maze2D 和 AntMaze 领域的成果。 Maze2D 领域作为基准用于评估离线强化学习算法有效地将不同轨迹片段拼接在一起的能力 (Fu 等人,2020) 将 Q 值模块与 Transformer 策略集成,增强了其使用预先收集的子轨迹来导航到目标的最佳路径的能力。 AntMaze 领域的特点是稀疏奖励和大量次优轨迹,提出了一个更具挑战性的问题。 在这种情况下,稳健且稳定的 Q 学习方法对于实现显著的性能至关重要。 从经验上讲,QT 增强了我们的 Q 值模块和经过最佳调整的超参数 η,要么与现有方法的性能相匹配,要么超过现有方法的性能,而其他基于 Transformer 的方法通常在“中等”和“大型”任务中难以实现。

表 4: 对稀疏奖励能力的消融研究。 报告了 D4RL 任务在 3 个种子上的平均值和标准差得分。 该研究包括三个任务 - halfcheetah、hopper 和 walker2d,每个任务在两种奖励条件下进行评估:稀疏和密集。 最高平均得分以粗体表示。
Dataset Sparse Reward Dense Reward
DT CQL QDT QT DT CQL QDT QT
halfcheetah-medium-v2 42.2 ± 0.2 1.0 ± 1.0 42.4 ± 0.5 43.3 ± 0.2 42.6 ± 0.1 49.2 ± 0.5 42.3 ± 0.4 51.4 ± 0.4
hopper-medium-v2 57.3 ± 2.4 23.3 ± 1.0 50.7 ± 5.0 72.7 ± 3.9 67.6 ± 1.0 69.4 ± 13.1 66.5 ± 6.3 96.3 ± 3.1
walker2d-medium-v2 69.9 ± 2.0 0.0 ± 0.4 63.7 ± 6.4 80.7 ± 0.8 74.0 ± 1.4 83.0 ± 0.6 67.1 ± 3.2 88.8 ± 0.5
halfcheetah-medium-replay-v2 33.0 ± 4.8 7.8 ± 6.9 32.8 ± 7.3 42.5 ± 0.2 36.6 ± 0.8 45.5 ± 0.5 35.6 ± 0.5 48.9 ± 0.3
hopper-medium-replay-v2 50.8 ± 14.3 7.7 ± 5.9 38.7 ± 26.7 94.2 ± 2.2 82.7 ± 7.0 95.0 ± 2.9 52.1 ± 20.3 102.0 ± 0.2
walker2d-medium-replay-v2 51.6 ± 24.6 3.2 ± 1.7 29.6 ± 15.5 78.5 ± 2.1 66.6 ± 3.0 77.2 ± 1.1 58.2 ± 5.1 98.5 ± 1.1
Average 50.8 7.2 43.0 68.6 61.7 69.9 53.6 81.0

4.2 消融研究

本节深入探讨了 QT 在 D4RL 任务上优于其他基于 Transformer 的方法的量化分析。 我们进行了消融研究,以剖析和量化 QT 主要组件对其整体有效性的贡献。 此外,我们进行了进一步的消融实验,以评估 QT 是否成功地整合了 CSM 和 Q 学习方法的优势,同时克服了它们的局限性。 我们选择 CQL 作为评估 Q 学习方法的基准,并将 DT 作为评估 CSM 方法的基准。 我们还将 QDT 作为比较基准,以展示 QDT 和我们方法之间的差异。 请注意,关于 QT 的进一步讨论在附录 D 中提供。

不同组件的作用。 正如第 3 节所述,我们的方法包含三个主要组件,以及 Q 值更新方法,每个组件都需要单独分析。 我们选择 walker2d-medium-replay 数据集作为基准,因为它包含各种代理级别,并且与基线相比,QT 表现出显着的性能提升。 正如表 2 所示,集成我们的 Q 值模块显著提升了性能,实验 1 与 2、3 与 7 之间的比较结果证明了这一点。 值得注意的是,训练阶段的 Q 值正则化(公式 5)起着至关重要的作用,表现为性能提升的最主要贡献者,推理阶段也受益于 Q 值模块(如实验 3 与 4、5 与 7 之间的比较所示)。 此外,仅依赖于一步贝尔曼方程来更新 Q 值函数,导致的性能低于 n 步贝尔曼方程(如实验 6 和 7 之间的比较所示),这突出了 Q 值函数准确性在我们方法中的关键作用。

拼接能力。 Maze2D 领域,一个具有固定目标位置的导航任务,是离线 RL 算法拼接不同轨迹段 (Fu et al., 2020) 能力的关键测试。 该领域包含四个越来越复杂的迷宫 - 开放、umaze、中等和大型 - 并使用两种奖励函数:正常和密集。 正常奖励仅在目标达成时给予,而密集奖励在每一步都以递增的方式分配,与到目标的距离成反比。 3 总结了结果。 CQL 表现出色,特别是在密集奖励的情况下。 DT 然而,由于其有限的拼接能力,通常难以奏效。 QDT 在 DT 上表现出显著的改进,但仍然落后于 CQL。 值得注意的是,QT 在所有任务中都表现出色,这证实了它不仅能够赋予 Transformer 策略拼接能力,而且还能协同融合两种方法的优势,以提高性能。

稀疏奖励能力。 为了说明 Q 学习方法 (CQL) 的局限性,我们遵循 Chen 等人 (2021) 并评估算法在延迟(稀疏)奖励设置中的表现,其中奖励在轨迹期间被扣留并在最终时间步累积。 表格 4 展示了延迟(稀疏)和密集奖励场景的结果。 正如预期,CQL 在稀疏条件下难以制定有效的策略,而 DT 则表现出令人称赞的性能。 QDT 使用 CQL 进行 RTG 符元值重标记,其性能低于 DT,受到 CQL 不准确的价值函数估计的影响。 相反,QT 虽然在稀疏奖励场景中也受到这些不准确估计的影响,但得益于我们强大的策略正则化。 这一特性有效地减轻了 Q 值模块的不利影响,使 QT 能够在所有评估的任务中胜过这些方法。

Refer to caption
图 2: 对长期任务范围能力的消融研究。 这包括在 walker2d-medium-replay-v2 任务中对不同输入序列范围 K[10,80] 的性能比较。

长期任务范围能力。 虽然在马尔可夫环境中,前一刻的状态通常足以确定当前的动作,但 DT 实验表明,过去的信息对于序列建模方法在某些环境中很有价值,其中较长的序列往往比长度为 1 的序列产生更好的结果。 然后,我们探索了不同序列长度对性能的影响,并比较了 DT 和 QT 的结果,其中 Q 学习方法在长范围设置中通常表现不佳 (Yamagata 等人,2023;Bhargava 等人,2023) 结果如图 2 所示。 随着序列范围 K 的扩展,两种智能体均表现出性能提升。 DT 在 K=20 后最初下降,但在 K=80 后恢复,而 QT 始终提升其性能,展示了在管理扩展任务范围方面的优越能力。

5 相关工作

脱线强化学习算法完全从这个静态脱线数据集 𝒟 中学习策略,而无需与环境在线交互 (Levine et al., 2020) 在与环境的交互代价高昂或风险很高(例如安全关键应用)的情况下,这种范式可能非常宝贵。 但是,由于学习到的策略可能与行为策略不同,因此脱线算法必须减轻 分布偏移 的影响,这会导致性能大幅下降,如先前研究 (Fujimoto et al., 2019b) 中所述。

Q 学习 方法是解决 分布偏移 问题的最突出类别之一。 特别是,之前的 Q 学习工作通常通过以下三种方式之一来解决这个问题: 1) 将学习到的策略限制为行为策略 (Kumar et al., 2019a; Fujimoto et al., 2019b; Fujimoto & Gu, 2021; Wu et al., 2019; Lyu et al., 2022); 2) 通过对未来奖励进行保守估计来限制学习到的策略 (Kumar et al., 2020; Kostrikov et al., 2021a; Chebotar et al., 2023); 3) 引入基于模型的方法,这些方法学习环境动态的模型以生成更多用于策略训练的数据,并在学习到的 MDP 中执行悲观规划 (Janner et al., 2019; Kidambi et al., 2020; Yu et al., 2021)

加权模仿学习 在不限制学习到的策略的情况下解决 分布偏移,它通过对良好的状态-动作对赋予更高的权重来执行模仿学习。 这些方法 (Wang et al., 2018; Peng et al., 2019; Wang et al., 2020; Chen et al., 2020; Siegel et al., 2020) 通常使用估计的优势函数作为权重。 由于这些方法模仿了行为策略的选定部分,因此它们自然地将学习到的策略限制在行为策略范围内。

条件序列建模 是另一组不限制学习策略的方法,它从过去经验序列中预测后续动作,涵盖状态-动作-奖励三元组。 这种范式适合于监督学习方法,本质上将学习到的策略限制在行为策略的边界内,并专注于以特定指标为条件的未来轨迹的策略 (Chen et al., 2021; Hu et al., 2023b; Brandfonbrener et al., 2022; Hu et al., 2024; Meng et al., 2023; Wang et al., 2023) 此外,轨迹序列也可以被表述为条件生成过程,并通过扩散模型生成,同时满足条件约束 (Janner et al., 2022; Ajay et al., 2022; Wang et al., 2022)

我们的方法不同于但与这些主要的脱线 RL 算法类别相关。 从本质上讲,我们的方法是一种 CSM 方法,因为它根据历史序列和采样的未来奖励来学习后续动作。 此外,我们方法的高级框架与加权模仿学习有点相似,其中使用价值函数为各种状态-动作对分配权重。 然而,我们组件的实际应用有显著不同。 与仅仅将价值函数用于训练数据加权的方法不同,我们的方法将学习的 Q 值模块直接集成到训练阶段,这将动作采样偏向于更高回报的选择,这一因素在我们实验中经验证明了性能的提高。

6 结论

在这项研究中,我们介绍了 QT,它将 Transformer 的轨迹建模能力与 DP 方法的最佳未来回报的可预测性相结合。 QT 为增强离线 RL 算法提供了一个新颖的框架。 QT 的条件 Transformer 策略允许高度表达的策略类别,其学习本身作为一种强大的策略正则化方法。 此外,通过联合学习的 Q 值函数对 Q 值进行正则化,将动作采样偏向于探索空间内的最佳区域。 在 D4RL 基准数据集上的实证评估表明,QT 比传统的 DP 和 CSM 方法更优越,突出了 QT 在增强离线 RL 方面的潜力。

局限性。 我们为离线 RL 引入了一种新颖的基于 Transformer 的策略,在各种任务中取得了最先进的性能。 然而,QT 的有效性取决于显式奖励信号的可用性。 在缺乏显式奖励信号的情况下,例如,只包含来自人类演示的状态-动作对的数据集,QT 的性能可能会受到限制。

致谢

这项工作得到了中国国家重点研发计划(编号: 2022ZD0160702),STCSM(编号: 22511106101,编号 22511105700,号码 21DZ1100100),111计划(No.21DZ1100100) BP0719010)和国家自然科学基金(No. 62306178)。

影响声明

本文为离线强化学习的进步做出了贡献。 虽然我们的工作可能会有很多潜在的社会影响,但我们认为在本文的背景下,没有一个需要特别强调。

参考文献

  • Abbasi-Yadkori et al. (2019) Abbasi-Yadkori, Y., Bartlett, P., Bhatia, K., Lazic, N., Szepesvari, C., and Weisz, G. Politex: Regret bounds for policy iteration using expert prediction. In International Conference on Machine Learning, pp.  3692–3702. PMLR, 2019.
  • Ajay et al. (2022) Ajay, A., Du, Y., Gupta, A., Tenenbaum, J., Jaakkola, T., and Agrawal, P. Is conditional generative modeling all you need for decision-making? arXiv preprint arXiv:2211.15657, 2022.
  • Bhargava et al. (2023) Bhargava, P., Chitnis, R., Geramifard, A., Sodhani, S., and Zhang, A. Sequence modeling is a robust contender for offline reinforcement learning. arXiv preprint arXiv:2305.14550, 2023.
  • Brandfonbrener et al. (2021) Brandfonbrener, D., Whitney, W., Ranganath, R., and Bruna, J. Offline rl without off-policy evaluation. Advances in neural information processing systems, 34, 2021.
  • Brandfonbrener et al. (2022) Brandfonbrener, D., Bietti, A., Buckman, J., Laroche, R., and Bruna, J. When does return-conditioned supervised learning work for offline reinforcement learning? Advances in Neural Information Processing Systems, 35:1542–1553, 2022.
  • Chebotar et al. (2023) Chebotar, Y., Vuong, Q., Hausman, K., Xia, F., Lu, Y., Irpan, A., Kumar, A., Yu, T., Herzog, A., Pertsch, K., et al. Q-transformer: Scalable offline reinforcement learning via autoregressive q-functions. In Conference on Robot Learning, pp.  3909–3928. PMLR, 2023.
  • Chen et al. (2021) Chen, L., Lu, K., Rajeswaran, A., Lee, K., Grover, A., Laskin, M., Abbeel, P., Srinivas, A., and Mordatch, I. Decision transformer: Reinforcement learning via sequence modeling. Advances in neural information processing systems, 34:15084–15097, 2021.
  • Chen et al. (2020) Chen, X., Zhou, Z., Wang, Z., Wang, C., Wu, Y., and Ross, K. Bail: Best-action imitation learning for batch deep reinforcement learning. Advances in Neural Information Processing Systems, 33, 2020.
  • Devlin et al. (2018) Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
  • Dosovitskiy et al. (2020) Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
  • Emmons et al. (2021) Emmons, S., Eysenbach, B., Kostrikov, I., and Levine, S. Rvs: What is essential for offline rl via supervised learning? arXiv preprint arXiv:2112.10751, 2021.
  • Fu et al. (2020) Fu, J., Kumar, A., Nachum, O., Tucker, G., and Levine, S. D4rl: Datasets for deep data-driven reinforcement learning. arXiv preprint arXiv:2004.07219, 2020.
  • Fujimoto & Gu (2021) Fujimoto, S. and Gu, S. S. A minimalist approach to offline reinforcement learning. Advances in neural information processing systems, 34:20132–20145, 2021.
  • Fujimoto et al. (2019a) Fujimoto, S., Meger, D., and Precup, D. Off-policy deep reinforcement learning without exploration. In International conference on machine learning, pp.  2052–2062. PMLR, 2019a.
  • Fujimoto et al. (2019b) Fujimoto, S., Meger, D., and Precup, D. Off-policy deep reinforcement learning without exploration. In International conference on machine learning, pp.  2052–2062. PMLR, 2019b.
  • Haarnoja et al. (2018) Haarnoja, T., Zhou, A., Abbeel, P., and Levine, S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In International conference on machine learning, pp.  1861–1870. PMLR, 2018.
  • Hasselt (2010) Hasselt, H. Double q-learning. Advances in neural information processing systems, 23, 2010.
  • Hu et al. (2022) Hu, S., Shen, L., Zhang, Y., Chen, Y., and Tao, D. On transforming reinforcement learning by transformer: The development trajectory. arXiv preprint arXiv:2212.14164, 2022.
  • Hu et al. (2023a) Hu, S., Shen, L., Zhang, Y., and Tao, D. Graph decision transformer. arXiv preprint arXiv:2303.03747, 2023a.
  • Hu et al. (2023b) Hu, S., Shen, L., Zhang, Y., and Tao, D. Prompt-tuning decision transformer with preference ranking. arXiv preprint arXiv:2305.09648, 2023b.
  • Hu et al. (2024) Hu, S., Shen, L., Zhang, Y., and Tao, D. Learning multi-agent communication from graph modeling perspective. In The Twelfth International Conference on Learning Representations, 2024.
  • Hu et al. (2023c) Hu, X., Ma, Y., Xiao, C., Zheng, Y., and Jianye, H. Iteratively refined behavior regularization for offline reinforcement learning. In NeurIPS 2023 Workshop on Distribution Shifts: New Frontiers with Foundation Models, 2023c.
  • Janner et al. (2019) Janner, M., Fu, J., Zhang, M., and Levine, S. When to trust your model: Model-based policy optimization. Advances in neural information processing systems, 32, 2019.
  • Janner et al. (2021) Janner, M., Li, Q., and Levine, S. Offline reinforcement learning as one big sequence modeling problem. Advances in neural information processing systems, 34:1273–1286, 2021.
  • Janner et al. (2022) Janner, M., Du, Y., Tenenbaum, J. B., and Levine, S. Planning with diffusion for flexible behavior synthesis. arXiv preprint arXiv:2205.09991, 2022.
  • Kidambi et al. (2020) Kidambi, R., Rajeswaran, A., Netrapalli, P., and Joachims, T. Morel: Model-based offline reinforcement learning. Advances in neural information processing systems, 33:21810–21823, 2020.
  • Kingma & Ba (2014) Kingma, D. P. and Ba, J. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
  • Kostrikov et al. (2021a) Kostrikov, I., Fergus, R., Tompson, J., and Nachum, O. Offline reinforcement learning with fisher divergence critic regularization. In International Conference on Machine Learning, pp.  5774–5783. PMLR, 2021a.
  • Kostrikov et al. (2021b) Kostrikov, I., Nair, A., and Levine, S. Offline reinforcement learning with implicit q-learning. arXiv preprint arXiv:2110.06169, 2021b.
  • Kumar et al. (2019a) Kumar, A., Fu, J., Soh, M., Tucker, G., and Levine, S. Stabilizing off-policy q-learning via bootstrapping error reduction. Advances in Neural Information Processing Systems, 32, 2019a.
  • Kumar et al. (2019b) Kumar, A., Peng, X. B., and Levine, S. Reward-conditioned policies. arXiv preprint arXiv:1912.13465, 2019b.
  • Kumar et al. (2020) Kumar, A., Zhou, A., Tucker, G., and Levine, S. Conservative q-learning for offline reinforcement learning. Advances in Neural Information Processing Systems, 33:1179–1191, 2020.
  • Levine et al. (2020) Levine, S., Kumar, A., Tucker, G., and Fu, J. Offline reinforcement learning: Tutorial, review, and perspectives on open problems. arXiv preprint arXiv:2005.01643, 2020.
  • Lyu et al. (2022) Lyu, J., Ma, X., Li, X., and Lu, Z. Mildly conservative q-learning for offline reinforcement learning. Advances in Neural Information Processing Systems, 35, 2022.
  • Meng et al. (2023) Meng, L., Wen, M., Le, C., Li, X., Xing, D., Zhang, W., Wen, Y., Zhang, H., Wang, J., Yang, Y., et al. Offline pre-trained multi-agent decision transformer. Machine Intelligence Research, 2023.
  • Nachum et al. (2017) Nachum, O., Norouzi, M., Xu, K., and Schuurmans, D. Bridging the gap between value and policy based reinforcement learning. Advances in neural information processing systems, 30, 2017.
  • Paster et al. (2022) Paster, K., McIlraith, S., and Ba, J. You can’t count on luck: Why decision transformers and rvs fail in stochastic environments. Advances in Neural Information Processing Systems, 35, 2022.
  • Peng et al. (2019) Peng, X. B., Kumar, A., Zhang, G., and Levine, S. Advantage-weighted regression: Simple and scalable off-policy reinforcement learning. arXiv preprint arXiv:1910.00177, 2019.
  • Shang et al. (2022) Shang, J., Kahatapitiya, K., Li, X., and Ryoo, M. S. Starformer: Transformer with state-action-reward representations for visual reinforcement learning. In European Conference on Computer Vision. Springer, 2022.
  • Siegel et al. (2020) Siegel, N. Y., Springenberg, J. T., Berkenkamp, F., Abdolmaleki, A., Neunert, M., Lampe, T., Hafner, R., Heess, N., and Riedmiller, M. Keep doing what worked: Behavioral modelling priors for offline reinforcement learning. arXiv preprint arXiv:2002.08396, 2020.
  • Srivastava et al. (2019) Srivastava, R. K., Shyam, P., Mutz, F., Jaśkowski, W., and Schmidhuber, J. Training agents using upside-down reinforcement learning. arXiv preprint arXiv:1912.02877, 2019.
  • Sutton & Barto (2018) Sutton, R. S. and Barto, A. G. Reinforcement learning: An introduction. MIT press, 2018.
  • Vaswani et al. (2017a) Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Attention is all you need. Advances in neural information processing systems, 30, 2017a.
  • Vaswani et al. (2017b) Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Attention is all you need. Advances in neural information processing systems, 30, 2017b.
  • Wang et al. (2018) Wang, Q., Xiong, J., Han, L., Liu, H., Zhang, T., et al. Exponentially weighted imitation learning for batched historical data. Advances in Neural Information Processing Systems, 31, 2018.
  • Wang et al. (2023) Wang, Y., Yang, C., Wen, Y., Liu, Y., and Qiao, Y. Critic-guided decision transformer for offline reinforcement learning. arXiv preprint arXiv:2312.13716, 2023.
  • Wang et al. (2020) Wang, Z., Novikov, A., Zolna, K., Merel, J. S., Springenberg, J. T., Reed, S. E., Shahriari, B., Siegel, N., Gulcehre, C., Heess, N., et al. Critic regularized regression. Advances in Neural Information Processing Systems, 33, 2020.
  • Wang et al. (2022) Wang, Z., Hunt, J. J., and Zhou, M. Diffusion policies as an expressive policy class for offline reinforcement learning. arXiv preprint arXiv:2208.06193, 2022.
  • Wu et al. (2019) Wu, Y., Tucker, G., and Nachum, O. Behavior regularized offline reinforcement learning. arXiv preprint arXiv:1911.11361, 2019.
  • Wu et al. (2023) Wu, Y.-H., Wang, X., and Hamaya, M. Elastic decision transformer. arXiv preprint arXiv:2307.02484, 2023.
  • Yamagata et al. (2023) Yamagata, T., Khalil, A., and Santos-Rodriguez, R. Q-learning decision transformer: Leveraging dynamic programming for conditional sequence modelling in offline rl. In International Conference on Machine Learning, pp.  38989–39007. PMLR, 2023.
  • Yang et al. (2022) Yang, M., Schuurmans, D., Abbeel, P., and Nachum, O. Dichotomy of control: Separating what you can control from what you cannot. arXiv preprint arXiv:2210.13435, 2022.
  • Yu et al. (2021) Yu, T., Kumar, A., Rafailov, R., Rajeswaran, A., Levine, S., and Finn, C. Combo: Conservative offline model-based policy optimization. Advances in neural information processing systems, 34:28954–28967, 2021.

附录 A 证明

A.1 定理 3.1 的证明

首先我们介绍以下引理,它受 Brandfonbrener 等人 (2022) 关于回报条件监督学习 (RCSL) 的工作的启发。

Lemma A.1.

(Brandfonbrener 等人,2022) 考虑一个 MDP,行为 β 和条件函数 f。假设以下条件:

  1. 1.

    返回覆盖率:g(τ)=t=1rtPβ(g=f(𝐬1)|𝐬1)αf 针对所有初始状态 𝐬1

  2. 2.

    接近确定性:P(r(𝐬,𝐚) or 𝐬𝒯(𝐬,𝐚)|𝐬,𝐚)ϵ 在所有 𝐬,𝐚 针对一些函数 𝒯 请注意,这不会限制初始状态的随机性。

  3. 3.

    f 的一致性:f(𝐬)=f(𝐬)+r 针对所有 𝐬3 33请注意,这可以通过将状态空间扩展以包括迄今为止观察到的累积奖励来精确执行(如先前工作中所述)。

J(π)=𝔼τπ[g(τ)],然后

𝔼𝐬1[f(𝐬1)]J(πfRCSL)ϵ(1αf+2)2. (7)

使用上面的引理,我们可以证明定理 3.1

证明。

考虑由行为策略 β 收集的离线数据集,我们将条件函数 f 选择为 f(𝐬1)=r1:πβ(𝐬1)r 并将其代入方程 7 的左侧,我们可以看到:

𝔼𝐬1[f(𝐬1)]J(πfRCSL) =𝔼𝐬1[r1:πβ(𝐬1)r]J(πfRCSL) (8)
=𝔼τπβ[t=1rt]J(πfRCSL) (9)
=𝔼τπβ[g(τ)]J(πfRCSL) (10)

然后考虑方程 1 中定义的奖励到去 r^t=i=1ri,很明显条件函数 r^t 满足关于条件函数一致性的要求,我们可以得到以下方程:

𝔼𝐬1[f(𝐬1)]J(πfRCSL)=𝔼τπβ[g(τ)]𝔼τπf[g(τ)]ϵ(1αf+2)2 (11)

将此与引理 A.1 相结合,即可得到结果。

A.2 定理 3.2 的证明

Hu et al. (2023c) 中证明的启发,我们首先给出一些引理来帮助证明定理 3.2

我们考虑一个 k 臂一步决策问题。 Δ 为一个 k 维单纯形,𝒒=(q(1),,q(k))k 为奖励向量。 最终优化考虑:

maxπΔπ𝒒+τ(π). (12)

下一个结果描述了这个问题的解决方案(Nachum 等人 (2017) 中的引理 4)。

Lemma A.2.

(Nachum 等人,2017) 对于 τ>0, 令

Fτ(𝒒)=τlogaeq(a)/τ,fτ(𝒒)=e𝒒/τaeq(a)/τ=e𝒒Fτ(𝒒)τ. (13)

则存在

Fτ(𝒒)=maxπΔπ𝒒+τ(π)=fτ(𝒒)𝒒+τ(fτ(𝒒)). (14)

第二个结果提供了将 Politex 算法应用于计算最优策略时的误差分解,该算法源自 Abbasi-Yadkori 等人 (2019)

Lemma A.3.

(Hu 等人,2023c) π0 为均匀策略,并考虑在 MDP 上针对 t0 运行以下迭代算法,

πt+1(𝐚|𝐬)πt(𝐚|𝐬)exp(qπt(𝐚|𝐬)τ), (15)

v(𝐬)vπt(𝐬)1(1γ)22log|𝒜|t. (16)

使用以上引理,我们可以证明定理 3.2

证明。

首先回顾样本内最优性方程

qπβ(𝐬,𝐚)=(𝐬,𝐚)+γ𝔼𝐬𝒯(|𝐬,𝐚)[max𝐚:πβ(𝐚|𝐬)>0qπβ(𝐬,𝐚)], (17)

它可以被视为由行为策略 πβ 覆盖的 MDP M𝒟 的最优值,其中 M𝒟 仅包含以 (𝐬,𝐚)𝒮×𝒜 开头的转换,使得 πβ(𝐚|𝐬)>0 然后结果可以通过两个步骤证明。 首先,QT 算法永远不会考虑 πβ(𝐚|𝐬)=0 的动作。 这是由 引理 A.2 直接推出的。 其次,我们应用 引理 A.3 来显示在 M𝒟 上使用 QT 的误差界,这意味着 Vπ(𝐬)Vβ(𝐬) 这完成了证明。

附录 B 实现细节

条件 Transformer 策略。 我们将我们的策略构建为一个基于 Transformer 的模型,该模型基于 minGPT 开源代码 444https://github.com/karpathy/minGPT 详细的模型参数在表 5 中。

Q 网络。 我们构建了两个 Q 网络,其 MLP 设置与我们的扩散策略相同,所有网络都有 3 层 MLP,具有 Mish 激活和 256 个隐藏单元。

我们使用 Adam (Kingma & Ba, 2014) 优化器来训练条件 Transformer 策略和 Q 网络。

表 5: 我们实验中 QT 的超参数。
Parameter Value
Number of layers 4
Number of attention heads 4
Embedding dimension 256
Nonlinearity function ReLU
Batch size 256
Context length K 20
Dropout 0.1
Learning rate 3.0e-4

附录 C 超参数

对于 QT,我们总共考虑了两个超参数:Q 值正则化权重 η 和梯度归一化。 对于 Q 值正则化权重 η,我们根据不同域的特征考虑值,并且我们还进行了简单的消融来研究如何选择值。 如公式 5 所示,η 是一个关键的超参数,它平衡了策略正则化和策略改进损失。 为了基准测试,我们选择了 walker2d-medium-replay 数据集,包括密集奖励和稀疏奖励两种场景。 6 显示了结果,说明了 QT 对 η 选择的敏感性,不同的值会导致显著不同的性能。 当 Q 值在数据集中被准确估计时,更大的 η 会提高性能。 相反,在稀疏奖励等 Q 值估计具有挑战性的情况下,更小的 η 会更加有效。 对于梯度归一化,我们考虑网格 {5.0,9.0,15.0,20.0} 中的值。 基于这些考虑,我们在表 C 中提供了我们的超参数设置。

表 6: 超参数 η 作用消融研究。 在 walker2d-medium-replay 任务上,报告了 3 个种子上的平均分和标准差。
η 0.01 0.1 1 2 3
dense 88.0±0.4 89.2±1.0 95.4±0.5 98.5±1.1 98.4±0.4
sparse 78.5±2.1 72.3±0.3 7.0±4.6 8.5±2.5 10.6±6.1
表 7: 所有选定任务的超参数设置。

colspec = l—*2c—l—*2c, row1 = font= 任务 η 梯度范数 任务 η 梯度范数

halfcheetah-medium-expert-v2 2.5 15.0 pen-human-v1 0.1 9.0

hopper-medium-expert-v2 1.0 9.0 hammer-human-v1 0.1 5.0

walker2d-medium-expert-v2 2.0 5.0 door-human-v1 0.005 9.0

halfcheetah-medium-v2 5.0 15.0 pen-cloned-v1 0.1 9.0

hopper-medium-v2 1.0 9.0 Hammer-cloned-v1 0.01 9.0

walker2d-medium-v2 2.0 5.0 Door-cloned-v1 0.001 9.0

halfcheetah-medium-replay-v2 5.0 15.0 kitchen-complete-v0 0.005 9.0

hopper-medium-replay-v2 3.0 9.0 kitchen-partial-v0 0.01 9.0

walker2d-medium-replay-v2 2.0 5.0 - - -

maze2d-open-v0 0.01 9.0 maze2d-open-dense-v0 0.01 9.0

maze2d-umaz-v1 5.0 20.0 maze2d-umaz-dense-v1 5.0 20.0

maze2d-medium-v1 5.0 9.0 maze2d-medium -dense-v1 5.0 9.0

maze2d-large-v1 4.0 9.0 maze2d-large-dense-v1 4.0 9.0

antmaze-umaze-v0 0.05 9.0 antmaze-medium-diverse-v0 0.01 9.0

antmaze-umaze-diverse-v0 0.01 9.0 antmaze-large-diverse-v0 0.005 9.0

附录 D 进一步讨论

D.1 QT 在 Atari 环境中的性能

认识到离散动作域在强化学习中的重要性,我们将研究扩展到 Atari 游戏,这是一个以其高维视觉输入和延迟奖励挑战为特征的领域。 我们将我们的 QT 方法与在 DT 方法中评估的已建立的基线进行比较,其中 100 代表专业玩家的分数,0 代表随机策略。 如表 8 中所述,我们的研究结果表明,QT 一直取得了具有竞争力的性能,这证明了它在离散动作域中的有效性。

表 8: 1% DQN-replay Atari 数据集的结果。 我们使用三个不同的种子评估了 QT 在四款 Atari 游戏上的性能,并报告了结果的均值和方差。 最佳平均得分以粗体突出显示。
Game CQL QR-DQN REM BC DT QT
Breakout 211.1 17.1 8.9 138.9 ± 61.7 267.5 ± 97.5 423.9 ± 87.2
Qbert 104.2 0 0 17.3 ± 14.7 15.4 ± 11.4 46.7 ± 13.3
Pong 111.9 18 0.5 85.2 ± 20.0 106.1 ± 8.1 108.3 ± 2.0
Seaquest 1.7 0.4 0.7 2.1 ± 0.3 2.5 ± 0.4 4.0 ± 0.3
Average 107.2 8.9 2.5 69.9 97.9 145.7

D.2 条件动作生成

在纯 DT 方法中,由于其轨迹级建模,不同动作的生成取决于不同的 RTG 值。 虽然这种方法提供了多样性,但它面临着 RTG 值不匹配的挑战,需要大量人工工作来识别每种情况下的最佳 RTG。 我们的 QT 方法策略性地避免了手动选择 RTG 值,这通常严重依赖于先验知识,而且可能很费力,简化了学习过程,减少了对手动干预的依赖。

具体来说,QT 通过在训练阶段集成 Q 值最大化步骤来解决这些挑战,引导 CSM 策略生成与最佳回报目标一致的动作。 正如表 9 所示,这种调整提高了策略的效率,减少了对一定范围内精确 RTG 选择的依赖,为动作生成提供了更有效的方法。 然而,当所选 RTG 与最佳轨迹之间存在显着偏差时,QT 仍然可能遇到困难。 尽管如此,QT 框架在推断阶段整合了 Q 值函数,提供了一种动态自适应策略来确定最佳动作,从而提高了该方法的实用性并减少了对大量手动校准的需求。

表 9: 条件动作生成的消融研究。 报告了 walker2d-medium-replay 任务的 3 个种子上的平均值和标准差。 QT* 表示仅在训练阶段包含 Q 值正则化。
RTG 1000 2000 3000 4000 5000 Infer with Q-value function
QT* 51.0 ± 1.0 68.6 ± 0.7 95.3 ± 1.1 96.3 ± 0.4 97.2 ± 0.2 98.5 ± 1.1
DT 32.4 ± 1.2 58.8 ± 0.5 75.7 ± 0.6 79.4 ± 2.0 77.0 ± 0.6 87.6 ± 1.1

D.3 QT 与其他 Q 学习方法的区别

如第 2.2 节所述,QDT (Yamagata 等人,2023) 首次尝试将 CSM 与 Q 学习相结合,通过学习保守价值函数来重新标记数据集中的 RTG 符元,同时保持其他组件与 DT 一致。 然而,此类改编本质上构成简单的数据增强,将“拼接”轨迹纳入训练数据集,但在推断阶段由于轨迹级建模而继续遇到不匹配的 RTG 值。

相反,Q-Transformer (Chebotar 等人,2023) 引入了一种细致入微的 Transformer 架构利用方式来改进 Q 值函数的学习。 它通过动作离散化,结合保守正则化器的全新应用来实现这一目标。 此正则化器专门设计用于约束分布外 Q 值,确保它们接近可实现的最小累积奖励。 然而,Q-Transformer 仍然属于传统 Q 学习方法的范围,尽管通过采用 Transformer 架构,其特征表示能力得到了显著增强。

为了进行更细致的比较,表 10 说明了这些方法之间的关键区别。

表 10: QDT、QT 和 Q-Transformer 的详细比较。
Aspect QDT QT Q-Transformer
Training dataset Augmented with relabeled RTG tokens Utilizes the original dataset Utilizes the original dataset
Training loss MSE Loss for continuous actions MSE Loss for continuous actions, supplemented with Q-value function maximization TD error coupled with conservative regularization
Hindsight info Individual Return-to-Go values A set of candidate Return-to-Go values Does not utilize hindsight information
Inference Relies on the transformer’s output Leverages the transformer output with a selection mechanism from the learned Q-value function Selects from the entire action space through the maximization of the learned Q-value function

D.4 稀疏奖励设置

我们探讨了 QT 在不同奖励密度环境中的性能,特别关注迷宫 2d 和 MuJoCo Gym 任务。 我们的发现表明存在不一致:在 maze2d-medium 和 maze2d-large 环境的稀疏设置中,QT 的性能优于更密集的奖励配置,这与在 MuJoCo 任务中观察到的趋势相反。

这种差异的潜在解释在于这些环境之间的根本差异。 迷宫 2d 环境以其简单性和更短的回合长度为特征,与 MuJoCo 任务形成对比,后者具有更高的动作/状态维度和更长的回合持续时间,如表 11 所示。

另一个潜在的解释是 maze2D-dense 环境中的奖励结构。 在这些设置中,奖励基于到目标的负指数距离,这可能会夸大“失败”轨迹的值,这些轨迹近似于目标,但会遇到障碍。 我们的方法旨在采样高价值动作,同时遵守行为策略,可能会无意中优先考虑这些“错误”的高价值动作,从而导致与稀疏设置相比,性能低于最佳,在稀疏设置中,高价值动作明确地与到达目标相关联。 相反,在没有障碍的 open 和 umaze 等环境中,QT 在密集设置中表现出优异的性能,支持了这一假设。

表 11: MuJoCo Gym 和迷宫 2D 环境的比较。 该表显示了动作维度、状态(观察)维度以及数据集前 5% 回报的平均回合长度。
Environment Action Dim State Dim Good Episode Average Length
hopper 3 11 708.2
halfcheetah 6 17 1000.0
walker2d 6 17 996.7
maze2d-open 2 4 49.8
maze2d-umaze 2 4 128.6
maze2d-medium 2 4 224.1
maze2d-large 2 4 314.6

D.5 QT 如何改善拼接能力

虽然我们的理论论证提供了强大的动机,即 Q 值模块是策略改进的关键机制,但 QT 增强拼接能力的说法主要通过实证研究得到证明。 简而言之,将 Q 值正则化与 DT 整合解决了纯 CSM 方法固有的对齐问题,以增强模型拼接最佳动作的能力,从而提高从离线数据中学到的策略的整体有效性和鲁棒性。

在纯 CSM 模型中,RTG 符元通过提供轨迹级视角显著影响学习过程。 但是,这种以轨迹为中心的 подход 可能导致 RTG 值与推理期间的当前状态-动作对之间出现潜在的不一致,从而可能导致次优决策 (Wang et al., 2023) 为了解决这个问题并增强学习和推理之间的对齐,我们将 Q 值函数集成进来,它提供了一种细粒度的、针对特定状态-动作的未来回报估计。 这种集成允许在训练和推理过程中进行更动态和响应式的决策过程,其中根据动作的即时价值而不是预定的轨迹选择动作,并且学习和推理过程通过学习到的 Q 值函数对齐。

在学习阶段,模型被训练以选择使组合损失最小化的动作(如公式 5 中所述),该损失包括来自 CSM 和 Q 值范式的部分。 这个过程确保策略以训练数据集的分布为基础,同时也与 Q 值模块估计的最佳动作值相一致。 在推理过程中,模型利用学习到的 Q 值函数进行决策。 模型没有依赖 RTG 符元,而是评估了一组基于各种 RTG 值生成的候选动作,并选择了 Q 值最高的候选动作。 这种方法确保了决策过程同时从 CSM 组件的轨迹建模见解和 Q 值组件的最佳动作值估计中获得信息。

我们在表 2 中详细记录的消融研究为这种方法提供了经验支持。 当推理依赖于学习到的 Q 值函数(Exp 4)时,它超越了纯粹基于 CSM 的方法(Exp 3)的性能,验证了轨迹级建模中 RTG 值不匹配的现象。 此外,我们还在表 9 中进行了进一步的消融研究,在纯粹的 CSM 模型的背景下改变了 RTG 符元。 这些研究旨在严格检验 RTG 值失配现象及其对模型性能的影响。 此外,在整个学习和推理阶段集成 Q 值模块,将学习目标与推理动态对齐,从而培养更强大、更有效的决策框架(Exp。 2 中的 7)。

D.6 QT 如何解决 Q 值函数的过拟合

在我们 Q 值函数的训练中,期望的 Q 值(Q^m 在公式 4 中)源自 n 步贝尔曼方程。 动作 𝐚t 是根据目标策略 πθ 选择的,该策略由 CSM 模型生成。 这种设计确保了 CSM 模型产生的动作主要与训练数据集中观察到的分布一致(η较小),从而降低了高估分布外动作的 Q 值的风险。 更重要的是,在推理过程中,由多个 RTG 符元生成的候选动作与 Q 值函数的引导之间的相互作用,促进了更细致、更有效的动作选择过程,避免了直接最大化 Q 值的缺陷。

必须注意,我们的策略推导与传统的 Q 学习方法不同。 我们的策略来自 CSM 模型而不是 Q 值函数,主要受方程式 2 中描述的 MSE 损失控制。 这里,Q 值函数作为策略增强的一个组成部分,它对最终策略的影响受超参数 η 调节。 在数据极其稀疏或存在噪声的情况下,准确估计 Q 值会变得很困难,此时调节 η 可以显著减轻过度拟合或不正确 Q 值近似带来的负面影响。

为了从经验上证实我们的主张,我们在上面的表格 6 中详细介绍了消融研究。 我们在密集奖励设置和稀疏奖励设置中都选择了 walker2d-medium-replay 数据集。 结果表明,在有利于准确估计 Q 值的环境中(密集奖励场景,其中 CQL 的性能 77.2),更高的 η 会提高性能。 相反,在 Q 值估计具有挑战性的环境中(稀疏奖励场景,其中 CQL 的性能 3.2±1.7),更高的 η 会加剧训练过程,导致性能下降。