- 名称
- Q-value Regularized Transformer for Offline Reinforcement Learning
- 描述
离线强化学习 (RL) 的最新进展强调了条件序列建模 (CSM) 的功能,这是一种基于历史轨迹和每个状态的目标回报来学习动作分布的范例。然而,由于单个轨迹内的采样回报与多个轨迹之间的最佳回报之间的不一致,这些方法常常难以将次优轨迹拼接在一起。幸运的是,动态规划(DP)方法提供了一种解决方案,利用价值函数来近似每个状态的最佳未来回报,而这些技术很容易出现不稳定的学习行为,特别是在长视野和稀疏奖励的场景中 ...