- 名称
- Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL
- 描述
最近的研究表明,使用条件策略来处理离线强化学习(RL)会产生有希望的结果。决策转换器 (DT) 结合了条件策略方法和转换器架构,在多个基准测试中显示出具有竞争力的性能。然而,DT 缺乏拼接能力——这是离线 RL 从次优轨迹中学习最优策略的关键能力之一 ...
最近的研究表明,使用条件策略来处理离线强化学习(RL)会产生有希望的结果。决策转换器 (DT) 结合了条件策略方法和转换器架构,在多个基准测试中显示出具有竞争力的性能。然而,DT 缺乏拼接能力——这是离线 RL 从次优轨迹中学习最优策略的关键能力之一 ...