arxiv Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL

名称
Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL
首页
https://yiyibooks.cn/arxiv/2209.03993v4/index.html
原始地址
https://arxiv.org/abs/2209.03993
描述
最近的研究表明,使用条件策略来处理离线强化学习(RL)会产生有希望的结果。决策转换器 (DT) 结合了条件策略方法和转换器架构,在多个基准测试中显示出具有竞争力的性能。然而,DT 缺乏拼接能力——这是离线 RL 从次优轨迹中学习最优策略的关键能力之一 ...