- 名称
- When should we prefer Decision Transformers for Offline Reinforcement Learning?
- 描述
离线强化学习(RL)允许代理从静态数据集中学习有效的、回报最大化的策略。离线强化学习的三种流行算法是保守 Q 学习 (CQL)、行为克隆 (BC) 和决策变换器 (DT),分别属于 Q 学习、模仿学习和序列建模类别。一个关键的悬而未决的问题是:在什么条件下首选哪种算法?我们通过探索这些算法在常用的 D4RL 和 Robomimic 基准测试中的性能来实证研究这个问题 ...