基本信息 - When should we prefer Decision Transformers for Offline Reinforcement Learning?

arxiv When should we prefer Decision Transformers for Offline Reinforcement Learning?

阅读

Star 1

名称: When should we prefer Decision Transformers for Offline Reinforcement Learning?

首页: https://yiyibooks.cn/arxiv/2305.14550v3/index.html

原始地址: https://arxiv.org/pdf/2305.14550

描述

离线强化学习（RL）允许代理从静态数据集中学习有效的、回报最大化的策略。离线强化学习的三种流行算法是保守 Q 学习 (CQL)、行为克隆 (BC) 和决策变换器 (DT)，分别属于 Q 学习、模仿学习和序列建模类别。一个关键的悬而未决的问题是：在什么条件下首选哪种算法？我们通过探索这些算法在常用的 D4RL 和 Robomimic 基准测试中的性能来实证研究这个问题 ...

文件上传进度

0%

上传成功 0 个文件