- 名称
- Reasoning with Latent Diffusion in Offline Reinforcement Learning
- 描述
离线强化学习(RL)有望成为从静态数据集中学习高回报策略的一种手段,而无需进一步的环境交互。然而,离线强化学习的一个关键挑战在于如何有效地从静态数据集中缝合部分次优轨迹,同时避免由于缺乏数据集的支持而产生外推错误。现有的方法使用保守的方法,这些方法很难调整并处理多模态数据(如我们所示),或者依赖嘈杂的蒙特卡罗返回样本进行奖励调节 ...
离线强化学习(RL)有望成为从静态数据集中学习高回报策略的一种手段,而无需进一步的环境交互。然而,离线强化学习的一个关键挑战在于如何有效地从静态数据集中缝合部分次优轨迹,同时避免由于缺乏数据集的支持而产生外推错误。现有的方法使用保守的方法,这些方法很难调整并处理多模态数据(如我们所示),或者依赖嘈杂的蒙特卡罗返回样本进行奖励调节 ...