arxiv IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies

名称
IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies
首页
https://yiyibooks.cn/arxiv/2304.10573v2/index.html
原始地址
https://arxiv.org/pdf/2304.10573
描述
有效的离线强化学习方法需要正确处理分布外行为。隐式 Q 学习 (IQL) 通过修改后的 Bellman 备份仅使用数据集操作来训练 Q 函数来解决此问题。然而,尚不清楚哪个策略实际上获得了这个隐式训练的 Q 函数所代表的值 ...