- 名称
- IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies
- 描述
有效的离线强化学习方法需要正确处理分布外行为。隐式 Q 学习 (IQL) 通过修改后的 Bellman 备份仅使用数据集操作来训练 Q 函数来解决此问题。然而,尚不清楚哪个策略实际上获得了这个隐式训练的 Q 函数所代表的值 ...
有效的离线强化学习方法需要正确处理分布外行为。隐式 Q 学习 (IQL) 通过修改后的 Bellman 备份仅使用数据集操作来训练 Q 函数来解决此问题。然而,尚不清楚哪个策略实际上获得了这个隐式训练的 Q 函数所代表的值 ...