- 名称
- Extreme Q-Learning: MaxEnt RL without Entropy
- 描述
现代深度强化学习 (RL) 算法需要估计最大 Q 值,这在具有无限数量可能动作的连续域中很难计算。在这项工作中,我们从经济学中汲取灵感,引入了一种新的在线和离线强化学习更新规则,该规则使用极值理论(EVT)直接对最大值进行建模。通过这样做,我们可以避免使用分布外操作来计算 Q 值,这通常是错误的重要来源 ...
现代深度强化学习 (RL) 算法需要估计最大 Q 值,这在具有无限数量可能动作的连续域中很难计算。在这项工作中,我们从经济学中汲取灵感,引入了一种新的在线和离线强化学习更新规则,该规则使用极值理论(EVT)直接对最大值进行建模。通过这样做,我们可以避免使用分布外操作来计算 Q 值,这通常是错误的重要来源 ...