arxiv Extreme Q-Learning: MaxEnt RL without Entropy

名称
Extreme Q-Learning: MaxEnt RL without Entropy
首页
https://yiyibooks.cn/arxiv/2301.02328v2/index.html
原始地址
https://arxiv.org/pdf/2301.02328
描述
现代深度强化学习 (RL) 算法需要估计最大 Q 值,这在具有无限数量可能动作的连续域中很难计算。在这项工作中,我们从经济学中汲取灵感,引入了一种新的在线和离线强化学习更新规则,该规则使用极值理论(EVT)直接对最大值进行建模。通过这样做,我们可以避免使用分布外操作来计算 Q 值,这通常是错误的重要来源 ...