基本信息 - Extreme Q-Learning: MaxEnt RL without Entropy

arxiv Extreme Q-Learning: MaxEnt RL without Entropy

阅读

Star 0

名称: Extreme Q-Learning: MaxEnt RL without Entropy

首页: https://yiyibooks.cn/arxiv/2301.02328v2/index.html

原始地址: https://arxiv.org/pdf/2301.02328

描述

现代深度强化学习 (RL) 算法需要估计最大 Q 值，这在具有无限数量可能动作的连续域中很难计算。在这项工作中，我们从经济学中汲取灵感，引入了一种新的在线和离线强化学习更新规则，该规则使用极值理论（EVT）直接对最大值进行建模。通过这样做，我们可以避免使用分布外操作来计算 Q 值，这通常是错误的重要来源 ...

0%

上传成功 0 个文件