我们为深度强化学习方法引入了探索奖励,该方法易于实现,并且对执行的计算增加的​​开销最小。奖励是神经网络预测固定随机初始化神经网络给出的观察特征的误差。我们还引入了一种灵活结合内在奖励和外在奖励的方法 ...

0 0 0 0 2024/04/19 arXiv:1810.12894v1 siwufei

深度强化学习(RL)已成功应用于各种类似游戏的环境。然而,将深度强化学习应用于现实环境中的视觉导航是一项具有挑战性的任务。我们提出了一种新颖的学习架构,能够导航代理,例如 ...

0 0 0 0 2024/04/19 arXiv:1908.03627v2 siwufei

运动规划对于实现移动机器人的自主运行至关重要。随着机器人应用场景的复杂性和随机性的增加,经典的分层运动规划器的规划能力受到挑战。随着机器学习的发展,基于深度强化学习(DRL)的运动规划器因其多种优势逐渐成为研究热点 ...

0 0 1 3 2024/04/17 arXiv:2108.13619v4 siwufei

在许多现实场景中,代理的外在奖励非常稀少,或者根本不存在。在这种情况下,好奇心可以作为一种内在的奖励信号,使智能体能够探索其环境并学习可能在以后的生活中有用的技能。我们将好奇心表述为代理在通过自监督逆动力学模型学习的视觉特征空间中预测其自身行为结果的能力的误差 ...

0 0 0 0 2024/04/17 arXiv:1705.05363v1 siwufei

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)