我们为深度强化学习方法引入了探索奖励,该方法易于实现,并且对执行的计算增加的开销最小。奖励是神经网络预测固定随机初始化神经网络给出的观察特征的误差。我们还引入了一种灵活结合内在奖励和外在奖励的方法 ...
深度强化学习(RL)已成功应用于各种类似游戏的环境。然而,将深度强化学习应用于现实环境中的视觉导航是一项具有挑战性的任务。我们提出了一种新颖的学习架构,能够导航代理,例如 ...
运动规划对于实现移动机器人的自主运行至关重要。随着机器人应用场景的复杂性和随机性的增加,经典的分层运动规划器的规划能力受到挑战。随着机器学习的发展,基于深度强化学习(DRL)的运动规划器因其多种优势逐渐成为研究热点 ...
在许多现实场景中,代理的外在奖励非常稀少,或者根本不存在。在这种情况下,好奇心可以作为一种内在的奖励信号,使智能体能够探索其环境并学习可能在以后的生活中有用的技能。我们将好奇心表述为代理在通过自监督逆动力学模型学习的视觉特征空间中预测其自身行为结果的能力的误差 ...