- 名称
- Exploration by Random Network Distillation
- 描述
我们为深度强化学习方法引入了探索奖励,该方法易于实现,并且对执行的计算增加的开销最小。奖励是神经网络预测固定随机初始化神经网络给出的观察特征的误差。我们还引入了一种灵活结合内在奖励和外在奖励的方法 ...
我们为深度强化学习方法引入了探索奖励,该方法易于实现,并且对执行的计算增加的开销最小。奖励是神经网络预测固定随机初始化神经网络给出的观察特征的误差。我们还引入了一种灵活结合内在奖励和外在奖励的方法 ...