- 名称
- Goal Misgeneralization in Deep Reinforcement Learning
- 描述
我们研究目标不当,这是强化学习(RL)中分布外的概括失败。当RL代理保留其功能范围内但追求错误的目标时,就会发生目标失败失败。例如,代理商可能会继续有能力避免障碍,但要导航到错误的地方 ...
我们研究目标不当,这是强化学习(RL)中分布外的概括失败。当RL代理保留其功能范围内但追求错误的目标时,就会发生目标失败失败。例如,代理商可能会继续有能力避免障碍,但要导航到错误的地方 ...