在不确定性下进行计划对机器人技术至关重要。部分可观察到的马尔可夫决策过程(POMDP)是解决此类计划问题的数学框架。由于仔细量化了行动的非确定性影响和国家的部分可观察性,因此它具有强大的功能 ...
深度学习(DL)在许多应用中取得了巨大的成功,但是从理论的角度来看,它的分析程度不佳。黑盒DL模型的无法解释的成功提出了科学家之间的问题,并促进了可解释的人工智能(XAI)领域的出现。在机器人技术中,以可预测且稳定的方式部署DL算法尤其重要,因为机器人是需要与物理世界安全互动的活性代理 ...
扩散和基于流的模型已成为广泛的数据模式的生成AI的最新技术,包括图像,视频,形状,分子,音乐等。本教程提供了对第一个原理的扩散和基于流的生成模型的独立介绍。我们系统地在普通和随机微分方程中系统地开发了必要的数学背景,并得出了流匹配和降解扩散模型的核心算法 ...
零拍的加固学习对于在没有具体奖励的情况下提取最佳政策是必要的,以便快速适应未来的问题设置。前卫表示(FB)已成为一种有前途的方法,可以通过对政策占用度量进行分解,在没有奖励的情况下学习最佳政策。但是,到目前为止,FB和许多类似的零射强化学习算法已经与勘探问题解耦,通常依靠其他探索算法进行数据收集 ...
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如复杂任务分解为简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即概括到看不见的任务的能力。参数概括依赖于函数近似器的插值功率,该函数近似器被赋予任务描述为输入;它最常见的形式之一是通用价值函数近似器(UVFAS) ...
在加强学习中,基于时间差异的算法可以是样本的信息:例如,在稀疏的奖励下,直到观察到奖励之前,都不会发生学习。这可以通过学习富裕对象(例如环境模型或后继国家)来解决这一问题。继任国家对给定政策的任何给定状态的预期状态占用,并与目标依赖的价值功能有关,该功能学习如何到达任意状态 ...
与一组复杂的RL问题有关的目标条件加固学习(GCRL)训练代理在特定情况下实现不同的目标。与仅根据州或观察结果了解政策的标准RL解决方案相比,GCRL还要求代理商根据不同的目标做出决策。在这项调查中,我们全面概述了GCRL的挑战和算法 ...
零拍摄的RL代理是可以在给定环境中解决任何RL任务的代理,在初始无奖励学习阶段之后,立即没有其他计划或学习。这标志着从以奖励为中心的RL范式转变为可以遵循环境中任意说明的“可控”代理。当前的RL代理最多可以解决相关任务的家庭,或者需要重新计划每个任务 ...
我们介绍了无奖励马尔可夫决策过程的动态的前进(FB)表示。它为任何指定的后验奖励提供明确的近乎最佳政策。在无监督的阶段,我们使用与环境的无奖励互动通过现成的深度学习方法和时间差异(TD)学习来学习两种表示 ...
加强学习中的转移是指概括不仅应该在任务内,而且应该在任务跨任务中发生的观念。我们为奖励函数在任务之间发生变化但环境动态的情况下的方案提出了一个转移框架。我们的方法取决于两个关键想法:“后继功能”,这是一种价值函数表示,将环境的动态从奖励中解散,以及“广义策略改进”,这是动态编程的策略改进操作的概括,该策略改进操作考虑了一组政策,而不是单个政策 ...