parsifalster的文档

Task Planning in Robotics: an Empirical Comparison of PDDL-based and ASP-based Systems

机器人需要任务规划算法来对实现通过个人行动不可能实现目标的行动进行序列。智能机器人从业人员可以使用现成的任务计划者来解决各种计划问题。但是，存在许多不同的计划者，每个计划者都有不同的优势和劣势，并且没有一般规则的规划者最好适用于给定的问题 ...

0 0 0 0 2025/08/18 arXiv:1804.08229v3 parsifalster

Partially Observable Markov Decision Processes (POMDPs) and Robotics

在不确定性下进行计划对机器人技术至关重要。部分可观察到的马尔可夫决策过程（POMDP）是解决此类计划问题的数学框架。由于仔细量化了行动的非确定性影响和国家的部分可观察性，因此它具有强大的功能 ...

0 0 0 0 2025/08/18 arXiv:2107.07599v1 parsifalster

An Analytic Layer-wise Deep Learning Framework with Applications to Robotics

深度学习（DL）在许多应用中取得了巨大的成功，但是从理论的角度来看，它的分析程度不佳。黑盒DL模型的无法解释的成功提出了科学家之间的问题，并促进了可解释的人工智能（XAI）领域的出现。在机器人技术中，以可预测且稳定的方式部署DL算法尤其重要，因为机器人是需要与物理世界安全互动的活性代理 ...

0 0 0 0 2025/08/17 arXiv:2102.03705v2 parsifalster

An Introduction to Flow Matching and Diffusion Models

扩散和基于流的模型已成为广泛的数据模式的生成AI的最新技术，包括图像，视频，形状，分子，音乐等。本教程提供了对第一个原理的扩散和基于流的生成模型的独立介绍。我们系统地在普通和随机微分方程中系统地开发了必要的数学背景，并得出了流匹配和降解扩散模型的核心算法 ...

0 1 0 0 2025/08/14 arXiv:2506.02070v2 parsifalster

Epistemically-guided forward-backward exploration

零拍的加固学习对于在没有具体奖励的情况下提取最佳政策是必要的，以便快速适应未来的问题设置。前卫表示（FB）已成为一种有前途的方法，可以通过对政策占用度量进行分解，在没有奖励的情况下学习最佳政策。但是，到目前为止，FB和许多类似的零射强化学习算法已经与勘探问题解耦，通常依靠其他探索算法进行数据收集 ...

0 0 0 0 2025/08/09 arXiv:2507.05477v1 parsifalster

Universal Successor Features Approximators

强化学习（RL）代理同时学习许多奖励功能的能力具有许多潜在的好处，例如复杂任务分解为简单的任务，任务之间的信息交换以及技能的重用。我们特别关注一个方面，即概括到看不见的任务的能力。参数概括依赖于函数近似器的插值功率，该函数近似器被赋予任务描述为输入；它最常见的形式之一是通用价值函数近似器（UVFAS） ...

0 0 0 0 2025/08/09 arXiv:1812.07626v1 parsifalster

Learning Successor States and Goal-Dependent Values: A Mathematical Viewpoint

在加强学习中，基于时间差异的算法可以是样本的信息：例如，在稀疏的奖励下，直到观察到奖励之前，都不会发生学习。这可以通过学习富裕对象（例如环境模型或后继国家）来解决这一问题。继任国家对给定政策的任何给定状态的预期状态占用，并与目标依赖的价值功能有关，该功能学习如何到达任意状态 ...

0 0 0 0 2025/08/07 arXiv:2101.07123v1 parsifalster

Goal-Conditioned Reinforcement Learning: Problems and Solutions

与一组复杂的RL问题有关的目标条件加固学习（GCRL）训练代理在特定情况下实现不同的目标。与仅根据州或观察结果了解政策的标准RL解决方案相比，GCRL还要求代理商根据不同的目标做出决策。在这项调查中，我们全面概述了GCRL的挑战和算法 ...

0 0 0 0 2025/08/06 arXiv:2201.08299v3 parsifalster

Does Zero-Shot Reinforcement Learning Exist?

零拍摄的RL代理是可以在给定环境中解决任何RL任务的代理，在初始无奖励学习阶段之后，立即没有其他计划或学习。这标志着从以奖励为中心的RL范式转变为可以遵循环境中任意说明的“可控”代理。当前的RL代理最多可以解决相关任务的家庭，或者需要重新计划每个任务 ...

0 0 0 0 2025/08/02 arXiv:2209.14935v2 parsifalster

Learning One Representation to Optimize All Rewards

我们介绍了无奖励马尔可夫决策过程的动态的前进（FB）表示。它为任何指定的后验奖励提供明确的近乎最佳政策。在无监督的阶段，我们使用与环境的无奖励互动通过现成的深度学习方法和时间差异（TD）学习来学习两种表示 ...

0 0 0 0 2025/08/02 arXiv:2103.07945v3 parsifalster