parsifalster的文档

Successor Features for Transfer in Reinforcement Learning

加强学习中的转移是指概括不仅应该在任务内，而且应该在任务跨任务中发生的观念。我们为奖励函数在任务之间发生变化但环境动态的情况下的方案提出了一个转移框架。我们的方法取决于两个关键想法：“后继功能”，这是一种价值函数表示，将环境的动态从奖励中解散，以及“广义策略改进”，这是动态编程的策略改进操作的概括，该策略改进操作考虑了一组政策，而不是单个政策 ...

0 0 0 0 2025/08/02 arXiv:1606.05312v2 parsifalster

FLAM: Foundation Model-Based Body Stabilization for Humanoid Locomotion and Manipulation

近年来，类人形机器人引起了极大的关注。增强学习（RL）是控制整个人形机器人身体的主要方法之一。 RL使代理可以通过在任务奖励的指导下从环境互动中学习来完成任务 ...

0 0 0 0 2025/07/23 arXiv:2503.22249v1 parsifalster

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

模仿学习的最新进展导致了基于 Transformer 的行为基础模型（BFM），该模型可以对人形生物剂进行多模式，类人类的控制。虽然在零发的稳健行为上表现出色，但BFM通常需要精心及时的及时工程来完成特定任务，并可能产生次优的结果。我们介绍了“任务 Token ”，这是一种有效地量身定制BFM的特定任务的方法，同时保留其灵活性 ...

0 0 0 0 2025/07/23 arXiv:2503.22886v1 parsifalster

Finer Behavioral Foundation Models via Auto-Regressive Features and Advantage Weighting

前向后的表示（FB）是最近提出的框架（Touati等人，2023； Touati＆Ollivier，2021），旨在为在给定加强学习（RL）环境中指定的任何新任务（无需培训新任务）提供零射击的有效政策。在这里，我们解决了FB模型培训的两个核心局限性 ...

0 0 0 0 2025/07/23 arXiv:2412.04368v1 parsifalster

Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models

无监督的强化学习（RL）的目的是培训预训练药物，可以解决复杂环境中的各种下游任务。尽管最近取得了进步，但现有方法可能需要几个局限性：它们可能需要在每个下游任务上运行RL过程才能达到令人满意的性能，他们可能需要访问具有覆盖范围良好或特定于任务特定示例的数据集，或者可能会预先培训的政策，或者与未经治疗的损失相关，而这些损失与关注的下游任务相关。在本文中，我们引入了一种新颖的算法，将无监督的RL定期化，以模仿未标记的行为数据集的轨迹 ...

0 0 0 0 2025/07/23 arXiv:2504.11054v1 parsifalster

A Survey on Mathematical Reasoning and Optimization with Large Language Models

数学推理和优化是人工智能和计算问题解决的基础。大型语言模型（LLM）的最新进展已显着改善了AI驱动的数学推理，定理证明和优化技术。这项调查探讨了AI中数学问题解决的演变，从早期的统计学习方法到现代深度学习和基于 Transformer 的方法 ...

0 0 1 1 2025/07/19 arXiv:2503.17726v1 parsifalster

Autoformalization in the Era of Large Language Models: A Survey

自动化是将非正式数学命题转换为可验证的形式表示的过程，是自动定理证明的基础任务，为在理论和应用领域中使用数学的使用提供了新的观点。在人工智能（尤其是大型语言模型（LLM））的快速进步的推动下，该领域见证了实质性的增长，带来了新的机遇和独特的挑战。在这项调查中，我们从数学和以LLM中心的角度均提供了最新自动化进步的详细概述 ...

0 0 0 0 2025/07/19 arXiv:2505.23486v2 parsifalster

Goedel Machines: Self-Referential Universal Problem Solvers Making Provably Optimal Self-Improvements

我们介绍了第一类在数学上进行严格，一般，完全自我指南，自我提高，最佳有效的问题解决者的信息。受Kurt Goedel的著名自我参考公式（1931）的启发，此类问题解决方案在发现重写有用的证据时，就会重写其自身代码的任何部分，其中与问题有关的实用程序功能，硬件和整个初始代码和整个初始代码都由AXIOMS在初始代码中编码的AXIOMS描述，该版本也是初始代码的一部分。搜索者系统有效地测试可计算的证明技术（其输出为证明程序），直到发现可证明有用的，可计算的自我脱线为止 ...

0 0 0 0 2025/07/18 arXiv:cs/0309048v5 parsifalster

Towards a Universal Theory of Artificial Intelligence based on Algorithmic Probability and Sequential Decision Theory

如果已知真正的环境概率分布，决策理论将正式解决不确定世界中理性代理的问题。所罗门诺夫的普遍归纳理论正式解决了未知分布的序列预测问题。我们统一了这两个理论，并提出了强有力的论点，即所产生的通用AIXI模型在任何可计算的环境中都是最佳的 ...

0 0 0 0 2025/07/16 arXiv:cs/0012011v1 parsifalster

The New AI: General & Sound & Relevant for Physics

过去50年中的大多数传统人工智能（AI）系统都非常有限，要么是基于启发式方法，要么是两者兼而有之。然而，新的千年在理论上最佳且实际上可行的算法中为预测，搜索，归纳推理基于Occam的剃须刀，解决问题，决策，决策和加强学习在非常普遍类型的环境中学习。由于归纳推断是所有归纳科学的核心，因此某些结果不仅与AI和计算机科学有关，而且与物理学有关，也与基于Zuse的计算机生成宇宙的论点引起的非传统预测有关 ...

0 0 0 0 2025/07/16 arXiv:cs/0302012v2 parsifalster