我们介绍了无奖励马尔可夫决策过程的动态的前进(FB)表示。它为任何指定的后验奖励提供明确的近乎最佳政策。在无监督的阶段,我们使用与环境的无奖励互动通过现成的深度学习方法和时间差异(TD)学习来学习两种表示 ...

0 0 0 0 2025/08/02 arXiv:2103.07945v3 parsifalster

加强学习中的转移是指概括不仅应该在任务内,而且应该在任务跨任务中发生的观念。我们为奖励函数在任务之间发生变化但环境动态的情况下的方案提出了一个转移框架。我们的方法取决于两个关键想法:“后继功能”,这是一种价值函数表示,将环境的动态从奖励中解散,以及“广义策略改进”,这是动态编程的策略改进操作的概括,该策略改进操作考虑了一组政策,而不是单个政策 ...

0 0 0 0 2025/08/02 arXiv:1606.05312v2 parsifalster

近年来,类人形机器人引起了极大的关注。增强学习(RL)是控制整个人形机器人身体的主要方法之一。 RL使代理可以通过在任务奖励的指导下从环境互动中学习来完成任务 ...

0 0 0 0 2025/07/23 arXiv:2503.22249v1 parsifalster

模仿学习的最新进展导致了基于 Transformer 的行为基础模型(BFM),该模型可以对人形生物剂进行多模式,类人类的控制。虽然在零发的稳健行为上表现出色,但BFM通常需要精心及时的及时工程来完成特定任务,并可能产生次优的结果。我们介绍了“任务 Token ”,这是一种有效地量身定制BFM的特定任务的方法,同时保留其灵活性 ...

0 0 0 0 2025/07/23 arXiv:2503.22886v1 parsifalster

前向后的表示(FB)是最近提出的框架(Touati等人,2023; Touati&Ollivier,2021),旨在为在给定加强学习(RL)环境中指定的任何新任务(无需培训新任务)提供零射击的有效政策。在这里,我们解决了FB模型培训的两个核心局限性 ...

0 0 0 0 2025/07/23 arXiv:2412.04368v1 parsifalster

无监督的强化学习(RL)的目的是培训预训练药物,可以解决复杂环境中的各种下游任务。尽管最近取得了进步,但现有方法可能需要几个局限性:它们可能需要在每个下游任务上运行RL过程才能达到令人满意的性能,他们可能需要访问具有覆盖范围良好或特定于任务特定示例的数据集,或者可能会预先培训的政策,或者与未经治疗的损失相关,而这些损失与关注的下游任务相关。在本文中,我们引入了一种新颖的算法,将无监督的RL定期化,以模仿未标记的行为数据集的轨迹 ...

0 0 0 0 2025/07/23 arXiv:2504.11054v1 parsifalster

数学推理和优化是人工智能和计算问题解决的基础。大型语言模型(LLM)的最新进展已显着改善了AI驱动的数学推理,定理证明和优化技术。这项调查探讨了AI中数学问题解决的演变,从早期的统计学习方法到现代深度学习和基于 Transformer 的方法 ...

0 0 1 1 2025/07/19 arXiv:2503.17726v1 parsifalster

自动化是将非正式数学命题转换为可验证的形式表示的过程,是自动定理证明的基础任务,为在理论和应用领域中使用数学的使用提供了新的观点。在人工智能(尤其是大型语言模型(LLM))的快速进步的推动下,该领域见证了实质性的增长,带来了新的机遇和独特的挑战。在这项调查中,我们从数学和以LLM中心的角度均提供了最新自动化进步的详细概述 ...

0 0 0 0 2025/07/19 arXiv:2505.23486v2 parsifalster

我们介绍了第一类在数学上进行严格,一般,完全自我指南,自我提高,最佳有效的问题解决者的信息。受Kurt Goedel的著名自我参考公式(1931)的启发,此类问题解决方案在发现重写有用的证据时,就会重写其自身代码的任何部分,其中与问题有关的实用程序功能,硬件和整个初始代码和整个初始代码都由AXIOMS在初始代码中编码的AXIOMS描述,该版本也是初始代码的一部分。搜索者系统有效地测试可计算的证明技术(其输出为证明程序),直到发现可证明有用的,可计算的自我脱线为止 ...

0 0 0 0 2025/07/18 arXiv:cs/0309048v5 parsifalster

如果已知真正的环境概率分布,决策理论将正式解决不确定世界中理性代理的问题。所罗门诺夫的普遍归纳理论正式解决了未知分布的序列预测问题。我们统一了这两个理论,并提出了强有力的论点,即所产生的通用AIXI模型在任何可计算的环境中都是最佳的 ...

0 0 0 0 2025/07/16 arXiv:cs/0012011v1 parsifalster

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)