随着机器人在广泛的商业用例中的部署,机器人革命的下一章正在顺利展开。即使在无数的应用程序和环境中,也存在机器人共享的组件的通用词汇——需要模块化、可扩展且可靠的架构;传感;规划;流动性;和自主权。机器人操作系统(ROS)是最后一章的组成部分,通过免费提供的组件和模块化框架明显加快了机器人研究。然而,ROS 1 的设计并未包含许多必要的生产级功能和算法。 ROS 2 及其相关项目已从头开始重新设计,以应对现代机器人系统在各种规模的新探索领域提出的挑战。在这篇评论中,我们重点介绍了 ROS 2 的哲学和架构变化,为机器人革命的新篇章提供了动力。我们还通过案例研究展示了 ROS 2 及其采用对加速真实机器人系统在各种具有挑战性的环境中可靠部署的影响 ...
虽然多模态大型语言模型 (MLLM) 擅长整体理解,但它们难以捕捉具有复杂场景的密集世界,需要对复杂细节和对象相互关系进行细粒度分析。区域级 MLLM 是一个充满希望的一步。然而,以前的尝试通常是为了孤立地理解给定区域而优化的,而忽略了关键的全球背景。为了解决这个问题,我们引入了 Grasp Any Region (GAR) 来实现全面的区域级视觉理解。在有效的 RoI 对齐特征重放技术的支持下,GAR 支持 (1) 通过利用必要的全局上下文进行精确感知,以及 (2) 对多个提示之间的交互进行建模。总之,它自然地实现了 (3) 高级组合推理,以回答有关任何区域的特定自由形式问题,将范式从被动描述转变为主动对话。此外,我们构建了 GAR-Bench,它不仅提供了对单区域理解的更准确的评估,更重要的是,它还测量了跨多个区域的交互和复杂推理。大量实验表明,GAR-1B 不仅保持了最先进的字幕功能,例如在 DLC-Bench 上优于 DAM-3B +4.5,而且还擅长对多个提示之间的关系进行建模,具有高级理解能力,甚至在 GAR-Bench-VQA 上超过了 InternVL3-78B。更重要的是,我们的零样本 GAR-8B 在 VideoRefer-BenchQ 上甚至优于域内 VideoRefer-7B,这表明其强大的功能可以轻松转移到视频中 ...
来自人类反馈的强化学习 (RLHF) 对于使大型语言模型 (LLM) 与人类价值观保持一致至关重要。然而,RLHF 很容易受到 \emph{奖励黑客} 的影响,即代理利用奖励函数中的缺陷而不是学习预期的行为,从而降低一致性。尽管奖励塑造有助于稳定 RLHF 并部分缓解奖励黑客行为,但仍然缺乏对塑造技术及其基本原理的系统研究。为了弥补这一差距,我们对流行的奖励塑造方法进行了全面研究。我们的分析提出了两个关键的设计原则:(1) RL 奖励应该是有界的,(2) RL 奖励受益于快速的初始增长和随后的逐渐收敛。在这些见解的指导下,我们提出了偏好作为奖励(PAR),这是一种利用奖励模型中嵌入的潜在偏好作为强化学习信号的新颖方法。此外,PAR 表现出两个关键的方差减少特性,有助于稳定 RLHF 训练过程并有效扩展早期停止的容忍窗口。我们使用 Ultrafeedback-Binarized 和 HH-RLHF 两个数据集在基本模型 Gemma2-2B 上评估了 PAR。实验结果证明 PAR 比其他奖励塑造方法具有优越的性能。在 AlpacaEval 2.0 基准测试中,PAR 的胜率比竞争方法高出至少 5 个百分点。此外,PAR 表现出显着的数据效率,只需要一个参考奖励即可获得最佳性能,并且即使在两个完整的训练周期之后也能保持针对奖励黑客攻击的鲁棒性。该代码可从此 https URL 获取 ...
在几何复杂地形上的稳定遍历越来越需要外部感知,但之前的感知类人运动方法通常仍然与显式几何抽象联系在一起,要么通过以机器人为中心的 2.5D 地形表示来调节控制,要么通过利用辅助几何相关目标来塑造深度学习。这种设计继承了中间或监督目标的代表性偏差,并且可能对垂直结构、穿孔障碍物和复杂的现实世界杂波产生限制。我们提出了 CReF(跨模态和循环融合),这是一种单阶段深度调节的人形运动框架,可以直接从原始的前向深度学习运动相关特征,而无需显式的几何中间体。 CReF 通过本体感觉查询的跨模态注意力将本体感觉和深度标记耦合起来,将结果表示与门控残差融合块融合,并与由高速公路式输出门调节的门控循环单元 (GRU) 进行时间集成,以实现循环和前馈特征的状态相关混合。为了进一步改善地形交互,我们引入了地形感知立足点放置奖励,该奖励从脚端点云样本中提取可支持的候选立足点,并奖励靠近最近的可支持候选的着陆位置。模拟实验和物理人形实验表明,它可以在不同的地形上进行稳健的遍历,并可以有效地零镜头传输到包含扶手、空心托盘组件、严重反射干扰和视觉混乱的室外环境的真实世界场景 ...
在之前的工作(Coppola,2024)中,我们引入了量化布尔贝叶斯网络(QBBN),这是一种逻辑图形模型,它将自然演绎的前向片段(Prawitz,1965)实现为概率因子图。这项工作留下了两个空白:没有否定/向后推理,也没有自然语言的解析器。本文解决了推理、语义和语法方面的差距。为了进行推理,我们用强制 P(x) + P(neg x) = 1 的 NEG 因子扩展 QBBN,通过后向 lambda 消息实现对立推理(modus tollens),完成 Prawitz 的简单消除规则。该引擎可处理涵盖 22 种推理模式的 44/44 个测试用例。对于语义,我们提出了一种类型化逻辑语言,具有角色标记谓词、模态量词以及遵循 Prawitz 的三层表达能力:一阶量化、命题作为参数以及通过 lambda 抽象进行谓词量化。对于语法,我们提出了一种类型化槽语法,可以确定地将句子编译为逻辑形式(33/33 正确,零歧义)。 LLM 可以处理歧义(95% PP 附件准确率),但无法直接生成结构化解析(12.4% UAS),需要确认语法。架构:LLM 预处理、语法解析、LLM 重新排序、QBBN 推断。我们认为这与 Sutton 的“惨痛教训”(2019)相一致:LLM 消除了杀死正式 NLP 的注释瓶颈,充当注释器,而 QBBN 充当验证器。代码:这个https URL ...
您花费的每一个API Token 都是您积累的财富;一旦你能证明它的价值和背后的努力,你就可以转售它。当自主代理反复调用模型和工具时,它们会积累属于您知识产权的记忆。但如今,这些记忆仍然是私人的且不可转让,因为无法验证其价值。我们认为,如果购买者能够验证代理记忆是真实的、有努力支持的并且是在兼容的执行环境中产生的,那么代理记忆可以作为代理经济中的经济商品。为了实现这个想法,我们提出了clawgang(将内存与可验证的计算来源绑定)和meowtrade(一个用于列出、转移和管理经过认证的内存工件的市场层)。它们共同将一次性 API Token 支出转化为可重复使用和可交易的资产,实现及时的内存转移,减少重复探索,并开放内存交易市场 ...
奖励模型 (RM) 在使大型语言模型 (LLM) 与人类偏好保持一致方面发挥着关键作用。然而,传统的 RM 训练依赖于与特定提示相关的响应对,很难将提示驱动的偏好与独立于提示的工件(例如响应长度和格式)区分开来。在这项工作中,我们揭示了当前 RM 训练方法的一个基本局限性,即 RM 在确定偏好时无法有效地区分上下文信号和不相关的工件。为了解决这个问题,我们引入了一个因果框架,该框架可以学习独立于这些工件的偏好,并提出一种旨在消除它们的新颖的数据增强技术。大量的实验表明,我们的方法成功地过滤掉了不需要的伪影,从而产生了更强大的奖励模型(RRM)。我们的 RRM 改进了 RewardBench 上在 Gemma-2-9b-it 上训练的成对奖励模型的性能,将准确度从 80.61% 提高到 84.15%。此外,我们使用 RM 和 RRM 训练了两个 DPO 策略,表明 RRM 显着增强了 DPO 对齐策略,将 MT-Bench 分数从 7.27 提高到 8.31,并将 AlpacaEval-2 中长度控制的胜率从 33.46% 提高到 52.49% ...
视觉-语言-动作(VLA)系统在语言驱动的机器人操作方面表现出了巨大的潜力。然而,将它们扩展到长期任务仍然具有挑战性。现有的管道通常将数据收集、策略学习和部署分开,导致严重依赖手动环境重置和脆弱的多策略执行。我们推出了 RoboClaw,这是一个代理机器人框架,它将数据收集、策略学习和任务执行统一在单个 VLM 驱动的控制器下。在策略层面,RoboClaw 引入了纠缠动作对(EAP),它将正向操纵行为与反向恢复动作耦合起来,形成用于自主数据收集的自重置循环。该机制能够以最少的人为干预实现连续的策略数据采集和迭代策略细化。在部署过程中,同一代理执行高级推理并动态编排学习的策略原语以完成长期任务。通过在收集和执行过程中保持一致的上下文语义,RoboClaw 减少了两个阶段之间的不匹配并提高了多策略的稳健性。现实世界操纵任务的实验表明,与传统的开环管道相比,该方法具有更高的稳定性和可扩展性,同时显着减少了整个机器人生命周期的人力工作,在长视野任务上的成功率比基线方法提高了 25%,并减少了 53.7% 的人力时间投入 ...
课程学习在机器人学习中显示出显着的有效性。然而,在扩展到复杂、广泛的任务空间时,它仍然面临局限性。此类任务空间通常缺乏明确定义的难度结构,使得以前的方法所需的难度排序难以定义。我们提出了一种基于学习进度的自动课程强化学习(LP-ACRL)框架,该框架在线估计智能体的学习进度并自适应调整任务采样分布,从而无需事先了解任务空间的难度分布即可自动生成课程。使用 LP-ACRL 训练的策略使 ANYmal D 四足动物能够在不同地形(包括楼梯、斜坡、砾石和低摩擦平面)上以 2.5 m/s 线速度和 3.0 rad/s 角速度实现并保持稳定的高速运动,而以前的方法通常仅限于平坦地形上的高速或复杂地形上的低速。实验结果表明,LP-ACRL具有很强的可扩展性和现实适用性,为未来复杂、广泛的机器人学习任务空间中的课程生成研究提供了可靠的基线 ...
大型语言模型 (LLM) 最近表现出了卓越的推理能力,这在很大程度上是通过对高质量推理数据进行基于监督微调 (SFT) 和强化学习 (RL) 的后期训练来实现的。然而,在开放和可扩展的环境中复制和扩展这些功能受到三个以数据为中心的基本挑战的阻碍:(1)冷启动问题,这是由于缺乏初始化推理策略所需的详细、长的思想链(CoT)轨迹的种子数据集而引起的; (2)领域覆盖范围有限,因为大多数现有的开源推理数据集都集中在数学领域,而对更广泛的科学学科的覆盖范围有限; (3)注释瓶颈,前沿级推理任务的难度使得可靠的人工注释变得极其昂贵或不可行。为了应对这些挑战,我们引入了 CHIMERA,这是一个紧凑的合成推理数据集,包含 9K 个样本,用于可泛化的跨域推理。 CHIMERA 的构建具有三个关键特性:(1)它提供由最先进的推理模型合成的丰富、长的 CoT 推理轨迹; (2) 它具有广泛且结构化的覆盖范围,涵盖 8 个主要科学学科和通过模型生成的层次分类法组织的超过 1000 个细粒度主题; (3) 它采用全自动、可扩展的评估流程,使用强大的推理模型来交叉验证问题的有效性和答案的正确性。我们使用 CHIMERA 对 4B Qwen3 模型进行后训练。尽管数据集规模不大,但生成的模型在一系列具有挑战性的推理基准上实现了强大的性能,包括 GPQA-Diamond、AIME 24/25/26、HMMT 25 和 Humanity's Last Exam,接近或匹配更大模型(例如 DeepSeek-R1 和 Qwen3-235B)的推理性能 ...