视觉-语言-动作(VLA)系统在语言驱动的机器人操作方面表现出了巨大的潜力。然而,将它们扩展到长期任务仍然具有挑战性。现有的管道通常将数据收集、策略学习和部署分开,导致严重依赖手动环境重置和脆弱的多策略执行。我们推出了 RoboClaw,这是一个代理机器人框架,它将数据收集、策略学习和任务执行统一在单个 VLM 驱动的控制器下。在策略层面,RoboClaw 引入了纠缠动作对(EAP),它将正向操纵行为与反向恢复动作耦合起来,形成用于自主数据收集的自重置循环。该机制能够以最少的人为干预实现连续的策略数据采集和迭代策略细化。在部署过程中,同一代理执行高级推理并动态编排学习的策略原语以完成长期任务。通过在收集和执行过程中保持一致的上下文语义,RoboClaw 减少了两个阶段之间的不匹配并提高了多策略的稳健性。现实世界操纵任务的实验表明,与传统的开环管道相比,该方法具有更高的稳定性和可扩展性,同时显着减少了整个机器人生命周期的人力工作,在长视野任务上的成功率比基线方法提高了 25%,并减少了 53.7% 的人力时间投入 ...
课程学习在机器人学习中显示出显着的有效性。然而,在扩展到复杂、广泛的任务空间时,它仍然面临局限性。此类任务空间通常缺乏明确定义的难度结构,使得以前的方法所需的难度排序难以定义。我们提出了一种基于学习进度的自动课程强化学习(LP-ACRL)框架,该框架在线估计智能体的学习进度并自适应调整任务采样分布,从而无需事先了解任务空间的难度分布即可自动生成课程。使用 LP-ACRL 训练的策略使 ANYmal D 四足动物能够在不同地形(包括楼梯、斜坡、砾石和低摩擦平面)上以 2.5 m/s 线速度和 3.0 rad/s 角速度实现并保持稳定的高速运动,而以前的方法通常仅限于平坦地形上的高速或复杂地形上的低速。实验结果表明,LP-ACRL具有很强的可扩展性和现实适用性,为未来复杂、广泛的机器人学习任务空间中的课程生成研究提供了可靠的基线 ...
大型语言模型 (LLM) 最近表现出了卓越的推理能力,这在很大程度上是通过对高质量推理数据进行基于监督微调 (SFT) 和强化学习 (RL) 的后期训练来实现的。然而,在开放和可扩展的环境中复制和扩展这些功能受到三个以数据为中心的基本挑战的阻碍:(1)冷启动问题,这是由于缺乏初始化推理策略所需的详细、长的思想链(CoT)轨迹的种子数据集而引起的; (2)领域覆盖范围有限,因为大多数现有的开源推理数据集都集中在数学领域,而对更广泛的科学学科的覆盖范围有限; (3)注释瓶颈,前沿级推理任务的难度使得可靠的人工注释变得极其昂贵或不可行。为了应对这些挑战,我们引入了 CHIMERA,这是一个紧凑的合成推理数据集,包含 9K 个样本,用于可泛化的跨域推理。 CHIMERA 的构建具有三个关键特性:(1)它提供由最先进的推理模型合成的丰富、长的 CoT 推理轨迹; (2) 它具有广泛且结构化的覆盖范围,涵盖 8 个主要科学学科和通过模型生成的层次分类法组织的超过 1000 个细粒度主题; (3) 它采用全自动、可扩展的评估流程,使用强大的推理模型来交叉验证问题的有效性和答案的正确性。我们使用 CHIMERA 对 4B Qwen3 模型进行后训练。尽管数据集规模不大,但生成的模型在一系列具有挑战性的推理基准上实现了强大的性能,包括 GPQA-Diamond、AIME 24/25/26、HMMT 25 和 Humanity's Last Exam,接近或匹配更大模型(例如 DeepSeek-R1 和 Qwen3-235B)的推理性能 ...
人工智能(AI)是广泛的计算机工具的通称,旨在执行日益复杂的认知任务,其中包括许多过去仅由人类负责的任务。随着这些工具变得极其复杂和普遍,它们快速发展和融入社会的理由经常受到质疑,特别是因为它们消耗有限的资源,并对它们似乎取代的那些技术人员的生计构成生存风险。在本文中,我们考虑了人工智能对传统哲学问题的快速发展的影响,重点关注其在数学中的应用以及其更普遍使用的更广泛的现实世界结果。我们断言,人工智能是历史上人类工具的自然演变,旨在促进思想的创造、组织和传播,并认为人工智能的开发和应用从根本上保持以人类为中心至关重要。着眼于创新解决方案来满足人类需求、提高人类生活质量并扩大人类思维和理解能力,我们提出了一条将人工智能融入最具挑战性和智力严谨领域的途径,以造福全人类 ...
零样本文本转语音 (TTS) 模型可以生成捕获参考说话者的音质和口音的语音。然而,理清这些属性仍然具有挑战性,因为输出通常会继承参考的重音和音色。在这项研究中,我们引入了一种新颖的、事后且无需训练的方法,利用推理时间激活控制来中和口音,同时保留说话者的原始音色。我们首先离线提取特定于层的“转向向量”,这些向量源自 TTS 模型中重音语音和母语语音之间的内部激活差异。在推理过程中,引导向量用于指导模型生成中和口音、保留音色的语音。实证结果表明,所提出的引导向量有效地减轻了输出口音,并对看不见的口音说话者表现出很强的通用性,为无口音语音克隆提供了实用的解决方案 ...
通过采用 LLM 增强的分层方法,在《我的世界》等环境中开发通用嵌入式人工智能方面取得了重大进展。虽然这些将高级规划器与低级控制器相结合的方法显示出希望,但低级控制器经常由于重复故障而成为性能瓶颈。在本文中,我们认为许多低级控制器失败的主要原因是缺乏情景记忆系统。为了解决这个问题,我们引入了 MrSteve(Memory Recall Steve),这是一种新型低级控制器,配备了地点事件记忆(PEM),这是一种情景记忆形式,可以捕获情景中的事件、地点和时间信息。这直接解决了流行的低级控制器 Steve-1 的主要限制。与之前依赖短期记忆的模型不同,PEM 组织空间和基于事件的数据,从而在长期任务中实现高效的回忆和导航。此外,我们提出了探索策略和记忆增强任务解决框架,允许代理根据回忆事件在探索和任务解决之间交替。与现有方法相比,我们的方法显着提高了任务解决和探索效率。我们将在项目页面上发布我们的代码和演示:此 https URL ...
大型语言模型 (LLM) 推动了语音语言模型 (SpeechLM) 的重大进步,在高资源条件下在自动语音识别 (ASR) 方面产生了强大的性能。然而,现有的基准测试主要关注高资源语言,而对低资源语言中 SpeechLM 的 ASR 行为的理解还不够。这一差距至关重要,因为实用的 ASR 系统必须可靠地支持资源匮乏的语言并在不同的语族中进行泛化,这直接阻碍了基于 SpeechLM 的 ASR 在现实世界多语言场景中的部署。因此,有必要在低资源语言上评估 SpeechLM,以确保其在不同语言家族中的通用性。为了解决这个问题,我们提出了 \textbf{LoASR-Bench},这是一个综合基准测试,旨在评估跨不同语言家族的最新 SpeechLM 的 \textbf{lo}w-resource \textbf{a}utomatic \textbf{s}peech \textbf{r} 识别(\textbf{ASR})。 LoASR-Bench 包含来自 9 个语系的 25 种语言,具有拉丁和非拉丁文字,能够对当前 SpeechLM 的 ASR 性能进行跨语言和跨文字评估。实验结果凸显了最新 SpeechLM 在处理现实世界的低资源语言方面的局限性 ...
LLM 代理在监管审计重放方面遇到困难:当被要求使用相同的输入重现标记的交易决策时,许多部署无法返回一致的结果。我们引入了确定性-忠诚保证框架(DFAH),这是一个用于衡量金融服务中部署的工具使用代理的轨迹确定性、决策确定性和证据条件忠诚度的框架。在 4,700 多个代理运行中(7 个模型、4 个提供商、3 个财务基准,每个 T=0.0 时有 50 个案例),我们发现决策确定性和任务准确性没有可检测到的相关性(r = -0.11,95% CI [-0.49, 0.31],p = 0.63,n = 21 配置):模型可以是确定性的,但不准确,也可以是准确的,但不具有确定性。因为在我们的样本中,这两个指标都无法预测另一个指标,因此必须独立测量这两个指标,而这正是 DFAH 所提供的。小型模型 (7-20B) 通过严格的模式匹配以牺牲准确性 (20-42%) 为代价实现近乎完美的确定性,而前沿模型则显示出中等确定性 (50-96%),但准确性不同。没有任何模型能够同时实现完美的确定性和高精度,支持 DFAH 的多维测量方法。我们提供三个财务基准(合规性分类、投资组合约束和 DataOps 例外;每个 50 个案例)以及开源压力测试工具。在这些基准和 DFAH 评估设置中,具有模式优先架构的第 1 层模型达到了与审计重放要求一致的确定性级别 ...
尽管视觉生成领域最近取得了显着的进步,但大多数现有架构仍然依赖于不同的图像和文本编码器。这种分离限制了扩散模型执行跨模式推理和知识转移的能力。之前弥补这一差距的尝试通常使用 VLM 的最后一层信息,采用多个视觉编码器,或者联合训练大型统一模型来生成文本和图像,这需要大量的计算资源和大规模数据,从而限制了该 http URL 目前的 UniFusion,这是一种基于扩散的生成模型,以冻结的大型视觉语言模型 (VLM) 为条件,充当统一的多模态编码器。 UniFusion 的核心是分层注意力池 (LAP) 机制,该机制从冻结的 VLM 的文本和视觉标记中提取高级语义和低级细节,以调节扩散生成模型。我们证明,LAP 在文本图像对齐方面优于其他浅层融合架构,可生成视觉信息并将其忠实地从 VLM 传输到扩散模型,这对于编辑至关重要。我们提出了具有灵活推理功能的 VLM 重写注入 (VERIFI),它仅在模型内提示重写期间 VLM 生成的文本标记上设置扩散变换器 (DiT)。 VERIFI 将调节分布的一致性与 VLM 的推理功能相结合,以提高推理能力和灵活性。此外,对编辑任务的微调不仅提高了生成时的文本图像对齐,表明跨模态知识转移,而且还表现出了巨大的泛化能力。我们的模型在对单图像编辑进行训练时,零样本可推广到多个图像参考,进一步推动了 UniFusion 的统一编码器设计 ...
大规模推荐系统中的转换目标稀疏,使得它们难以优化。生成推荐(GR)通过将多种类型的行为组织成具有共享表示的统一标记序列,部分缓解了数据稀疏性,但转换信号仍然没有充分建模。虽然最近的行为感知 GR 模型对行为类型进行编码,并采用行为感知注意力来突出与决策相关的中间行为,但它们仍然依赖于整个历史的标准注意力,并且不为转换提供额外的监督,从而导致转换稀疏性在很大程度上没有得到解决。为了应对这些挑战,我们提出了 RCLRec,一种基于逆向课程学习的 GR 框架,用于稀疏转换监督。对于每个转换目标,RCLRec 通过从历史记录中反向选择转换相关项目的子序列来构造一个简短的课程。在联合生成目标下,它们的语义标记与目标转换标记一起作为前缀馈送到解码器。此设计提供了额外的特定于实例的中间监督,减轻了转换稀疏性并将模型集中在用户的关键决策过程上。我们进一步引入了课程质量感知损失,以确保所选课程为转化预测提供信息。离线数据集的实验和在线 A/B 测试表明,RCLRec 取得了优异的性能,广告收入增加了 2.09%,在线部署订单增加了 1.86% ...