在人形机器人控制领域,视觉-语言-动作(VLA)与全身控制的融合对于语义引导执行现实世界任务至关重要。然而,现有方法面临VLA推理效率低或缺乏有效的全身控制语义指导等挑战,导致动态肢体协调任务不稳定。为了弥补这一差距,我们提出了一种用于人形全身控制的语义运动意图引导、物理感知的多脑 VLA 框架。进行了一系列实验来评估所提出框架的性能。实验结果表明,该框架为人形机器人提供了可靠的视觉语言引导的全身协调 ...
在本文中,我们提出了 DiffusionVLA,这是一种新颖的框架,它将自回归模型与扩散模型无缝结合起来,用于学习视觉运动策略。我们方法的核心是下一个标记预测目标,使模型能够在当前观察的上下文中有效地对用户的查询进行推理。随后,附加扩散模型以生成稳健的动作输出。为了通过自我推理增强策略学习,我们引入了一种新颖的推理注入模块,该模块将推理短语直接集成到策略学习过程中。整个框架简单灵活,易于部署和升级。我们使用多个真实机器人进行了大量实验来验证 DiffusionVLA 的有效性。我们的测试包括一项具有挑战性的工厂分类任务,其中 DiffusionVLA 成功对对象进行了分类,包括那些在训练期间未看到的对象。我们观察到推理模块使模型变得可解释。它使观察者能够理解模型的思维过程并识别政策失败的潜在原因。此外,我们在零样本箱拾取任务上测试了 DiffusionVLA,对 102 个以前未见过的物体实现了 63.7% 的准确率。我们的方法展示了对视觉变化(例如干扰物和新背景)的鲁棒性,并且很容易适应新的实施例。此外,DiffusionVLA 可以遵循新颖的指令并保留对话能力。值得注意的是,DiffusionVLA 数据高效且推理速度快;我们最小的 DiffusionVLA-2B 在单个 A6000 GPU 上运行 82Hz,并且可以通过不到 50 个演示从头开始训练复杂任务。最后,我们将模型从 2B 参数扩展到 72B 参数,展示了随着模型大小的增加,泛化能力得到了提高 ...
大型语言模型 (LLM) 的一致性通常假设使用更干净的数据会产生更好的结果,而忽略了模型容量和示例难度之间的匹配。为了挑战这一点,我们提出了一个新原则:偏好数据的难度各不相同,过于困难的示例会超出模型的容量,从而阻碍对齐。通过系统的实验,我们通过三个关键发现验证了这一原则:(1)偏好示例的难度有所不同,这可以通过比对运行中一致的学习顺序来证明; (2) 过于困难的例子会显着降低四个 LLM 和两个数据集的表现; (3)模型的容量决定了其处理困难示例的阈值,强调了数据选择和模型容量之间的关键关系。基于这一原则,我们引入了选择性 DPO,它可以过滤掉过于困难的示例。与 DPO 基线相比,这一简单的调整将 AlpacaEval 2 基准上的对齐性能提升了 9-16%,抑制了一系列具有不同算法调整的 DPO 变体。总之,这些结果阐明了将数据难度与模型能力相结合的重要性,为改进 LLM 的调整策略提供了变革性的视角。代码可从此 https URL 获取 ...
大型语言模型 (LLM) 的性能与其训练数据的质量有着内在的联系。尽管一些研究提出了高质量数据选择的方法,但他们没有考虑文本语料库中知识丰富性的重要性。在本文中,我们提出了一种新颖的无梯度高知识评分器(HKS),从知识维度选择高质量数据,以缓解预训练语料库中知识稀缺的问题。我们提出了一个全面的多领域知识元素池,并引入知识密度和覆盖率作为评估文本知识内容的指标。基于此,我们提出了一种综合知识评分器来选择具有密集知识的数据,它也可以通过将知识元素限制在特定领域来用于特定领域的高知识数据选择。我们在高知识双语数据集上训练模型,实验结果表明,我们的评分器提高了模型在知识密集型和一般理解任务中的性能,并且有效增强了模型的通用和特定领域的能力 ...
视觉语言动作(VLA)模型的最新进展显示出机器人操作任务的巨大潜力。然而,现实世界的机器人任务通常涉及长期、多步骤的问题解决,并且需要泛化以持续获取技能,超越单一动作或技能。这些挑战给现有的 VLA 模型带来了重大障碍,这些模型使用基于聚合数据训练的整体动作解码器,导致可扩展性较差。为了应对这些挑战,我们提出了 AtomicVLA,这是一个统一的规划和执行框架,可以联合生成任务级计划、原子技能抽象和细粒度的操作。 AtomicVLA 通过技能引导专家混合 (SG-MoE) 构建了一个可扩展的原子技能库,其中每位专家专门掌握通用而精确的原子技能。此外,我们引入了灵活的路由编码器,可以自动将专门的原子专家分配给新技能,从而实现持续学习。我们通过大量实验验证了我们的方法。在模拟中,AtomicVLA 在 LIBERO 上比 $\pi_{0}$ 好 2.4\%,在 LIBERO-LONG 上比 $\pi_{0}$ 好 10\%,在 CALVIN 上平均任务长度比 $\pi_{0}$ 和 $\pi_{0.5}$ 好 0.22 和 0.25。此外,我们的 AtomicVLA 在现实世界的长期任务和持续学习中始终超出基线 18.3% 和 21%。这些结果凸显了原子技能抽象和动态专家组合对于长期和终生机器人任务的有效性。项目页面为 \href{此 https URL}{此处} ...
本文提出了原型对比学习(PCL),这是一种无监督表示学习方法,解决了实例对比学习的基本局限性。 PCL 不仅学习用于实例区分任务的低级特征,更重要的是,它将数据的语义结构隐式编码到学习的嵌入空间中。具体来说,我们引入原型作为潜在变量,以帮助在期望最大化框架中找到网络参数的最大似然估计。我们迭代地执行 E-step 通过聚类寻找原型的分布,并迭代执行 M-step 通过对比学习优化网络。我们提出了 ProtoNCE 损失,这是用于对比学习的 InfoNCE 损失的通用版本,它鼓励表示更接近其分配的原型。 PCL 在多个基准上优于最先进的实例对比学习方法,并在低资源迁移学习方面取得了显着改进。此 https URL 提供了代码和预训练模型 ...
有监督微调 (SFT) 是适应大型语言模型的基础,但对完整数据集的训练会产生高昂的成本,并且收益递减。现有的数据选择方法受到严重的领域特异性的影响:针对一般指令跟踪优化的技术在推理任务中失败,反之亦然。我们观察到,测量基本模型和最低限度指令调整的校准模型之间的熵差异揭示了一种模式——具有最低微分熵的样本在跨域中始终产生最佳性能,但这一原理以域自适应的方式表现出来:推理任务有利于熵增加(认知扩展),而一般任务有利于熵减少(认知压缩)。我们引入了 InstructDiff,这是一个统一的框架,通过预热校准、双向 NLL 过滤和基于熵的排序,将微分熵作为域自适应选择标准。大量实验表明,InstructDiff 在数学推理方面比完整数据训练实现了 17% 的相对改进,在一般指令遵循方面实现了 52% 的相对改进,在仅使用 10% 的数据的情况下优于先前的基线 ...
文本到图像(T2I)的生成已经取得了显着的进步,但现有的方法往往缺乏在生成过程中动态推理和细化的能力——这是人类创造力的标志。当前的推理增强范式大多数依赖于显式思维过程,其中中间推理以固定步骤解码为离散文本,并频繁进行图像解码和重新编码,导致效率低下、信息丢失和认知不匹配。为了弥补这一差距,我们引入了 LatentMorph,这是一种新颖的框架,它将隐式潜在推理无缝集成到 T2I 生成过程中。 LatentMorph 的核心引入了四个轻量级组件:(i) 用于将中间生成状态总结为紧凑视觉记忆的冷凝器,(ii) 用于将潜在想法转换为可操作指导的转换器,(iii) 用于动态引导下一个图像标记预测的整形器,以及 (iv) 用于自适应确定何时调用推理的经过 RL 训练的调用程序。通过完全在连续的潜在空间中执行推理,LatentMorph 避免了显式推理的瓶颈,并实现了更具适应性的自我改进。大量实验表明 LatentMorph (I) 在 GenEval 上将基础模型 Janus-Pro 增强了 $16\%$,在 T2I-CompBench 上增强了 $25\%$; (II) 在 WISE 和 IPV-Txt 等抽象推理任务上,比显式范式(例如 TwiG)性能高出 $15\%$ 和 $11\%$,(III) 同时将推理时间减少 $44\%$,将 Token 消耗减少 $51\%$; (IV) 在推理调用上与人类直觉表现出 $71\%$ 认知一致性 ...
仿真提供了一种可扩展且低成本的方式来丰富视觉语言动作(VLA)训练,减少对昂贵的真实机器人演示的依赖。然而,大多数模拟-真实协同训练方法依赖于监督微调(SFT),它将模拟视为演示的静态源,并且不利用大规模闭环交互。因此,现实世界的收益和泛化往往是有限的。在本文中,我们提出了一种基于 \underline{\textit{RL}} 的 sim-real \underline{\textit{Co}}-training \modify{(RL-Co)} 框架,该框架利用交互式模拟,同时保留现实世界的功能。我们的方法遵循通用的两阶段设计:我们首先在真实和模拟演示的混合上使用 SFT 热启动策略,然后通过模拟中的强化学习对其进行微调,同时在现实世界数据上添加辅助监督损失以锚定策略并减轻灾难性遗忘。我们使用两种代表性的 VLA 架构 OpenVLA 和 $\pi_{0.5}$ 在四个现实世界桌面操作任务上评估我们的框架,并观察到相对于纯真实微调和基于 SFT 的协同训练的一致改进,包括 OpenVLA 上 +24% 的实际成功率和 $\pi_{0.5}$ 上 +20% 的实际成功率。除了更高的成功率之外,强化学习协同训练还可以对未见的任务变化产生更强的泛化能力,并显着提高现实世界的数据效率,为利用模拟增强实际机器人部署提供实用且可扩展的途径 ...
Clawdbot 是一种自托管、使用工具的个人人工智能代理,具有广泛的行动空间,涵盖本地执行和网络介导的工作流程,这在模糊性和对抗性指导下引发了高度的安全问题。我们在六个风险维度上对 Clawdbot 进行了以轨迹为中心的评估。我们的测试套件对之前的代理安全基准(包括 ATBench 和 LPS-Bench)中的场景进行了采样和轻微调整,并用针对 Clawdbot 工具表面的手工设计案例对其进行了补充。我们记录完整的交互轨迹(消息、操作、工具调用参数/输出),并使用自动轨迹判断器 (AgentDoG-Qwen3-4B) 和人工审查来评估安全性。在 34 个典型案例中,我们发现了一个不一致的安全概况:在以可靠性为中心的任务中,性能通常是一致的,而大多数失败是在未明确的意图、开放式目标或看似良性的越狱提示下出现的,其中轻微的误解可能会升级为影响更大的工具操作。我们通过代表性案例研究补充了总体结果,并总结了这些案例的共性,分析了Clawdbot在实践中容易引发的安全漏洞和典型故障模式 ...