视觉即逆图形,将图像重建为可编辑图形程序的概念是计算机视觉的长期目标。然而,即使是强大的 VLM 也无法一次性实现这一目标,因为它们缺乏细粒度的空间和物理基础能力。我们的主要见解是,缩小这一差距需要通过迭代执行和验证进行交错的多模式推理。出于此,我们提出了VIGA(Vision-as-Inverse-Graphic Agent),它从一个空的世界开始,通过闭环写入-运行-渲染-比较-修改过程来重建或编辑场景。为了支持长期推理,VIGA 结合了 (i) 交替生成器和验证者角色的技能库,以及 (ii) 包含计划、代码差异和渲染历史记录的不断发展的上下文内存。 VIGA 与任务无关,因为它不需要辅助模块,涵盖了广泛的任务,例如 3D 重建、多步骤场景编辑、4D 物理交互和 2D 文档编辑等。根据经验,我们发现 VIGA 显着改善了 BlenderGym (35.32%) 和 SlideBench (117.17%) 上的一次性基线。此外,VIGA 也是模型无关的,因为它不需要微调,从而能够使用统一的协议来评估异构基础 VLM。为了更好地支持该协议,我们引入了 BlenderBench,这是一个具有挑战性的基准测试,使用图形引擎对交错多模态推理进行压力测试,其中 VIGA 提高了 124.70% ...
我们推出了 RoboBrain 2.5,这是一种下一代具体人工智能基础模型,可通过高质量时空监督的广泛训练来推进一般感知、空间推理和时间建模。 RoboBrain 2.5 在其前身的基础上引入了两项主要的功能升级。具体来说,它通过从 2D 像素相关基础转向深度感知坐标预测和绝对度量约束理解来解锁精确 3D 空间推理,在物理约束下生成完整的 3D 操作轨迹作为有序关键点序列。为了补充这种空间精度,该模型建立了密集时间值估计,提供密集的、步骤感知的进度预测和跨不同视点的执行状态理解,为下游学习产生稳定的反馈信号。总之,这些升级将框架扩展到更加物理基础和执行感知的体现智能,以实现复杂、细粒度的操作。代码和检查点可在项目网站上找到:此 https URL ...
模仿学习策略的性能通常取决于训练它们的数据集。因此,工业和学术实验室对机器人数据收集的投资都在增长。然而,尽管收集的演示数量显着增加,但很少有工作试图评估所述数据的质量,尽管越来越多的证据表明这些数据在视觉和语言等其他领域的重要性。在这项工作中,我们朝着解决机器人技术的数据质量迈出了关键的一步。给定示威数据集,我们的目标是在状态多样性和行动可预测性方面估计个别示威的相对质量。为此,我们估计了整个数据集中状态和动作之间的互信息的轨迹的平均贡献,这精确地捕获了状态分布的熵和动作的状态条件熵。尽管常用的互信息估计器需要大量的数据,通常超出了机器人技术中可用的规模,但我们引入了一种基于状态和动作的简单 VAE 嵌入之上的互信息 k 最近邻估计的新技术。根据经验,我们证明我们的方法能够根据跨越模拟和现实世界环境的各种基准的人类专家评分按质量划分演示数据集。此外,基于我们的方法过滤的数据的训练策略可以使 RoboMimic 提高 5-10%,并在真实的 ALOHA 和 Franka 设置上获得更好的性能 ...
文本引导的运动编辑可实现超越传统关键帧动画的高级语义控制和迭代修改。现有方法依赖于有限的预先收集的训练三元组,这严重阻碍了它们在不同编辑场景中的多功能性。我们介绍了 MotionCutMix,这是一种在线数据增强技术,可通过基于输入文本混合身体部位运动来动态生成训练三元组。虽然 MotionCutMix 有效地扩展了训练分布,但其组合性质会增加随机性和潜在的身体部位不协调。为了对如此丰富的分布进行建模,我们提出了 MotionReFit,这是一种带有运动协调器的自回归扩散模型。自回归架构通过分解长序列来促进学习,而运动协调器则减轻了运动合成的伪影。我们的方法直接根据高级人类指令处理空间和时间运动编辑,而不依赖于额外的规范或大型语言模型。通过大量实验,我们表明 MotionReFit 在文本引导运动编辑方面实现了最先进的性能 ...
针对下一个标记预测进行预训练并通过强化学习 (RL) 进行微调的大规模自回归模型在许多问题领域取得了前所未有的成功。在强化学习期间,这些模型通过生成新输出(一次一个 Token )来进行探索。然而,逐个对动作进行采样可能会导致学习效率极低,尤其是在奖励稀疏的情况下。在这里,我们证明可以通过在自回归模型的内部表示中进行行动和探索来克服这个问题。具体来说,为了发现时间抽象动作,我们引入了一个高阶、非因果序列模型,其输出控制基本自回归模型的残差流激活。在具有层次结构的网格世界和基于 MuJoCo 的任务中,我们发现高阶模型学习将长激活序列块压缩到内部控制器上。至关重要的是,每个控制器执行一系列具有行为意义的动作,这些动作在很长的时间尺度上展开,并伴随着学习的终止条件,这样随着时间的推移组合多个控制器可以有效地探索新任务。我们证明,直接内部控制器强化(我们称之为“内部强化学习”的过程)可以在标准强化学习微调失败的情况下从稀疏奖励中进行学习。我们的结果证明了自回归模型中潜在动作生成和强化的好处,表明内部强化学习是在基础模型中实现分层强化学习的有前途的途径 ...
深度学习架构的持续改进已将 3D 对象检测器的整体性能稳步提升到与人类在某些任务和数据集上相当的水平,其中整体性能主要由常见示例驱动。然而,当涉及到训练数据中不经常出现的罕见示例(例如具有不规则几何形状的车辆)时,即使性能最好的模型也会犯最幼稚的错误。长尾文献中的大多数研究都集中在已知每个类的不平衡标签计数的类不平衡分类问题上,但它们并不直接适用于具有较大类内变化的问题中的类内长尾示例,例如 3D 对象检测,其中具有相同类标签的实例可能具有截然不同的属性,例如形状和大小。其他工作建议使用基于不确定性、难度或多样性标准的主动学习来缓解这个问题。在这项研究中,我们确定了一个新的概念维度——稀有性——来挖掘新数据以提高模型的长尾性能。我们表明,与难度相反,稀有性是 3D 检测器以数据为中心的改进的关键,因为稀有性是缺乏数据支持的结果,而难度则与问题的基本模糊性有关。我们提出了一种通用且有效的方法来使用流模型基于特征空间中的密度估计来识别对象的稀有性,并提出了一种用于挖掘稀有对象轨迹的原则成本感知公式,这提高了整体模型性能,但更重要的是 - 显着提高了稀有对象的性能(提高了 30.97% ...
强化学习为大型语言模型最近的许多突破提供了动力,特别是对于可以自动计算奖励的任务,例如代码生成。然而,这些方法在医疗咨询等开放式领域中表现不佳,这些领域的反馈本质上是不明确的,高度依赖于上下文,并且无法简化为可靠的标量信号。在这种情况下,强化学习必须要么依赖于经常无法泛化的监督密集型奖励模型,要么陷入奖励黑客等病态行为——这对于高风险的医学对话来说是一个特别令人不安的风险。为了解决这些限制,我们引入了 ORBIT,这是一种基于规则的开放式增量培训框架,用于高风险的医学对话。 ORBIT 将合成对话生成与动态构建的评分标准相结合,作为增量强化学习的自适应指南。 ORBIT 不依赖外部医学知识库或手工制定的规则集,而是使用标题驱动的反馈来引导学习过程。其判断组件可以使用通用指令跟踪 LLM 进行实例化,从而无需任何特定于任务的微调。应用于 Qwen3-4B-Instruct 模型时,ORBIT 仅使用 2k 训练样本就将 HealthBench-Hard 分数从 7.0 提高到 27.5,在该规模的模型中实现了 SOTA 性能。凭借更大的标题数据集,ORBIT 训练的模型进一步与 HealthBench-Hard 上最强的开源基线竞争。我们的分析表明,以标准为指导的强化学习持续提高了不同医疗场景的咨询质量。我们还将此类标题生成和训练管道应用于 InfoBench,其中 ORBIT 增强了指令跟踪性能,突出了基于标题的反馈的通用性 ...
医学成像为临床诊断、治疗计划和手术决策提供了关键证据,但大多数现有成像模型的针对性较窄,需要多个专门的网络,限制了其泛化。尽管大规模语言和多模态模型表现出强大的推理和多任务能力,但现实世界的临床应用需要精确的视觉基础、多模态集成和思维链推理。我们介绍 Citrus-V,这是一种将图像分析与文本推理相结合的多模态医学基础模型。该模型集成了检测、分割和多模式思想链推理,在单个框架中实现像素级病变定位、结构化报告生成和类似医生的诊断推理。我们提出了一种新颖的多模式训练方法,并发布了一个涵盖推理、检测、分割和文档理解任务的精选开源数据套件。评估表明,Citrus-V 在多个基准上优于现有的开源医学模型和专家级成像系统,提供从视觉基础到临床推理的统一管道,并支持精确的病变量化、自动报告和可靠的第二意见 ...
大型语言模型 (LLM) 在跨任务方面取得了显着的性能,但由于其深层的多层架构,会产生大量的计算成本。层剪枝已成为缓解这些低效率的策略,但传统的静态剪枝方法忽视了 LLM 推理固有的两个关键动态:(1)水平动态,其中 Token 级异质性需要上下文感知剪枝决策;(2)垂直动态,其中 MLP 和自注意力层的不同功能角色需要特定于组件的剪枝策略。我们引入了 SkipGPT,这是一个动态层剪枝框架,旨在通过两项核心创新来优化计算资源分配:(1) 全局 Token 感知路由,以优先考虑关键 Token ;(2) MLP 和自注意力组件的解耦剪枝策略。为了减轻训练的不稳定性,我们提出了一个两阶段的优化范例:首先,一个解缠结的训练阶段,通过软参数化学习路由策略,以避免过早的修剪决策,然后进行参数高效的 LoRA 微调,以恢复受层移除影响的性能。大量实验表明,SkipGPT 减少了超过 40% 的模型参数,同时在基准测试中达到或超过了原始密集模型的性能。通过协调动态效率与保留的表达能力,SkipGPT 推进了可扩展、资源感知的 LLM 的实际部署。我们的代码可在以下位置公开获取:此 https URL ...
与可以使用“盲”策略导航不同地形的四足机器人相比,人形机器人由于其高自由度和固有的不稳定形态,需要准确的感知才能稳定运动。然而,结合感知信号通常会给系统带来额外的干扰,可能会降低其鲁棒性、通用性和效率。本文提出了感知内部模型(PIM),它依靠以机器人为中心的机载、不断更新的高程图来感知周围环境。我们在模拟中使用机器人周围的地面真实障碍物高度来训练策略,基于混合内部模型(HIM)对其进行优化,并使用从构建的高程图中采样的高度进行推理。与之前直接编码深度图或原始点云的方法不同,我们的方法允许机器人清楚地感知脚下的地形,并且受相机移动或噪声的影响较小。此外,由于模拟中不需要深度图渲染,因此我们的方法引入了最小的额外计算成本,并且可以在 RTX 4090 GPU 上在 3 小时内训练策略。我们验证了我们的方法在各种人形机器人、各种室内和室外地形、楼梯和各种传感器配置上的有效性。我们的方法可以使人形机器人能够连续爬楼梯,并有潜力作为未来人形控制方法开发的基础算法 ...