大型视觉动作(VLA)模型显示出体现AI的显着潜力。但是,由于对分配变化的复合错误的敏感性,他们通过监督微调(SFT)限制了概括的主要培训。强化学习(RL)通过试用和错误为任务目标进行优化,为克服这些局限性提供了一条途径,但是与SFT相比,缺乏对VLA的特定概括益处的系统理解 ...

0 0 0 0 2026/01/24 arXiv:2505.19789v4 Tingfengyue

我们推出了 SceneNAT,这是一种单级屏蔽非自回归 Transformer,只需几次并行解码即可从自然语言指令合成完整的 3D 室内场景,与之前最先进的方法相比,可提供更高的性能和效率。 SceneNAT 通过语义和空间属性的完全离散表示的掩码建模进行训练。通过在属性级别和实例级别应用屏蔽策略,模型可以更好地捕获对象内和对象间结构。为了促进关系推理,SceneNAT 采用专用的三元组预测器,通过将一组可学习的关系查询映射到一组稀疏的符号三元组(主语、谓语、宾语)来对场景的布局和对象关系进行建模。对 3D-FRONT 数据集进行的大量实验表明,与最先进的自回归和扩散基线相比,SceneNAT 在语义合规性和空间排列精度方面实现了卓越的性能,同时以较低的计算成本运行 ...

0 0 0 0 2026/01/23 arXiv:2601.07218v1 wonglliam

自动生成大规模、交互式且物理逼真的 3D 环境的能力对于推进机器人学习和体现智能至关重要。然而,现有的生成方法通常无法捕捉现实世界内部的功能复杂性,特别是那些包含铰接式物体以及对于操纵和导航至关重要的可移动部件的物体。本文介绍了 SceneFoundry,这是一种语言引导的扩散框架,可生成公寓规模的 3D 世界,其中包含功能铰接的家具和用于机器人训练的语义多样化布局。根据自然语言提示,LLM 模块控制楼层布局生成,而基于扩散的后验采样则使用来自大型 3D 存储库的铰接资产有效地填充场景。为了确保物理可用性,SceneFoundry 采用可微分引导函数来调节对象数量,防止关节碰撞,并为机器人导航保持足够的步行空间。大量实验表明,我们的框架可以在不同的场景类型和条件下生成结构有效、语义一致且功能交互的环境,从而实现可扩展的具体人工智能研究。项目页面:此 https URL ...

0 0 0 0 2026/01/23 arXiv:2601.05810v2 wonglliam

视觉-语言-动作(VLA)模型正在成为端到端自动驾驶系统的高效规划模型。然而,当前的工作主要依赖于稀疏轨迹注释的模仿学习,并没有充分利用它们作为生成模型的潜力。我们提出了生成场景推出(GeRo),这是一种 VLA 模型的即插即用框架,通过自回归推出策略联合执行基于语言的未来交通场景的规划和生成。首先,训练 VLA 模型,在规划、运动和语言任务的监督下将自我车辆和代理动态编码为潜在标记,从而促进文本对齐生成。接下来,GeRo 执行语言条件自回归生成。给定多视图图像、场景描述和自我行动问题,它会生成未来的潜在标记和文本响应来指导长期部署。推出一致性损失使用地面事实或伪标签稳定预测,减轻漂移并保持文本动作对齐。这种设计使 GeRo 能够执行时间一致、基于语言的部署,支持长期推理和多代理规划。在 Bench2Drive 上,GeRo 将驾驶分数和成功率分别提高了 +15.7 和 +26.2。通过将强化学习与生成式部署相结合,GeRo 实现了最先进的闭环和开环性能,展示了强大的零样本鲁棒性。这些结果凸显了生成式、语言条件推理作为更安全、更可解释的端到端自动驾驶基础的前景 ...

0 0 0 0 2026/01/23 arXiv:2601.11475v1 jane88

近年来,多模态检索已成为一个有前途但具有挑战性的研究方向。大多数现有的多模态检索研究侧重于捕获多模态数据中与其配对文本相似的信息,但往往忽略多模态数据中包含的补充信息。在这项研究中,我们提出了 CIEA,一种新颖的多模态检索方法,采用互补信息提取和对齐,将文档中的文本和图像转换为统一的潜在空间,并具有互补信息提取器,旨在识别和保留图像表示中的差异。我们使用两种互补对比损失来优化 CIEA,以确保语义完整性并有效捕获图像中包含的互补信息。大量的实验证明了 CIEA 的有效性,它比分而治之模型和通用密集检索模型都取得了显着的改进。我们提供消融研究、进一步讨论和案例研究,以突出 CIEA 取得的进步。为了促进社区的进一步研究,我们在此 https URL 发布了源代码 ...

0 0 0 0 2026/01/23 arXiv:2601.04571v1 hxh123

连续环境中的视觉语言导航 (VLN-CE) 要求智能体在自由形式的 3D 空间中遵循自然语言指令。现有的 VLN-CE 方法通常使用两阶段航路点规划框架,其中高级航路点预测器生成可导航航路点,然后导航规划器建议高级行动空间中的中间目标。然而,这种两阶段分解框架存在以下问题:(1)由于每个阶段的代理目标而导致全局次优化,以及(2)由于对第一阶段预测航路点的质量的强烈依赖而导致性能瓶颈。为了解决这些限制,我们提出了 DAgger 扩散导航(DifNav),这是一种端到端优化的 VLN-CE 策略,它将传统的两个阶段(即航路点生成和规划)统一为单个扩散策略。值得注意的是,DifNav 采用条件扩散策略来直接对连续导航空间中未来动作的多模式动作分布进行建模,消除了对航路点预测器的需求,同时使代理能够捕获多种可能的指令跟踪行为。为了解决模仿学习中的复合误差问题并增强长视距导航任务中的空间推理,我们采用 DAgger 进行在线策略训练和专家轨迹增强,并使用聚合数据进一步微调策略。这种方法显着提高了策略的稳健性及其从错误状态中恢复的能力。对基准数据集的大量实验表明,即使没有航路点预测器,所提出的方法在导航性能方面也大大优于以前最先进的基于两阶段航路点的模型。我们的代码位于:此 https URL ...

0 0 0 0 2026/01/23 arXiv:2508.09444v1 hll

人形社交机器人的面部表情生成能力对于实现自然的、类人的交互至关重要,对于增强人机交互的流畅性和情感表达的准确性起着至关重要的作用。目前,人形社交机器人的面部表情生成仍然依赖于预先编程的行为模式,这些行为模式是手动编码的,人力和时间成本很高。为了使类人机器人能够自主获得广义表达能力,需要通过自我训练培养学习类人表达的能力。为了应对这一挑战,我们设计了具有物理电子动画面部单元的高度仿生机器人面部,并开发了基于 KAN(柯尔莫哥洛夫-阿诺德网络)和注意力机制的端到端学习框架。与之前的人形社交机器人不同,我们还精心设计了一个基于面部运动原语专家策略的自动化数据收集系统来构建数据集。值得注意的是,据我们所知,这是第一个用于人形社交机器人的开源面部数据集。综合评估表明,我们的方法在不同的测试对象中实现了准确且多样化的面部模仿 ...

0 0 0 0 2026/01/23 arXiv:2510.23059v1 alex666

连续环境中的视觉语言导航(VLN-CE)需要一个实体代理按照自然语言指令在连续环境中导航至目标。虽然当前基于图的方法通过将环境抽象为拓扑图并将动作空间简化为航路点选择来提供有效的结构化方法,但它们在利用大规模数据和高级训练范例方面落后于基于大型视觉语言模型(LVLM)的方法。在本文中,我们试图通过引入 ETP-R1 来弥补这一差距,该框架将数据扩展和强化微调(RFT)范式应用于基于图的 VLN-CE 模型。为了打下坚实的基础,我们首先使用 Gemini API 构建高质量、大规模的预训练数据集。该数据集由拓扑轨迹的多样化、低幻觉指令组成,为我们基于图的策略将语言映射到拓扑路径提供了丰富的监督。通过统一 R2R 和 RxR 任务的数据进行联合预训练,这一基础得到进一步加强。在此基础上,我们引入了一个三阶段训练范例,最终首次将闭环在线 RFT 应用于基于图的 VLN-CE 模型,该模型由组相对策略优化 (GRPO) 算法提供支持。大量实验表明,我们的方法非常有效,在 R2R-CE 和 RxR-CE 基准测试的所有主要指标上都建立了新的最先进的性能。我们的代码可以在这个 https URL 上找到 ...

0 0 0 0 2026/01/23 arXiv:2512.20940v1 hll

通过 OCR 模型读取图像或扫描文档中的文本一直是研究人员长期关注的焦点。直观上,文本阅读被认为是一项简单的感知任务,现有的工作主要集中在构建丰富的数据工程以增强 SFT 能力。在这项工作中,我们观察到,与纯文本相比,即使是高级 OCR 模型在格式化文本(\emph{e.g.}、公式、表格等)中也表现出显着更高的熵,通常高出一个数量级。这些统计模式表明,先进的 OCR 模型在处理格式敏感文档时会面临较高的输出不确定性,这表明对不同阅读路径的推理可能会提高 OCR 性能。为了解决这个问题,我们提出了格式解耦强化学习(FD-RL),它利用高熵模式进行有针对性的优化。我们的方法采用基于熵的数据过滤策略来识别格式密集型实例,并采用针对不同格式类型定制的格式解耦奖励,从而实现格式级验证而不是 Token 级记忆。 FD-RL 在 OmniDocBench 上取得了 90.41 的平均得分,在这个非常受欢迎的基准测试上创下了端到端模型的新记录。更重要的是,我们对数据、训练、过滤和奖励策略进行全面的消融研究,彻底验证其有效性 ...

0 0 0 0 2026/01/23 arXiv:2601.08834v1 spw

为机器人面孔配备唱歌功能对于具有同理心的人机交互至关重要。然而,现有的机器人面部驾驶研究主要集中在对话或模仿静态表情上,难以满足持续的情感表达和歌唱连贯性的高要求。为了解决这个问题,我们提出了一种新颖的化身驱动框架来吸引机器人唱歌。我们首先利用嵌入广泛人类先验的肖像视频生成模型来合成生动的歌唱化身,提供可靠的表达和情感引导。随后,这些面部特征通过跨越广泛表达空间的面向语义的映射功能转移到机器人。此外,为了定量评估机器人歌唱的情感丰富度,我们提出了情感动态范围指标来衡量效价-唤醒空间内的情感宽度,揭示了广泛的情感范围对于吸引人的表演至关重要。综合实验证明,我们的方法在保持唇音同步的同时实现了丰富的情感表达,显着优于现有方法 ...

0 0 0 0 2026/01/23 arXiv:2601.02125v1 alex666