我们推出了 OmniFlow,这是一种新颖的生成模型,专为任意生成任务(例如文本到图像、文本到音频和音频到图像合成)而设计。 OmniFlow 改进了文本到图像模型中使用的整流流 (RF) 框架,以处理多种模态的联合分布。它在文本到图像和文本到音频合成等各种任务上都优于以前的任意到任意模型 ...

0 0 0 0 2025/06/27 arXiv:2412.01169v2 alex666

文档级别的关系提取旨在对文档中任何两个实体之间的关联进行分类。我们发现,以前用于文档级关系提取的方法无效地利用噪声水平各异的大量训练数据的全部潜力。例如,在重新定位的基准数据集中,在大规模,较低质量,遥远监督的培训数据上接受培训的最先进方法通常不会比仅在较小,高质量的人为宣布的培训数据的培训的方法上表现更好 ...

0 0 0 0 2025/06/27 arXiv:2406.05906v1 DUNK_911

学习现实世界的机器人操作是具有挑战性的,尤其是在有限的示威活动时。现有的几次操纵方法通常依赖于模拟的增强数据或诸如抓地力和姿势估计的预制模块,这些模块在SIM到真实的差距上挣扎,并且缺乏可扩展性。尽管大规模的模仿预训练显示出希望,但将这些通用政策调整为数据筛选设置中的特定任务仍然没有探索 ...

0 0 0 0 2025/06/27 arXiv:2506.16211v1 蔡明方

视觉语言动作(VLA)模型已成为一个重要的研究领域,展示了各种应用的巨大潜力。但是,它们在内窥镜机器人技术中的性能,尤其是在消化系统内执行动作的内窥镜胶囊机器人,但仍未得到探索。将VLA模型集成到内窥镜机器人中,可以在人类操作员和医疗设备之间进行更直观,有效的相互作用,从而提高诊断准确性和治疗结果 ...

0 0 0 0 2025/06/27 arXiv:2506.16263v1 蔡明方

有关视觉动作(VLA)模型的最新研究已从端到端的动作生成范式转变为涉及任务计划随后进行动作的管道,表明对各种复杂的长期长途操纵任务的性能提高。但是,现有方法在网络架构,计划范式,表示和培训数据源方面有很大差异,这使研究人员挑战确定绩效提高和组件的确切来源,以进一步改善。为了系统地研究不同计划范式和从网络体系结构和培训数据中隔离的代表的影响,在本文中,我们介绍VLA-OS,VLA-OS,一个统一的VLA体系结构系列,能够具有各种任务计划范例,并设计了一套全面的对照实验的套件,跨越多种多样的对象类别(刚性和可变形),视觉模态和3D和3D和3D和3D和3D和3D和3D和3D,终极效应(抓手和灵巧的手) ...

0 0 0 0 2025/06/27 arXiv:2506.17561v1 蔡明方

视觉语言动作(VLA)模型在视觉运动中表现出了显着的功能,但确保其在非结构化的现实世界环境中的稳健性仍然是一个持续的挑战。在本文中,我们通过采样和验证的镜头进行了测试时间缩放,以增强VLA的鲁棒性和概括。我们首先证明,动作误差与生成样本的数量之间的关系遵循一系列VLA的指定功率定律,表明存在推理时间缩放定律 ...

0 0 0 0 2025/06/27 arXiv:2506.17811v1 蔡明方

基于仿真的数据合成已成为增强现实世界机器人操作的强大范式。但是,由于两个挑战,现有的合成数据集仍然不足以进行强大的双人操作:(1)缺乏用于新任务的高效,可扩展的数据生成方法,以及(2)未能捕获现实世界中复杂性的过度简化模拟环境。我们提出Robotwin 2 ...

0 0 0 0 2025/06/27 arXiv:2506.18088v1 蔡明方

最近建立在预识别的视觉模型(VLM)上的视觉语言动作(VLA)模型已显示在操纵任务之间进行了强烈的概括。但是,它们仍然受到单帧观察范式的限制,并且由于较大的视力语言骨干线引入了实质性的计算成本和推理潜伏期,因此无法完全受益于汇总的多帧历史观察所提供的运动信息。我们提出了Cronusvla,这是一个统一的框架,通过有效的后训练阶段将单帧VLA模型扩展到多帧范式 ...

0 0 0 0 2025/06/27 arXiv:2506.19816v1 蔡明方

视觉语言动作模型(VLAS)因其在推进机器人操作方面的潜力而引起了极大的关注。但是,以前的方法主要依赖视觉模型(VLM)的一般理解能力来生成动作信号,通常忽略了嵌入在视觉观察中的丰富时间和因果结构。在本文中,我们提出了Univla,这是一种统一的和天然的多模式VLA模型,可自动重新调查将视觉,语言和动作信号作为离散 Token 序列建模 ...

0 0 0 0 2025/06/27 arXiv:2506.19850v1 蔡明方

视觉语言动作(VLA)模型通过整合用于机器人操作的动作产生模块来扩展视觉模型(VLM)。 VLA模型利用VLM在视觉感知和教学理解中的优势,在各种操纵任务中表现出有希望的概括。但是,需要高精度和准确性的应用程序揭示了性能差距而没有进一步适应 ...

0 0 0 0 2025/06/27 arXiv:2506.20966v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)