基于仿真的数据合成已成为增强现实世界机器人操作的强大范式。但是,由于两个挑战,现有的合成数据集仍然不足以进行强大的双人操作:(1)缺乏用于新任务的高效,可扩展的数据生成方法,以及(2)未能捕获现实世界中复杂性的过度简化模拟环境。我们提出Robotwin 2 ...
0 0 0 2025/06/27 arXiv:2506.18088v1 蔡明方
最近建立在预识别的视觉模型(VLM)上的视觉语言动作(VLA)模型已显示在操纵任务之间进行了强烈的概括。但是,它们仍然受到单帧观察范式的限制,并且由于较大的视力语言骨干线引入了实质性的计算成本和推理潜伏期,因此无法完全受益于汇总的多帧历史观察所提供的运动信息。我们提出了Cronusvla,这是一个统一的框架,通过有效的后训练阶段将单帧VLA模型扩展到多帧范式 ...
0 0 0 2025/06/27 arXiv:2506.19816v1 蔡明方
视觉语言动作模型(VLAS)因其在推进机器人操作方面的潜力而引起了极大的关注。但是,以前的方法主要依赖视觉模型(VLM)的一般理解能力来生成动作信号,通常忽略了嵌入在视觉观察中的丰富时间和因果结构。在本文中,我们提出了Univla,这是一种统一的和天然的多模式VLA模型,可自动重新调查将视觉,语言和动作信号作为离散 Token 序列建模 ...
0 0 0 2025/06/27 arXiv:2506.19850v1 蔡明方
视觉语言动作(VLA)模型通过整合用于机器人操作的动作产生模块来扩展视觉模型(VLM)。 VLA模型利用VLM在视觉感知和教学理解中的优势,在各种操纵任务中表现出有希望的概括。但是,需要高精度和准确性的应用程序揭示了性能差距而没有进一步适应 ...
0 0 0 2025/06/27 arXiv:2506.20966v1 蔡明方
我们提出WorldVla,这是一种自回归的行动世界模型,它统一了行动,图像理解和产生。我们的WorldVLA将视觉语言动作(VLA)模型和世界模型与一个单一框架相互融合。世界模型通过利用动作和图像理解来预测未来的图像,以学习环境的潜在物理学以改善动作的产生 ...
0 0 1 2025/06/27 arXiv:2506.21539v1 蔡明方
我们提出了M2-omni,这是一种尖端的开源Omni-Mllm,可实现GPT-4O的竞争性能。 M2-OMNI采用统一的多模式序列建模框架,该框架授权大型语言模型(LLMS)获得综合的跨模式理解和发电能力。具体而言,M2-OMNI可以处理音频,视频,图像和文本模式的任意组合,作为输入,生成与音频,图像或文本输出相互交织的多模式序列,从而启用高级和交互式的实时体验 ...
0 0 0 2025/06/27 arXiv:2502.18778v3 alex666
在线购物的稳定上升与日益复杂的ML和NLP模型的发展息息相关。虽然大多数用例都是作为专门监督的学习问题而施放的,但我们认为从业者将从更可转移的产品表示中受益匪浅。在这项工作中,我们基于对比型学习的最新发展,以培训FashionClip,这是一种类似于时装行业的剪辑模型 ...
0 0 2 2025/06/27 arXiv:2204.03972v4 jeft
配备了外部工具的大型语言模型(LLM)代理已经变得越来越强大,例如网络购物,自动化电子邮件答复和财务交易。但是,这些进步扩大了对抗攻击的风险,尤其是当代理可以访问敏感的外部功能时。然而,操纵LLM代理执行有针对性的恶意行动或调用特定工具仍然具有挑战性,因为这些代理在执行最终措施之前广泛地推理或计划 ...
0 0 0 2025/06/27 arXiv:2503.01908v2 hhhhh

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)