视觉语言动作模型(VLAS)因其在推进机器人操作方面的潜力而引起了极大的关注。但是,以前的方法主要依赖视觉模型(VLM)的一般理解能力来生成动作信号,通常忽略了嵌入在视觉观察中的丰富时间和因果结构。在本文中,我们提出了Univla,这是一种统一的和天然的多模式VLA模型,可自动重新调查将视觉,语言和动作信号作为离散 Token 序列建模 ...

0 0 0 0 2025/06/27 arXiv:2506.19850v1 蔡明方

视觉语言动作(VLA)模型通过整合用于机器人操作的动作产生模块来扩展视觉模型(VLM)。 VLA模型利用VLM在视觉感知和教学理解中的优势,在各种操纵任务中表现出有希望的概括。但是,需要高精度和准确性的应用程序揭示了性能差距而没有进一步适应 ...

0 0 0 0 2025/06/27 arXiv:2506.20966v1 蔡明方

我们提出WorldVla,这是一种自回归的行动世界模型,它统一了行动,图像理解和产生。我们的WorldVLA将视觉语言动作(VLA)模型和世界模型与一个单一框架相互融合。世界模型通过利用动作和图像理解来预测未来的图像,以学习环境的潜在物理学以改善动作的产生 ...

0 0 0 0 2025/06/27 arXiv:2506.21539v1 蔡明方

我们提出了M2-omni,这是一种尖端的开源Omni-Mllm,可实现GPT-4O的竞争性能。 M2-OMNI采用统一的多模式序列建模框架,该框架授权大型语言模型(LLMS)获得综合的跨模式理解和发电能力。具体而言,M2-OMNI可以处理音频,视频,图像和文本模式的任意组合,作为输入,生成与音频,图像或文本输出相互交织的多模式序列,从而启用高级和交互式的实时体验 ...

0 0 0 0 2025/06/27 arXiv:2502.18778v3 alex666

在线购物的稳定上升与日益复杂的ML和NLP模型的发展息息相关。虽然大多数用例都是作为专门监督的学习问题而施放的,但我们认为从业者将从更可转移的产品表示中受益匪浅。在这项工作中,我们基于对比型学习的最新发展,以培训FashionClip,这是一种类似于时装行业的剪辑模型 ...

0 0 1 2 2025/06/27 arXiv:2204.03972v4 jeft

配备了外部工具的大型语言模型(LLM)代理已经变得越来越强大,例如网络购物,自动化电子邮件答复和财务交易。但是,这些进步扩大了对抗攻击的风险,尤其是当代理可以访问敏感的外部功能时。然而,操纵LLM代理执行有针对性的恶意行动或调用特定工具仍然具有挑战性,因为这些代理在执行最终措施之前广泛地推理或计划 ...

0 0 0 0 2025/06/27 arXiv:2503.01908v2 hhhhh

推荐冷启动物品是推荐系统中的长期且根本的挑战。没有关于冷启动项目的任何历史互动,CF方案无法使用协作信号来推断这些项目的用户偏好。为了解决这个问题,已经进行了广泛的研究,以将侧面信息纳入CF方案 ...

0 0 0 0 2025/06/27 arXiv:2107.05315v3 llsun

Bird's-eye-View(BEV)表示在自主驾驶任务中起着至关重要的作用。尽管BEV生成的最新进展,但固有的噪声(源于传感器局限性和学习过程)在很大程度上仍未得到解决,从而导致次优的BEV表示,从而对下游任务的性能产生不利影响。为了解决这个问题,我们提出了Bevdiffuser,这是一个新型扩散模型,可以使用地面真实对象布局作为指导有效地确定BEV特征图 ...

0 0 0 0 2025/06/27 arXiv:2502.19694v2 dz

我们研究了如何在不同处理下利用个人潜在结果(POS)的结构相似性,以更好地估计有限样品中有条件的平均治疗效应。尤其是当尚不清楚治疗是否完全作用时,自然可以假设POS是相似的 - 然而,一些现有的治疗效果策略采用正则化方案,即使不存在并且无法完全利用共享结构,这些方案即使它也暗中鼓励异质性。在本文中,我们调查并比较了三种端到端的学习策略来克服这个问题 - 基于正则化,重新配置和灵活的多任务架构 - 每个编码诱导性偏见都有偏向于POS的共享行为 ...

0 0 0 0 2025/06/27 arXiv:2106.03765v2 zhr

在本报告中,我们提出了现有Triton编译器的扩展的Triton-Distribed,以克服分布式AI系统中的编程挑战。 Triton-Distribed是第一个支持分布式AI工作负载的本机重叠优化的编译器,从而很好地覆盖了来自不同框架的现有优化。首先,我们将符合OpenSHMEM标准的通信原始功率集成到编译器中 ...

0 0 0 0 2025/06/27 arXiv:2504.19442v3 lee_e

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)