arxiv的文档

arxiv 南京

个性签名 ...

OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows

我们推出了 OmniFlow，这是一种新颖的生成模型，专为任意生成任务（例如文本到图像、文本到音频和音频到图像合成）而设计。 OmniFlow 改进了文本到图像模型中使用的整流流 (RF) 框架，以处理多种模态的联合分布。它在文本到图像和文本到音频合成等各种任务上都优于以前的任意到任意模型 ...

0 0 0 0 2025/06/27 arXiv:2412.01169v2 alex666

TTM-RE: Memory-Augmented Document-Level Relation Extraction

文档级别的关系提取旨在对文档中任何两个实体之间的关联进行分类。我们发现，以前用于文档级关系提取的方法无效地利用噪声水平各异的大量训练数据的全部潜力。例如，在重新定位的基准数据集中，在大规模，较低质量，遥远监督的培训数据上接受培训的最先进方法通常不会比仅在较小，高质量的人为宣布的培训数据的培训的方法上表现更好 ...

0 0 0 0 2025/06/27 arXiv:2406.05906v1 DUNK_911

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

学习现实世界的机器人操作是具有挑战性的，尤其是在有限的示威活动时。现有的几次操纵方法通常依赖于模拟的增强数据或诸如抓地力和姿势估计的预制模块，这些模块在SIM到真实的差距上挣扎，并且缺乏可扩展性。尽管大规模的模仿预训练显示出希望，但将这些通用政策调整为数据筛选设置中的特定任务仍然没有探索 ...

0 0 0 0 2025/06/27 arXiv:2506.16211v1 蔡明方

CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

视觉语言动作（VLA）模型已成为一个重要的研究领域，展示了各种应用的巨大潜力。但是，它们在内窥镜机器人技术中的性能，尤其是在消化系统内执行动作的内窥镜胶囊机器人，但仍未得到探索。将VLA模型集成到内窥镜机器人中，可以在人类操作员和医疗设备之间进行更直观，有效的相互作用，从而提高诊断准确性和治疗结果 ...

0 0 0 0 2025/06/27 arXiv:2506.16263v1 蔡明方

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

有关视觉动作（VLA）模型的最新研究已从端到端的动作生成范式转变为涉及任务计划随后进行动作的管道，表明对各种复杂的长期长途操纵任务的性能提高。但是，现有方法在网络架构，计划范式，表示和培训数据源方面有很大差异，这使研究人员挑战确定绩效提高和组件的确切来源，以进一步改善。为了系统地研究不同计划范式和从网络体系结构和培训数据中隔离的代表的影响，在本文中，我们介绍VLA-OS，VLA-OS，一个统一的VLA体系结构系列，能够具有各种任务计划范例，并设计了一套全面的对照实验的套件，跨越多种多样的对象类别（刚性和可变形），视觉模态和3D和3D和3D和3D和3D和3D和3D和3D，终极效应（抓手和灵巧的手） ...

0 0 0 0 2025/06/27 arXiv:2506.17561v1 蔡明方

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

视觉语言动作（VLA）模型在视觉运动中表现出了显着的功能，但确保其在非结构化的现实世界环境中的稳健性仍然是一个持续的挑战。在本文中，我们通过采样和验证的镜头进行了测试时间缩放，以增强VLA的鲁棒性和概括。我们首先证明，动作误差与生成样本的数量之间的关系遵循一系列VLA的指定功率定律，表明存在推理时间缩放定律 ...

0 0 0 0 2025/06/27 arXiv:2506.17811v1 蔡明方

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

基于仿真的数据合成已成为增强现实世界机器人操作的强大范式。但是，由于两个挑战，现有的合成数据集仍然不足以进行强大的双人操作：（1）缺乏用于新任务的高效，可扩展的数据生成方法，以及（2）未能捕获现实世界中复杂性的过度简化模拟环境。我们提出Robotwin 2 ...

0 0 0 0 2025/06/27 arXiv:2506.18088v1 蔡明方

OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows

TTM-RE: Memory-Augmented Document-Level Relation Extraction

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation

Unified Vision-Language-Action Model

Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）