一译 —— 文档和论文翻译、对照阅读、讨论和社区

EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

在内窥镜程序中，异常区域和循环切割标记物的自主跟踪可以显着减轻内镜医生的认知负担。但是，基于模型的传统管道对于每个组件都是脆弱的（例如 ...

0 0 0 2025/05/22 arXiv:2505.15206v1 蔡明方

Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control

基于深度神经网络（DNN）的策略模型，例如视觉语言动作（VLA）模型，在从多模式输入中自动化复杂决策方面表现出色。但是，扩展这些模型会大大增加计算开销，从而使资源受限设置（如机器人操纵和自动驾驶）中的部署变得复杂。为了解决这个问题，我们提出了显着意识的量化模仿学习（SQIL），该学习将量化感知培训与针对关键任务国家的选择性损失加权策略相结合 ...

0 0 0 2025/05/22 arXiv:2505.15304v1 蔡明方

FLARE: Robot Learning with Implicit World Modeling

我们介绍$ \ textbf {f} $ uture $ \ textbf {la} $ tent $ \ textbf {re} $表现对准（$ \ textbf {flare} $），这是一个将预测性潜在的潜在世界建模集成到机器人策略学习中的新颖框架。通过将扩散 Transformer 的特征与未来观察结果的潜在嵌入在一起，$ \ textbf {flare} $使扩散的 Transforme ...

0 0 0 2025/05/22 arXiv:2505.15659v1 蔡明方

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

视觉语言动作（VLA）模型的概括能力是看不见的任务对于在开放世界中实现通用机器人操纵至关重要。但是，现有VLA模型的交叉任务概括功能仍然显着尚未得到充满异常的影响。为了解决这一差距，我们介绍了Agnostos，这是一种新型的模拟基准测试，旨在严格评估操作中的交叉任务零射门概括 ...

0 0 0 2025/05/22 arXiv:2505.15660v1 蔡明方

OmniNet: A unified architecture for multi-modal multi-task learning

变形金刚是一种普遍使用的神经网络架构，尤其是用于语言理解。我们介绍了一种扩展的统一体系结构，该架构可用于涉及图像，文本，视频等各种模式的任务。我们提出了一种时空缓存机制，该机制可在与时间输入序列相对应的隐藏状态外学习输入的空间维度 ...

0 0 0 2025/05/22 arXiv:1907.07804v2 taofeng

From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems

基础模型（FMS）越来越多地用于在体现的代理中桥接语言和动作，但是不同FM集成策略的操作特征仍然易于探索 - 特别是对于不断变化的环境中的复杂教学和多功能动作生成的复杂说明。本文研究了用于构建机器人系统的三个范式：端到端视觉语言动作（VLA）模型，这些模型隐含地整合感知和计划，以及结合了视觉语言模型（VLMS）或多模型模型（LLMS）的模块化管道。我们通过两个集中的案例研究评估了这些范式：一项复杂 ...

0 0 0 2025/05/22 arXiv:2505.15685v1 蔡明方

DFRot: Achieving Outlier-Free and Massive Activation-Free for Rotated LLMs with Refined Rotation

旋转激活和权重矩阵以减少大语模型（LLMS）中离群值的影响，最近引起了极大的关注，尤其是在模型量化的背景下。先前的研究表明，在低精确的量化场景中，例如4位权重和4位激活（W4A4），随机的Hadamard变换可以比随机正交变换获得明显更高的准确性。值得注意的是，这种现象背后的原因仍然未知 ...

0 0 0 2025/05/22 arXiv:2412.00648v2 xiximayou

Latent Diffusion Planning for Imitation Learning

模仿学习的最新进展是通过策略体系结构来扩展到复杂的视觉运动任务，多模式分布和大型数据集的。但是，这些方法通常依赖于大量专家演示中的学习。为了解决这些缺点，我们提出了潜在扩散计划（LDP），该计划是由计划器组成的模块化方法，该方法可以利用无动作的演示，以及一个可以利用次优数据的逆动力学模型，两者都可以在学习的潜在空间上运行 ...

0 0 0 2025/05/22 arXiv:2504.16925v1 chenlei

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）