一译 —— 文档和论文翻译、对照阅读、讨论和社区

FLARE: Robot Learning with Implicit World Modeling

我们介绍$ \ textbf {f} $ uture $ \ textbf {la} $ tent $ \ textbf {re} $表现对准（$ \ textbf {flare} $），这是一个将预测性潜在的潜在世界建模集成到机器人策略学习中的新颖框架。通过将扩散 Transformer 的特征与未来观察结果的潜在嵌入在一起，$ \ textbf {flare} $使扩散的 Transforme ...

0 0 0 2025/05/22 arXiv:2505.15659v1 蔡明方

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

视觉语言动作（VLA）模型的概括能力是看不见的任务对于在开放世界中实现通用机器人操纵至关重要。但是，现有VLA模型的交叉任务概括功能仍然显着尚未得到充满异常的影响。为了解决这一差距，我们介绍了Agnostos，这是一种新型的模拟基准测试，旨在严格评估操作中的交叉任务零射门概括 ...

0 0 0 2025/05/22 arXiv:2505.15660v1 蔡明方

OmniNet: A unified architecture for multi-modal multi-task learning

变形金刚是一种普遍使用的神经网络架构，尤其是用于语言理解。我们介绍了一种扩展的统一体系结构，该架构可用于涉及图像，文本，视频等各种模式的任务。我们提出了一种时空缓存机制，该机制可在与时间输入序列相对应的隐藏状态外学习输入的空间维度 ...

0 0 0 2025/05/22 arXiv:1907.07804v2 taofeng

From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems

基础模型（FMS）越来越多地用于在体现的代理中桥接语言和动作，但是不同FM集成策略的操作特征仍然易于探索 - 特别是对于不断变化的环境中的复杂教学和多功能动作生成的复杂说明。本文研究了用于构建机器人系统的三个范式：端到端视觉语言动作（VLA）模型，这些模型隐含地整合感知和计划，以及结合了视觉语言模型（VLMS）或多模型模型（LLMS）的模块化管道。我们通过两个集中的案例研究评估了这些范式：一项复杂 ...

0 0 0 2025/05/22 arXiv:2505.15685v1 蔡明方

DFRot: Achieving Outlier-Free and Massive Activation-Free for Rotated LLMs with Refined Rotation

旋转激活和权重矩阵以减少大语模型（LLMS）中离群值的影响，最近引起了极大的关注，尤其是在模型量化的背景下。先前的研究表明，在低精确的量化场景中，例如4位权重和4位激活（W4A4），随机的Hadamard变换可以比随机正交变换获得明显更高的准确性。值得注意的是，这种现象背后的原因仍然未知 ...

0 0 0 2025/05/22 arXiv:2412.00648v2 xiximayou

Latent Diffusion Planning for Imitation Learning

模仿学习的最新进展是通过策略体系结构来扩展到复杂的视觉运动任务，多模式分布和大型数据集的。但是，这些方法通常依赖于大量专家演示中的学习。为了解决这些缺点，我们提出了潜在扩散计划（LDP），该计划是由计划器组成的模块化方法，该方法可以利用无动作的演示，以及一个可以利用次优数据的逆动力学模型，两者都可以在学习的潜在空间上运行 ...

0 0 0 2025/05/22 arXiv:2504.16925v1 chenlei

Mean Flows for One-step Generative Modeling

我们为一步生成建模提供了一个有效的有效框架。我们介绍了平均速度的概念以表征流场，与通过流匹配方法建模的瞬时速度相反。得出并用于指导神经网络训练之间的平均速度和瞬时速度之间定义明确的身份 ...

0 0 0 2025/05/22 arXiv:2505.13447v1 wenzhanwujian

Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models

了解大语言模型（LLM）的内部表示可以帮助解释模型的行为，并验证其与人类价值观的一致性。鉴于LLM的能力产生了人为理解的文本，我们建议利用模型本身以自然语言来解释其内部表示。我们介绍了一个名为PatchScopes的框架，并展示如何使用它来回答有关LLM计算的广泛问题 ...

0 0 0 2025/05/22 arXiv:2401.06102v4 YGking

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）