一译 —— 文档和论文翻译、对照阅读、讨论和社区

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

可以在开放世界设置中执行一系列不同任务的通才机器人不仅能够理解完成目标所需的步骤，还可以处理任务执行期间的复杂说明，提示甚至反馈。复杂的说明（例如 ...

0 0 0 2025/09/01 arXiv:2502.19417v2 YONG

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

我们介绍了Internvl 3.5，这是一个新的开源多模型系列，可在Intervl系列中显着提高多功能性，推理能力和推理效率。一个关键的创新是Cascade增强学习（Cascade RL）框架，它通过两个阶段的过程增强了推理：离线RL稳定收敛和在线RL以进行精制对齐 ...

0 0 0 2025/09/01 arXiv:2508.18265v2 18242771717

SUP-NeRF: A Streamlined Unification of Pose Estimation and NeRF for Monocular 3D Object Reconstruction

分类对象的单程3D重建在很大程度上依赖于准确地感知每个对象的姿势。尽管基于梯度的优化在NERF框架中更新了初始姿势，但本文强调了单眼对象重建中的规模深度歧义会导致失败，而当初始姿势中度偏离了真实姿势时。因此，现有方法通常取决于第三方3D对象提供初始对象姿势，从而增加复杂性和泛化问题 ...

0 0 0 2025/09/01 arXiv:2403.15705v2 GUN

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration

视觉语言动作（VLA）模型引起了人们对其强大控制能力的越来越多的关注。但是，它们的高计算成本和低执行频率阻碍了它们对实时任务（例如机器人操纵和自动导航）的适用性。现有的VLA加速方法主要集中于结构优化，忽略了这些模型在顺序决策环境中运行的事实 ...

0 0 0 2025/09/01 arXiv:2506.12723v2 odenkkk

From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

人工智能（AI）正在重塑科学发现，从专门的计算工具发展成为自主研究伙伴。我们将代理科学定位为科学范式更广泛的AI中的关键阶段，在该范式中，AI系统从部分援助发展到完整的科学机构。代理AI由大语言模型（LLM），多模式系统和集成研究平台启用，显示了假设产生，实验设计，执行，分析和迭代精炼的能力 - 曾经被认为是独特的人类的行为 ...

0 0 0 2025/09/01 arXiv:2508.14111v1 KingXHJ

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

时间上下文对于机器人的操作至关重要，因为这些任务本质上是非马尔科夫人，但主流VLA模型通常会忽略它，并在长期依赖的任务中挣扎。认知科学表明，人类依靠工作记忆来缓冲短暂的表述以立即控制，而海马系统则保留了逐渐的情节细节和过去的长期记忆经验的语义要点。受这些机制的启发，我们提出了MemoryVla，这是一种用于长途机器人操纵的认知记忆框架 ...

0 0 0 2025/09/01 arXiv:2508.19236v1 KingXHJ

Concept Decomposition for Visual Exploration and Inspiration

一个创意的想法通常是由于从现有的视觉示例中转变，结合和修改捕获各种概念的想法而诞生的。但是，不能简单地将这个概念复制为一个整体，而灵感是通过检查概念的某些方面来实现的。因此，通常有必要将一个概念分为不同方面，以提供新的观点 ...

0 0 0 2025/09/01 arXiv:2305.18203v2 qiuyan

Video Multimethod Assessment Fusion (VMAF) on 360VR contents

本文介绍了主观实验和随后的分析，以验证最强大，最有影响力的视频质量指标之一，视频多方法评估融合（VMAF）的应用到360VR内容。 VMAF是最初旨在与传统2D内容一起使用的完整参考度量。因此，首先，不能认为它与使用头部安装的显示（HMD）可视化的方案的特殊性兼容 ...

0 0 0 2025/09/01 arXiv:1901.06279v1 ReLU

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）