虽然专家混合 (MoE) 通过条件计算扩展容量,但 Transformer 缺乏用于知识查找的本机原语,迫使它们通过计算低效地模拟检索。为了解决这个问题,我们引入条件记忆作为补充稀疏轴,通过 Engram 实例化,Engram 是一个现代化用于 O(1) 查找的经典 $N$-gram 嵌入的模块。通过制定稀疏分配问题,我们发现了一个 U 形缩放定律,该定律优化了神经计算 (MoE) 和静态内存 (Engram) 之间的权衡。在这一定律的指导下,我们将 Engram 扩展到 27B 参数,在严格的 iso 参数和 iso-FLOPs MoE 基线上实现了卓越的性能。最值得注意的是,虽然内存模块预计有助于知识检索(例如,MMLU +3.4;CMMLU +4.0),但我们观察到在一般推理(例如,BBH +5.0;ARC-Challenge +3.7)和代码/数学领域〜(HumanEval +3.0;MATH +2.4)方面取得了更大的进步。机制分析表明,Engram 使骨干网的早期层免于静态重建,有效加深了网络的复杂推理能力。此外,通过将本地依赖项委托给查找,它可以释放全局上下文的注意力能力,从而大大提高长上下文检索(例如,多查询 NIAH:84.2 到 97.0)。最后,Engram 建立了基础设施感知效率:其确定性寻址支持运行时从主机内存预取,产生的开销可以忽略不计。我们将条件记忆视为下一代稀疏模型不可或缺的建模原语 ...

0 1 1 5 2026/01/13 arXiv:2601.07372v1 jesson

多模态大语言模型(MLLM)在视觉语言导航(VLN)中显示出巨大的潜力。然而,大量的培训费用严重阻碍了它们的实际发展。我们认识到导致开销的两个关键问题:(1)将长期历史观察结果处理为大量标记序列所带来的二次计算负担,以及(2)DAgger 中的探索效率权衡,即收集代理探索轨迹的数据聚合过程。虽然更多的探索可以产生有效的错误恢复轨迹来处理测试时间分布变化,但它是以训练和推理的轨迹长度更长为代价的。为了应对这些挑战,我们提出了 Efficient-VLN,一种训练高效的 VLN 模型。具体来说,为了减轻 Token 处理负担,我们设计了两种有效的内存机制:渐进式内存,为最近的观察动态分配更多 Token ,以及可学习递归内存,利用可学习 Token 的键值缓存作为内存状态。此外,我们引入了动态混合政策来平衡勘探效率的权衡。大量实验表明,Efficient-VLN 在 R2R-CE (64.2% SR) 和 RxR-CE (67.0% SR) 上实现了最先进的性能。至关重要的是,我们的模型仅消耗 282 H800 GPU 小时,这表明与最先进的方法相比,训练开销显着减少 ...

0 0 0 0 2026/01/11 arXiv:2512.10310v1 jesson

人类通过目光和身体的预期动作来预测 3D 世界将如何响应,这种能力对于机器人操作同样重要。我们引入了 PointWorld,一种大型预训练 3D 世界模型,它将共享 3D 空间中的状态和动作统一为 3D 点流:给定一个或几个 RGB-D 图像和一系列低级机器人动作命令,PointWorld 预测 3D 中响应给定动作的每像素位移。通过将动作表示为 3D 点流而不是具体实施例的动作空间(例如关节位置),该公式直接以机器人的物理几何形状为条件,同时无缝集成跨实施例的学习。为了训练我们的 3D 世界模型,我们在 3D 视觉和模拟环境的最新进展的支持下,在开放世界环境中构建了一个涵盖真实和模拟机器人操作的大型数据集,单臂 Franka 和双手类人机器人总计约 200 万条轨迹和 500 小时。通过对主干、动作表示、学习目标、部分可观察性、数据混合、域传输和缩放进行严格的大规模实证研究,我们提炼出大规模 3D 世界建模的设计原则。凭借实时(0.1秒)的推理速度,PointWorld可以有效地集成到模型预测控制(MPC)框架中进行操作。我们证明,单个预训练检查点使现实世界的 Franka 机器人能够执行刚体推动、可变形和铰接物体操作以及工具使用,无需任何演示或后期训练,所有这些都来自在野外捕获的单个图像。项目网站位于此 https URL ...

0 0 0 0 2026/01/09 arXiv:2601.03782v1 jesson

通过模仿学习训练的端到端架构通过扩展模型大小和数据来实现先进的自动驾驶,但在监督稀疏且因果理解有限的安全关键长尾场景中,性能仍然很脆弱。为了解决这个问题,我们引入了 Alpamayo-R1 (AR1),这是一种视觉-语言-动作模型 (VLA),它将因果链推理与轨迹规划相结合,以增强复杂驾驶场景中的决策。我们的方法具有三个关键创新:(1)因果链(CoC)数据集,通过混合自动标记和人机循环管道构建,产生与驾驶行为一致的基于决策、因果关联的推理轨迹; (2) 模块化 VLA 架构,结合了 Cosmos-Reason(一种针对物理 AI 应用预先训练的视觉语言模型)和基于扩散的轨迹解码器,可实时生成动态可行的计划; (3)多阶段训练策略,使用监督微调来引发推理和强化学习(RL),通过大型推理模型反馈来优化推理质量并强制推理-动作一致性。评估显示,与仅使用轨迹的基线相比,AR1 在挑战性情况下的规划精度提高了 12%,在闭环模拟中越野率降低了 35%,近距离遭遇率降低了 25%。根据大型推理模型批评家的测量,强化学习后训练将推理质量提高了 45%,推理-动作一致性提高了 37%。模型从 0.5B 参数缩放到 7B 参数显示出一致的改进。车载道路测试证实了实时性能(99 毫秒延迟)和成功的城市部署。通过将可解释推理与精确控制结合起来,AR1 展示了通往 4 级自动驾驶的实用路径。我们计划在未来的更新中发布 AR1 模型和 CoC 的子集 ...

0 0 0 0 2026/01/08 arXiv:2511.00088v2 jesson

自动驾驶长期以来一直依赖于模块化的“感知-决策-行动”管道,其中手工制作的界面和基于规则的组件经常在复杂或长尾场景中崩溃。它们的级联设计进一步传播感知错误,降低下游规划和控制能力。视觉-动作(VA)模型通过学习从视觉输入到动作的直接映射来解决一些局限性,但它们仍然不透明,对分布变化敏感,并且缺乏结构化推理或指令跟踪能力。大语言模型(LLM)和多模态学习的最新进展推动了视觉-语言-行动(VLA)框架的出现,该框架将感知与基于语言的决策相结合。通过统一视觉理解、语言推理和可操作的输出,VLA 提供了一条通向更可解释、更通用和更人性化的驾驶政策的途径。这项工作提供了自动驾驶新兴 VLA 景观的结构化特征。我们追溯了从早期 VA 方法到现代 VLA 框架的演变,并将现有方法组织成两个主要范式:端到端 VLA(将感知、推理和规划集成在单个模型中)和双系统 VLA(将缓慢的审议(通过 VLM)与快速、安全关键的执行(通过规划器)分开。在这些范式中,我们进一步区分了子类,例如文本与数字动作生成器以及显式与隐式指导机制。我们还总结了用于评估基于 VLA 的驾驶系统的代表性数据集和基准,并强调了关键挑战和开放方向,包括鲁棒性、可解释性和指令保真度。总体而言,这项工作旨在为推进与人类兼容的自动驾驶系统奠定坚实的基础 ...

0 0 0 0 2026/01/08 arXiv:2512.16760v2 jesson

视觉-语言-动作 (VLA) 模型正在推动机器人技术的一场革命,使机器能够理解指令并与物理世界交互。这个领域正在爆炸性地出现新的模型和数据集,使得跟上步伐既令人兴奋又充满挑战。这项调查为 VLA 景观提供了清晰、结构化的指南。我们将其设计为遵循研究人员的自然学习路径:我们从任何 VLA 模型的基本模块开始,通过关键里程碑追溯历史,然后深入研究定义近期研究前沿的核心挑战。我们的主要贡献是对五个最大挑战的详细分析:(1) 表示、(2) 执行、(3) 泛化、(4) 安全性和 (5) 数据集和评估。这种结构反映了多面手代理的发展路线图:建立基本的感知-行动循环,跨不同实施例和环境扩展能力,并最终确保值得信赖的部署——所有这些都由基本数据基础设施支持。对于每一个,我们都会回顾现有的方法并强调未来的机会。我们将本文定位为新手的基础指南和经验丰富的研究人员的战略路线图,其双重目标是加速学习和激发具身智能的新想法。我们的 \href{此 https URL}{项目页面} 上维护着该调查的实时版本,并不断更新 ...

0 0 0 0 2025/12/26 arXiv:2512.11362v3 jesson

视觉语言导航(VLN)是开发可以遵循自然语言指令进行自然语言指令以在复杂的现实世界环境中导航的重要任务。与传统方法相比,大型预审预周审经模型在VLN的最新进展已大大改善了概括和指导基础。然而,尽管经过思考链(COT)推理在视觉问题回答等静态任务中表现出了成功,但推理策略在导航中的作用却没有被驱散 ...

0 0 0 0 2025/12/12 arXiv:2505.11886v4 jesson

连续环境中的视觉和语言导航 (VLN-CE) 的最新进展利用多模态大语言模型 (MLLM) 来实现零样本导航。然而,现有方法通常依赖于全景观测和涉及航路点预测器的两级管道,这会引入显着的延迟并限制现实世界的适用性。在这项工作中,我们提出了 Fast-SmartWay,一种端到端零样本 VLN-CE 框架,消除了对全景视图和航点预测器的需求。我们的方法仅使用三个正面 RGB-D 图像与自然语言指令相结合,使 MLLM 能够直接预测动作。为了增强决策的鲁棒性,我们引入了一个不确定性感知推理模块,该模块集成了(i)用于避免局部最优的消歧模块,以及(ii)用于全局一致规划的未来-过去双向推理机制。在模拟和真实机器人环境中进行的实验表明,与全景视图基线相比,我们的方法显着减少了每步延迟,同时实现了有竞争力或卓越的性能。这些结果证明了 Fast-SmartWay 对于现实世界零样本体现导航的实用性和有效性 ...

0 0 0 0 2025/12/12 arXiv:2511.00933v1 jesson

视觉语言模型(VLM)已广泛应用于地面视觉语言导航(VLN)。然而,室外空中环境的巨大复杂性加剧了数据采集的挑战,并对无人机 (UAV) 提出了长视距轨迹规划要求,从而给空中 VLN 带来了新的复杂性。为了应对这些挑战,我们提出了一种数据高效的开放世界航空视觉语言导航(即OpenVLN)框架,该框架可以在有限的数据约束下执行语言引导飞行,并增强复杂航空环境中的长视距轨迹规划能力。具体来说,我们重新配置了一个强化学习框架来优化无人机导航任务的VLM,它可以在有限的训练数据下使用基于规则的策略来有效地微调VLM。同时,我们引入了用于轨迹合成的长视野规划器,该规划器通过基于价值的奖励动态生成精确的无人机动作。最后,我们在 TravelUAV 基准上进行了足够的导航实验,并在不同的奖励设置中扩展了数据集。与基线方法相比,我们的方法在成功率、Oracle 成功率和按路径长度加权的成功率方面表现出一致的性能提升高达 4.34%、6.19% 和 4.07%,验证了其在复杂空中环境中长视距无人机导航的部署功效 ...

0 0 0 0 2025/12/12 arXiv:2511.06182v2 jesson

随着具身智能成为人工智能研究的核心前沿,模拟平台必须超越低级物理交互,以捕捉复杂的、以人为中心的社会行为。我们介绍 FreeAskWorld,这是一个交互式模拟框架,它集成了大型语言模型 (LLM),用于高级行为规划和基于语义的交互,并以意图和社会认知理论为基础。我们的框架支持可扩展、真实的人类代理模拟,并包括为不同具体体现而定制的模块化数据生成管道,验证框架,我们将经典的视觉和语言导航(VLN)任务扩展为交互丰富的方向查询设置,其中代理可以主动寻找和解释导航指导。我们提出并公开发布 FreeAskWorld,这是一个大规模基准数据集,包含重建环境、六种不同的任务类型、16 个核心对象类别、63,429 个带注释的样本帧以及超过 17 小时的交互数据,以支持具体人工智能系统的训练和评估。我们在开环和闭环设置下对 VLN 模型和人类参与者进行基准测试。实验结果表明,在 FreeAskWorld 上微调的模型优于原始模型,从而增强了语义理解和交互能力。这些发现强调了基于社会的模拟框架在推动具体人工智能系统走向复杂的高层规划和更自然的人机交互方面的有效性。重要的是,我们的工作强调交互本身可以作为一种附加的信息方式 ...

0 0 0 0 2025/12/12 arXiv:2511.13524v1 jesson