我们提出了 3DGS$^2$-TR,一种二阶优化器,用于加速 3D 高斯分布 (3DGS) 中的场景训练问题。与依赖显式或密集曲率表示的现有二阶方法不同,例如 3DGS-LM (Höllein 等人,2025) 或 3DGS2 (Lan 等人,2025),我们的方法仅使用 Hessian 矩阵的对角线来近似曲率,通过 Hutchinson 方法有效地实现。我们的方法完全无矩阵,并且与 ADAM (Kingma, 2024) 具有相同的复杂性,计算和内存成本均为 O(n)$。为了确保 3DGS 光栅化过程中存在强非线性时的稳定优化,我们引入了基于平方海林格距离的参数信赖域技术,对高斯参数进行正则化更新。在相同的参数初始化和无致密化的情况下,3DGS$^2$-TR 能够在标准数据集上实现更好的重建质量,与 ADAM 相比,训练迭代次数减少 50%,同时产生不到 1GB 的峰值 GPU 内存开销(比 ADAM 多 17%,比 3DGS-LM 少 85%),从而能够扩展到非常大的场景,并可能扩展到分布式训练设置 ...

0 0 0 0 2026/03/19 arXiv:2602.00395v1 jesson

3D 重建领域的最新进展在从密集的多视图图像中捕获高质量场景方面取得了显着进展,但在输入视图有限时却遇到了困难。已经采用了各种方法来应对这一挑战,包括正则化技术、语义先验和几何约束。最新的基于扩散的方法通过从新的相机姿势生成新颖的视图来增强训练数据,已经证明了显着的改进,超越了早期的正则化和基于先验的技术。尽管取得了这些进展,我们还是发现了这些最先进方法的三个关键局限性:已知视图外围之外的覆盖范围不足、生成的视图之间的几何不一致以及计算成本高昂的管道。我们引入了 GaMO(几何感知多视图外画),这是一个通过多视图外画重新制定稀疏视图重建的框架。 GaMO 不是生成新的视点,而是扩展了现有相机姿势的视野,这本质上保持了几何一致性,同时提供了更广泛的场景覆盖范围。我们的方法以零样本方式采用多视图调节和几何感知去噪策略,无需训练。 Replica 和 ScanNet++ 上的大量实验证明了跨 3、6 和 9 个输入视图的最先进的重建质量,在 PSNR 和 LPIPS 方面优于现有方法,同时比基于 SOTA 扩散的方法实现了 25 倍的加速,处理时间不到 10 分钟。项目页面:此 https URL ...

0 0 0 0 2026/03/19 arXiv:2512.25073v1 jesson

由于显着的时间变化、移动物体和复杂的场景动态,自动驾驶中的动态场景重建仍然是一个基本挑战。现有的前馈 3D 模型在静态重建方面表现出了强大的性能,但在捕捉动态运动方面仍然存在困难。为了解决这些限制,我们提出了 DynamicVGGT,这是一个统一的前馈框架,它将 VGGT 从静态 3D 感知扩展到动态 4D 重建。我们的目标是以动态且时间连贯的方式对前馈 3D 模型中的点运动进行建模。为此,我们在共享参考坐标系内联合预测当前和未来的点图,允许模型通过时间对应隐式学习动态点表示。为了有效地捕获时间依赖性,我们引入了运动感知时间注意(MTA)模块来学习运动连续性。此外,我们设计了一个动态 3D 高斯喷射头,它通过在场景流监督下使用可学习的运动标记来预测高斯速度来显式地模拟点运动。它通过连续 3D 高斯优化来细化动态几何形状。自动驾驶数据集上的大量实验表明,DynamicVGGT 在重建精度方面显着优于现有方法,在复杂驾驶场景下实现了鲁棒的前馈 4D 动态场景重建 ...

0 0 0 0 2026/03/19 arXiv:2603.08254v1 jesson

基础视频扩散模型 (VDM) 的最新进展取得了重大进展。然而,尽管生成的视频具有出色的视觉质量,但由于摄像机的可控性有限,并且从不同的摄像机轨迹观看时生成的内容不一致,因此从这些输出中重建一致的 3D 场景仍然具有挑战性。在本文中,我们提出了 WorldStereo,这是一种新颖的框架,通过两个专用的几何存储模块将相机引导的视频生成和 3D 重建联系起来。从形式上来说,全局几何存储器可以实现精确的相机控制,同时通过增量更新的点云注入粗略的结构先验。此外,空间立体记忆通过 3D 对应限制模型的注意力接受域,以关注记忆库中的细粒度细节。这些组件使 WorldStereo 能够在精确的摄像机控制下生成多视图一致的视频,从而促进高质量的 3D 重建。此外,基于分支的灵活控制 WorldStereo 显示了令人印象深刻的效率,受益于无需联合训练的分布匹配蒸馏 VDM 主干。相机引导视频生成和 3D 重建基准的大量实验证明了我们方法的有效性。值得注意的是,我们展示了 WorldStereo 作为一个强大的世界模型,以高保真 3D 结果处理不同的场景生成任务(无论是从透视图像还是全景图像开始)。模型将被发布 ...

0 0 0 0 2026/03/16 arXiv:2603.02049v1 jesson

由于对模拟与真实差距的鲁棒性有限以及针对目标部署环境(例如家庭、餐馆和工厂)定制训练策略的困难,视觉导航模型通常在现实动态环境中陷入困境。尽管使用 3D 高斯溅射 (GS) 的实到模拟导航模拟可以缓解这些挑战,但之前基于 GS 的工作仅考虑静态场景或由模拟器资产构建的非真实感人体障碍物,尽管动态环境中的安全导航很重要。为了解决这些问题,我们提出了 ReaDy-Go,这是一种新颖的实到模拟模拟管道,通过用动态人类 GS 障碍增强重建的静态 GS 场景来合成目标环境中逼真的动态场景,并使用生成的数据集训练导航策略。该管道提供了三个关键贡献:(1) 动态 GS 模拟器,将静态场景 GS 与人类动画模块集成,从而能够插入可动画的人类 GS 化身,并从 2D 轨迹合成合理的人体运动;(2) 导航数据集生成框架,利用模拟器以及专为动态 GS 表示和人类规划器设计的机器人专家规划器;(3) 针对模拟到真实间隙和移动障碍物的稳健导航策略。所提出的模拟器可以从任意角度生成数千个逼真的导航场景,并带有可动画的人类 GS 头像。在模拟和现实实验中,ReaDy-Go 的性能均优于目标环境的基线,即使在模拟到真实的传输之后以及存在移动障碍物的情况下,导航性能也得到了改善。此外,在看不见的环境中进行零样本模拟到真实部署表明了其泛化潜力。项目页面:此 https URL ...

0 0 0 0 2026/03/10 arXiv:2602.11575v2 jesson

在这项工作中,我们介绍了 HoloBrain-0,这是一个全面的视觉-语言-动作 (VLA) 框架,它弥补了基础模型研究和可靠的现实世界机器人部署之间的差距。我们系统的核心是一种新颖的 VLA 架构,它明确地结合了机器人实施例先验,包括多视图相机参数和运动学描述 (URDF),以增强 3D 空间推理并支持不同的实施例。我们通过可扩展的“训练前然后训练后”范例验证了这一设计,在 RoboTwin 2.0、LIBERO 和 GenieSim 等模拟基准上取得了最先进的结果,并且在具有挑战性的长视野现实世界操作任务中取得了出色的结果。值得注意的是,我们高效的 0.2B 参数变体可与更大的基线相媲美,从而实现低延迟的设备部署。为了进一步加速研究和实际采用,我们完全开源整个 HoloBrain 生态系统,其中包括:(1) 强大的预训练 VLA 基础;(2) 用于多个模拟套件和实际任务的后训练检查点;(3) RoboOrchard,用于数据管理、模型训练和部署的全栈 VLA 基础设施,与标准化数据收集协议一起,该版本为社区提供了一条完整的、可重复的高性能机器人操作路径 ...

0 0 0 0 2026/02/13 arXiv:2602.12062v1 jesson

操纵动态对象仍然是视觉-语言-动作(VLA)模型的一个开放挑战,尽管静态操纵具有很强的泛化性,但在需要快速感知、时间预测和连续控制的动态场景中却表现不佳。我们提出了 DynamicVLA,一个动态对象操作框架,通过三个关键设计集成了时间推理和闭环自适应:1)紧凑的 0.4B VLA,使用卷积视觉编码器进行空间高效、结构忠实的编码,从而实现快速多模态推理; 2) 连续推理,实现重叠推理和执行,以降低延迟并及时适应对象运动; 3)潜在感知动作流,通过强制时间对齐的动作执行来弥合感知与执行之间的差距。为了填补动态操作数据的缺失基础,我们引入了动态对象操作 (DOM) 基准,该基准从头开始构建,具有自动数据收集管道,可有效收集 2.8K 场景和 206 个对象的 200K 合成片段,并无需远程操作即可快速收集 2K 真实世界片段。广泛的评估证明了响应速度、感知和泛化方面的显着改进,将 DynamicVLA 定位为跨实施例的通用动态对象操作的统一框架 ...

0 0 0 0 2026/02/02 arXiv:2601.22153v1 jesson

缩放推动了视觉基础模型的最新进展,但由于异构传感器噪声、相机相关偏差以及嘈杂的跨源 3D 数据中的度量模糊性,将这种范式扩展到度量深度估计仍然具有挑战性。我们推出了 Metric Anything,这是一个简单且可扩展的预训练框架,可以从嘈杂、多样化的 3D 源中学习度量深度,而无需手动设计提示、特定于相机的建模或特定于任务的架构。我们方法的核心是稀疏度量提示,它是通过随机屏蔽深度图创建的,它作为一个通用接口,将空间推理与传感器和相机偏差分离。使用跨越 10000 个相机模型重建、捕获和渲染 3D 数据的约 2000 万个图像深度对,我们首次展示了公制深度轨道中清晰的缩放趋势。预训练模型擅长提示驱动任务,例如深度完成、超分辨率和雷达相机融合,而其精炼的无提示学生在单目深度估计、相机内在恢复、单/多视图度量 3D 重建和 VLA 规划方面取得了最先进的结果。我们还表明,使用 Metric Anything 的预训练 ViT 作为视觉编码器可以显着增强空间智能中的多模态大语言模型能力。这些结果表明,度量深度估计可以受益于驱动现代基础模型的相同缩放法则,从而建立一条通向可扩展且高效的现实世界度量感知的新路径。我们在此 http URL 开源 MetricAnything 以支持社区研究 ...

0 0 0 0 2026/02/02 arXiv:2601.22054v1 jesson

视觉-语言-动作 (VLA) 模型在机器人操作方面实现了很强的泛化,但在很大程度上仍然是反应性的和以 2D 为中心的,这使得它们在需要精确 3D 推理的任务中不可靠。我们提出了 GeoPredict,这是一个几何感知的 VLA 框架,它通过预测运动学和几何先验增强了连续动作策略。 GeoPredict 引入了一个轨迹级模块,用于对运动历史进行编码并预测机器人手臂的多步 3D 关键点轨迹,以及一个预测性 3D 高斯几何模块,用于通过沿着未来关键点轨迹的轨迹引导细化来预测工作空间几何形状。这些预测模块专门通过基于深度的渲染充当训练时监督,而推理仅需要轻量级的附加查询标记,而无需调用任何 3D 解码。 RoboCasa Human-50、LIBERO 和现实世界操作任务的实验表明,GeoPredict 始终优于强大的 VLA 基线,特别是在几何密集型和空间要求较高的场景中 ...

0 0 0 0 2026/01/28 arXiv:2512.16811v1 jesson

以前馈方式从未设置的稀疏视图中重建和理解 3D 场景仍然是 3D 计算机视觉中的一项具有挑战性的任务。最近的方法使用每像素 3D 高斯分布进行重建,然后使用 2D 到 3D 特征提升阶段进行场景理解。然而,它们生成过多的冗余高斯,导致高内存开销和次优的多视图特征聚合,导致新视图合成和场景理解性能下降。我们提出了 C3G,一种新颖的前馈框架,仅在必要的空间位置估计紧凑的 3D 高斯,最大限度地减少冗余,同时实现有效的特征提升。我们引入了可学习的标记,通过自注意力聚合多视图特征来指导高斯生成,确保每个高斯集成跨视图的相关视觉特征。然后,我们利用学习到的注意力模式进行高斯解码,以有效提升特征。关于无姿势新颖视图合成、3D 开放词汇分割和视图不变特征聚合的大量实验证明了我们方法的有效性。结果表明,紧凑但具有几何意义的表示足以进行高质量的场景重建和理解,与现有方法相比,实现卓越的内存效率和特征保真度 ...

0 0 0 0 2026/01/28 arXiv:2512.04021v1 jesson