视觉-语言-动作(VLA)模型通过大规模预训练实现了很强的泛化性,但现实世界的部署除了广泛的泛用性之外还需要专家级的任务熟练程度。现有的 VLA 模型的后训练方法通常是离线的、单个机器人的或特定于任务的,限制了有效的策略适应和现实世界交互中的可扩展学习。我们引入了可扩展在线后训练(SOP)系统,该系统可以直接在物理世界中对通用 VLA 模型进行在线、分布式、多任务后训练。 SOP 通过闭环架构将执行和学习紧密结合在一起,其中一组机器人不断地将策略经验和人工干预信号传输到集中式云学习器,并异步接收更新的策略。这种设计支持及时的策略修正,通过并行部署扩展经验收集,并在适应过程中保留通用性。 SOP 与训练后算法的选择无关;我们用交互式模仿学习(HG-DAgger)和强化学习(RECAP)来实例化它。在一系列现实世界的操作任务中,包括布料折叠、盒子组装和杂货补货,我们表明 SOP 显着提高了大型预训练 VLA 模型的性能,同时保持跨任务的单一共享策略。有效的后期培训可以在现实世界交互的数小时内实现,并且性能与车队中的机器人数量几乎呈线性关系。这些结果表明,将在线学习与车队规模部署紧密结合,有助于在物理世界中实现高效、可靠和可扩展的通用机器人策略的后期培训 ...
检索仪(RAG)通过利用外部知识来扎根大语言模型至关重要,而检索上下文有缺陷或不完整的信息通常会损害有效性。为了解决这个问题,基于知识图的抹布方法已演变为层次结构,将知识组织成多层摘要。但是,这些方法仍然面临着两个批判性的,没有解决的挑战:由于``语义岛''的脱节而存在高级概念上的摘要,缺乏交叉社区推理所需的明确关系;并且检索过程本身在结构上仍然不知道,通常会退化为效率低下的平面搜索,无法利用该图的丰富拓扑 ...
训练分类深度网络的现代实践涉及训练的终端阶段(TPT),该阶段从训练误差首次消失的时期开始;在 TPT 期间,训练误差实际上保持为零,而训练损失则被推向零。对于三个典型的深度网络架构和七个规范分类数据集,对 TPT 的直接测量揭示了一种普遍存在的归纳偏差,我们称之为神经崩溃,涉及四种深度互连的现象:(NC1)最后一层训练激活的跨示例类内变异性崩溃到零,因为各个激活本身崩溃到它们的类均值; (NC2) 类均值塌陷到单纯形等角紧框架 (ETF) 的顶点; (NC3) 在重新缩放之前,最后一层分类器崩溃为类均值,或者换句话说,崩溃为 Simplex ETF,即自对偶配置; (NC4) 对于给定的激活,分类器的决策简化为简单地选择具有最接近的训练类均值的类,即最近类中心 (NCC) 决策规则。 TPT 产生的对称且非常简单的几何结构带来了重要的好处,包括更好的泛化性能、更好的鲁棒性和更好的可解释性 ...
通过增加模型参数但在执行任务时稀疏地激活它们,使用专家混合 (MoE) 架构可显着提高大型语言模型 (LLM) 的性能,而不会增加推理成本。然而,由于专家数量不断增加而导致的内存消耗对这些模型在许多现实环境中的部署提出了挑战。我们的实证研究表明,一些专家在预训练期间编码了冗余知识。因此,我们提出了一种对相似专家进行分组和剪枝的方法,以提高模型的参数效率。我们通过修剪三种最先进的 MoE 架构(包括 Mixtral、Deepseek-MoE 和 Qwen)来验证我们方法的有效性。评估表明,我们的方法在一系列自然语言任务上优于其他模型修剪方法。我们将发布我们的代码以促进未来的研究 ...
流行的视觉-语言-动作 (VLA) 模型通常基于多模态大型语言模型 (MLLM) 构建,并在语义理解方面表现出卓越的熟练程度,但它们本质上缺乏推断物理世界动态的能力。因此,最近的方法已经转向世界模型,通常通过视频预测来制定;然而,这些方法常常缺乏语义基础,并且在处理预测错误时表现出脆弱性。为了协同语义理解与动态预测功能,我们提出了 InternVLA-A1。该模型采用统一的 Mixture-of-Transformers 架构,协调三位专家进行场景理解、视觉预见生成和动作执行。这些组件通过统一的屏蔽自注意力机制无缝交互。在 InternVL3 和 Qwen3-VL 的基础上,我们在 2B 和 3B 参数尺度上实例化 InternVLA-A1。我们在跨越 InternData-A1 和 Agibot-World 的混合合成真实数据集上预训练这些模型,覆盖超过 5.33 亿帧。这种混合训练策略有效地利用了合成模拟数据的多样性,同时最大限度地减少了模拟与真实的差距。我们通过 12 个现实世界的机器人任务和模拟基准评估了 InternVLA-A1。它的性能显着优于 pi0 和 GR00T N1.5 等领先模型,在日常任务方面实现了 14.5% 的提升,在动态设置(例如传送带分拣)方面实现了 40%-73.3% 的提升 ...
高维欧氏空间中的近似最近邻(ANN)查询是数据库系统中的关键运算符。对于此查询,量化是为压缩向量和减少内存消耗而开发的流行方法系列。最近,一种名为 RaBitQ 的方法在这些方法中实现了最先进的性能。在使用相同的压缩率时,它在准确性和效率方面产生了更好的经验性能,并提供了严格的理论保证。然而,该方法仅设计用于以高压缩率(32x)压缩向量,并且缺乏对通过使用更多空间来实现更高精度的支持。在本文中,我们引入了一种新的量化方法,通过扩展 RaBitQ 来解决这一限制。新方法继承了RaBitQ的理论保证,并在空间和误差界限之间的权衡方面实现了渐近最优性,正如本研究所证明的那样。此外,我们还提出了该方法的高效实现,使其能够应用于 ANN 查询,以减少空间和时间消耗。对现实世界数据集的大量实验证实,在使用相同数量的内存时,我们的方法在准确性和效率方面始终优于最先进的基线 ...
大型语言模型 (LLM) 的迅速出现引发了人工智能领域的深刻范式转变,带来了巨大的工程成功,对现代社会的影响日益增大。然而,当前领域中仍然存在一个关键的悖论:尽管具有实证效力,但我们对 LLM 的理论理解仍然处于不成比例的新生阶段,迫使这些系统在很大程度上被视为“黑匣子”。为了解决这种理论碎片化问题,本次调查提出了一种基于生命周期的统一分类法,将研究领域分为六个不同的阶段:数据准备、模型准备、训练、对齐、推理和评估。在此框架内,我们对驱动 LLM 绩效的基础理论和内部机制进行了系统回顾。具体来说,我们分析了核心理论问题,例如数据混合的数学合理性、各种架构的表示限制以及对齐算法的优化动态。超越当前的最佳实践,我们确定了关键的前沿挑战,包括合成数据自我改进的理论限制、安全保证的数学界限以及新兴智能的机械起源。通过将经验观察与严格的科学探究联系起来,这项工作为将 LLM 发展从工程启发法转向有原则的科学学科提供了一个结构化的路线图 ...
自回归模型 (ARM) 目前构成了大型语言模型 (LLM) 的主导范式。基于能量的模型(EBM)代表了另一类模型,该模型历来在 LLM 开发中不太流行,但自然地表征了培训后调整中的最佳策略。在本文中,我们提供了这两个模型类的统一视图。以概率链式法则为起点,我们在函数空间中建立了 ARM 和 EBM 之间的显式双射,并证明它对应于最大熵强化学习中软贝尔曼方程的特殊情况。基于这种双射,我们推导出 ARM 和 EBM 的监督学习之间的等价性。此外,我们通过提供理论误差范围来分析 EBM 到 ARM 的蒸馏。尽管基于下一个 Token 预测范式,但我们的结果提供了有关 ARM 提前计划能力的见解 ...
工作负载预测在云服务应用程序中至关重要,例如自动扩展和调度,对运营效率具有深远的影响。尽管基于 Transformer 的预测模型在一般任务中取得了显着的成功,但其计算效率往往达不到大规模云环境的严格要求。鉴于大多数工作负载系列都表现出复杂的周期性模式,在频域中解决这些挑战提供了巨大的优势。为此,我们提出了 Fremer,一种高效且有效的深度预测模型。 Fremer 满足三个关键要求:它表现出卓越的效率,优于大多数基于 Transformer 的预测模型;它实现了卓越的准确性,超越了工作负载预测中所有最先进的 (SOTA) 模型;它在多周期序列中表现出强大的性能。此外,我们还收集并开源了来自字节跳动云服务的四个高质量开源工作负载数据集,涵盖来自数千个计算实例的工作负载数据。对我们的专有数据集和公共基准进行的大量实验表明,Fremer 始终优于基线模型,与 SOTA 模型相比,MSE 平均提高 5.5%,MAE 平均提高 4.7%,SMAPE 平均提高 8.6%,同时降低参数规模和计算成本。此外,在基于 Kubernetes 的主动自动伸缩测试中,Fremer 平均延迟提高了 18.78%,资源消耗降低了 2.35%,凸显了其在实际应用中的实际效果 ...
以 3D 方式捕捉人类与其环境之间的交互对于机器人、图形和视觉领域的许多应用非常重要。最近从单个 RGB 图像重建 3D 人和物体的工作在帧之间没有一致的相对平移,因为它们假设固定的深度。此外,当物体被遮挡时,它们的性能会显着下降。在这项工作中,我们提出了一种新颖的方法来跟踪 3D 人类、物体、它们之间的接触以及它们在单个 RGB 相机的帧之间的相对平移,同时对严重遮挡具有鲁棒性。我们的方法建立在两个关键见解之上。首先,我们根据通过将 SMPL 预先拟合到视频序列而获得的每帧 SMPL 模型估计来调整人类和物体的神经场重建。这提高了神经重建的准确性并产生跨帧的连贯相对翻译。其次,可见帧中的人和物体运动提供了有价值的信息来推断被遮挡的物体。我们提出了一种新颖的基于 Transformer 的神经网络,它明确地使用对象可见性和人体运动来利用相邻帧来对被遮挡的帧进行预测。基于这些见解,我们的方法即使在遮挡情况下也能够稳健地跟踪人和物体。对两个数据集的实验表明,我们的方法比最先进的方法有了显着的改进。我们的代码和预训练模型可在以下位置获取:此 https URL ...