大规模专家混合 (MoE) 模型依赖于 emph{专家并行性} 来进行高效的训练和推理,这将专家分散到不同的设备上,并需要进行分布式数据洗牌以将每个 Token 路由到指定的专家。然而,现有的通信库处理这种改组的能力​​很差。其开销可占端到端运行时间的一半以上。我们提出了 FUSCO,一个 MoE 友好的通信库,基于 MoE 的专家主要数据布局与通信操作预期的设备主要布局冲突的关键观察,通过融合数据转换和通信实现高效、轻量级的数据洗牌。 FUSCO 捕获细粒度的数据布局,然后由管道通信引擎进行解释,该引擎沿着通信路径高效地执行所需的改组。轻量级规划和负载平衡机制通过消除冗余通信和分散流量来补充引擎。对代表性基准的评估表明,FUSCO 比 NCCL 和 DeepEP(最先进的 MoE 通信库)分别实现了高达 3.84$\times$ 和 2.01$\times$ 的加速。在端到端MoE任务中,与NCCL和DeepEP相比,FUSCO将训练延迟降低了1.17-1.39$\times$和1.10-1.19$\times$,并将推理中的第一个 Token 生成延迟降低了1.09-1.25$\times$和1.06-1.16$\times$ ...

0 0 0 0 2026/03/19 arXiv:2512.22036v1 yuanjl

我们提出了 3DGS$^2$-TR,一种二阶优化器,用于加速 3D 高斯分布 (3DGS) 中的场景训练问题。与依赖显式或密集曲率表示的现有二阶方法不同,例如 3DGS-LM (Höllein 等人,2025) 或 3DGS2 (Lan 等人,2025),我们的方法仅使用 Hessian 矩阵的对角线来近似曲率,通过 Hutchinson 方法有效地实现。我们的方法完全无矩阵,并且与 ADAM (Kingma, 2024) 具有相同的复杂性,计算和内存成本均为 O(n)$。为了确保 3DGS 光栅化过程中存在强非线性时的稳定优化,我们引入了基于平方海林格距离的参数信赖域技术,对高斯参数进行正则化更新。在相同的参数初始化和无致密化的情况下,3DGS$^2$-TR 能够在标准数据集上实现更好的重建质量,与 ADAM 相比,训练迭代次数减少 50%,同时产生不到 1GB 的峰值 GPU 内存开销(比 ADAM 多 17%,比 3DGS-LM 少 85%),从而能够扩展到非常大的场景,并可能扩展到分布式训练设置 ...

0 0 0 0 2026/03/19 arXiv:2602.00395v1 jesson

3D 重建领域的最新进展在从密集的多视图图像中捕获高质量场景方面取得了显着进展,但在输入视图有限时却遇到了困难。已经采用了各种方法来应对这一挑战,包括正则化技术、语义先验和几何约束。最新的基于扩散的方法通过从新的相机姿势生成新颖的视图来增强训练数据,已经证明了显着的改进,超越了早期的正则化和基于先验的技术。尽管取得了这些进展,我们还是发现了这些最先进方法的三个关键局限性:已知视图外围之外的覆盖范围不足、生成的视图之间的几何不一致以及计算成本高昂的管道。我们引入了 GaMO(几何感知多视图外画),这是一个通过多视图外画重新制定稀疏视图重建的框架。 GaMO 不是生成新的视点,而是扩展了现有相机姿势的视野,这本质上保持了几何一致性,同时提供了更广泛的场景覆盖范围。我们的方法以零样本方式采用多视图调节和几何感知去噪策略,无需训练。 Replica 和 ScanNet++ 上的大量实验证明了跨 3、6 和 9 个输入视图的最先进的重建质量,在 PSNR 和 LPIPS 方面优于现有方法,同时比基于 SOTA 扩散的方法实现了 25 倍的加速,处理时间不到 10 分钟。项目页面:此 https URL ...

0 0 0 0 2026/03/19 arXiv:2512.25073v1 jesson

现代大规模推荐系统严重依赖用户交互历史序列来增强模型性能。大型语言模型和顺序建模技术(尤其是类似 Transformer 的架构)的出现最近带来了重大进步(例如 HSTU、SIM 和 TWIN 模型)。虽然扩展到超长用户历史记录(10k 到 100k 项)通常会提高模型性能,但它也会对行业规模的推荐系统中的延迟、每秒查询次数 (QPS) 和 GPU 成本带来重大挑战。现有模型无法充分解决这些工业可扩展性问题。在本文中,我们提出了一种新颖的两阶段建模框架,即虚拟序列目标注意力(VISTA),它将传统的目标注意力从候选项目到用户历史项目分解为两个不同的阶段:(1)用户历史摘要为数百个 Token ;接下来是(2)候选项目对这些标记的关注。然后,这些摘要标记嵌入被缓存在存储系统中,然后用作下游模型训练和推理的序列特征。这种新颖的可扩展性设计使 VISTA 能够扩展到终身用户历史记录(最多一百万个项目),同时保持下游培训和推理成本固定,这在行业中至关重要。我们的方法实现了离线和在线指标的显着改进,并已成功部署在为数十亿用户提供服务的行业领先的推荐平台上 ...

0 0 0 0 2026/03/19 arXiv:2510.22049v2 llsun

语言知识对于场景文本识别有很大好处。然而,如何在端到端深度网络中有效地建模语言规则仍然是一个研究挑战。在本文中,我们认为语言模型的有限能力来自于:1)隐式语言建模; 2)单向特征表示; 3)带有噪声输入的语言模型。相应地,我们提出了一种用于场景文本识别的自主、双向和迭代的 ABINet。首先,自治建议阻止视觉和语言模型之间的梯度流,以明确执行语言建模。其次,基于双向特征表示,提出了一种新颖的双向完形填空网络(BCN)作为语言模型。第三,我们提出了一种语言模型迭代校正的执行方式,可以有效减轻噪声输入的影响。此外,基于迭代预测的集合,我们提出了一种自训练方法,可以有效地从未标记的图像中学习。大量实验表明,ABINet 在低质量图像上具有优势,并在多个主流基准测试上取得了state-of-the-art的结果。此外,通过集成自训练训练的 ABINet 在实现人类级别的识别方面显示出有希望的改进。代码可从此 https URL 获取 ...

0 0 0 0 2026/03/19 arXiv:2103.06495v1 sunxx772

这项工作提出了 AnyDoor,一种基于扩散的图像生成器,能够以和谐的方式将目标对象传送到用户指定位置的新场景。我们的模型无需调整每个对象的参数,只需训练一次,即可在推理阶段轻松推广到不同的对象场景组合。这种具有挑战性的零样本设置需要对某个对象进行充分的表征。为此,我们用细节特征来补充常用的身份特征,这些细节特征经过精心设计,以保持纹理细节,同时允许多种局部变化(例如,照明、方向、姿势等),支持对象与不同环境的良好融合。我们进一步建议借用视频数据集中的知识,我们可以观察单个对象的各种形式(即沿时间轴),从而获得更强的模型通用性和鲁棒性。大量的实验证明了我们的方法相对于现有替代方案的优越性,以及它在现实应用中的巨大潜力,例如虚拟试穿和物体移动。项目页面就是这个https URL ...

0 0 0 0 2026/03/19 arXiv:2307.09481v2 wtyang

长期以来,具体化导航一直被特定于任务的架构所分割。我们推出了 ABot-N0,这是一个统一的视觉-语言-动作 (VLA) 基础模型,它实现了 5 个核心任务的“大统一”:点目标、对象目标、指令跟踪、POI 目标和人员跟踪。 ABot-N0 采用分层“大脑动作”架构,将用于语义推理的基于 LLM 的认知大脑与用于精确、连续轨迹生成的基于流匹配的动作专家配对。为了支持大规模学习,我们开发了 ABot-N0 数据引擎,在 7,802 个高保真 3D 场景 (10.7 $\text{km}^2$) 中整理了 1690 万条专家轨迹和 500 万个推理样本。 ABot-N0 在 7 个基准测试中实现了新的 SOTA 性能,显着优于专用模型。此外,我们的代理导航系统集成了具有分层拓扑内存的规划器,可在动态的现实环境中实现稳健的长视野任务 ...

0 0 0 0 2026/03/19 arXiv:2602.11598v1 mangogo

由于显着的时间变化、移动物体和复杂的场景动态,自动驾驶中的动态场景重建仍然是一个基本挑战。现有的前馈 3D 模型在静态重建方面表现出了强大的性能,但在捕捉动态运动方面仍然存在困难。为了解决这些限制,我们提出了 DynamicVGGT,这是一个统一的前馈框架,它将 VGGT 从静态 3D 感知扩展到动态 4D 重建。我们的目标是以动态且时间连贯的方式对前馈 3D 模型中的点运动进行建模。为此,我们在共享参考坐标系内联合预测当前和未来的点图,允许模型通过时间对应隐式学习动态点表示。为了有效地捕获时间依赖性,我们引入了运动感知时间注意(MTA)模块来学习运动连续性。此外,我们设计了一个动态 3D 高斯喷射头,它通过在场景流监督下使用可学习的运动标记来预测高斯速度来显式地模拟点运动。它通过连续 3D 高斯优化来细化动态几何形状。自动驾驶数据集上的大量实验表明,DynamicVGGT 在重建精度方面显着优于现有方法,在复杂驾驶场景下实现了鲁棒的前馈 4D 动态场景重建 ...

0 0 0 0 2026/03/19 arXiv:2603.08254v1 jesson

Claude 代理技能的快速增长提出了如何有效利用、管理和扩展代理技能生态系统的核心问题。在本文中,我们提出了 AgentSkillOS,这是第一个用于技能选择、编排和生态系统级管理的原则框架。 AgentSkillOS 包括两个阶段:(i)管理技能,通过节点级递归分类将技能组织成能力树,以实现高效发现; (ii) 解决任务,通过基于 DAG 的管道检索、编排和执行多种技能。为了评估智能体调用技能的能力,我们构建了涵盖五个类别的 30 个富含工件的任务的基准:数据计算、文档创建、动态视频、视觉设计和网络交互。我们使用基于 LLM 的成对评估来评估任务输出的质量,并通过 Bradley-Terry 模型汇总结果以产生统一的质量分数。跨三个技能生态系统规模(200 到 200K 技能)的实验表明,基于树的检索有效地近似了预言机技能选择,并且即使给出相同的技能集,基于 DAG 的编排也大大优于本机平面调用。我们的研究结果证实,结构化写作是释放技能潜力的关键。我们的 GitHub 存储库位于:此 https URL ...

0 0 0 0 2026/03/19 arXiv:2603.02176v1 树叶无声

从像 Transformer 这样的大型自回归模型进行推理很慢 - 解码 K 个 Token 需要模型的 K 个串行运行。在这项工作中,我们引入了推测性解码——一种通过并行计算多个标记来更快地从自回归模型中采样而无需对输出进行任何更改的算法。我们方法的核心在于以下观察:(1)硬语言建模任务通常包括更容易的子任务,可以通过更高效的模型很好地近似,以及(2)使用推测执行和新颖的采样方法,我们可以通过在近似模型的输出上并行运行它们,从而更快地从大型模型中进行精确解码,可能同时生成多个标记,并且无需更改分布。我们的方法可以加速现有的现成模型,而无需重新训练或架构更改。我们在 T5-XXL 上进行了演示,并显示与标准 T5X 实现相比,具有相同输出的 2-3 倍加速 ...

0 0 0 0 2026/03/19 arXiv:2211.17192v2 henryhz