虽然专家混合 (MoE) 架构已成为大型语言模型中稀疏扩展的标准,但它们越来越面临收益递减和系统级瓶颈。在这项工作中,我们探索嵌入缩放作为缩放稀疏性的有效正交维度。通过全面的分析和实验,我们确定了与专家缩放相比,嵌入缩放实现了优越的帕累托前沿的特定机制。我们系统地描述了控制这种功效的关键架构因素——从参数预算到与模型宽度和深度的相互作用。此外,通过集成定制的系统优化和推测解码,我们有效地将这种稀疏性转化为有形的推理加速。在这些见解的指导下,我们推出了 LongCat-Flash-Lite,这是一个从头开始训练的 68.5B 参数模型,具有约 3B 激活值。尽管为嵌入分配了超过 30B 个参数,LongCat-Flash-Lite 不仅超越了参数等效的 MoE 基线,而且相对于同等规模的现有模型也表现出了卓越的竞争力,特别是在代理和编码领域 ...
语言模型 (LM) 表现出非凡的能力,可以仅通过几个示例或文本指令来解决新任务,尤其是大规模任务。矛盾的是,它们还难以实现基本功能,例如算术或事实查找,而更简单和更小的模型在这些功能上表现出色。在本文中,我们展示了 LM 可以通过简单的 API 自学使用外部工具,并实现两全其美。我们引入了 Toolformer,这是一个经过训练的模型,用于决定调用哪些 API、何时调用它们、传递哪些参数以及如何最好地将结果合并到未来的 Token 预测中。这是通过自我监督的方式完成的,只需要为每个 API 进行少量演示即可。我们整合了一系列工具,包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。 Toolformer 在各种下游任务中显着提高了零样本性能,通常可以与更大的模型竞争,而无需牺牲其核心语言建模能力 ...
我们推出 LingBot-World,一个源于视频生成的开源世界模拟器。 LingBot-World定位于顶级世界模型,具有以下特点。 (1) 它在广泛的环境中保持高保真度和强大的动态,包括现实主义、科学背景、卡通风格等。 (2)它能够实现分钟级的视野,同时保持一段时间内的上下文一致性,这也称为“长期记忆”。 (3) 支持实时交互,每秒生成16帧时延迟低于1秒。我们提供对代码和模型的公共访问,以努力缩小开源和闭源技术之间的鸿沟。我们相信我们的发布将为社区提供内容创建、游戏和机器人学习等领域的实际应用 ...
强化学习(RL)是增强大型语言模型(LLM)推理能力的关键后训练技术。然而,同步 RL 后训练经常会遇到 GPU 严重利用率不足的问题,称为“气泡”,这是由推出步骤中的响应长度不平衡造成的。许多强化学习系统试图通过放松同步来缓解这个问题,但这可能会影响训练的准确性。在本文中,我们介绍了尾批处理,这是一种用于同步强化学习的新颖的推出调度策略,它系统地将导致长尾响应的提示整合到推出步骤的一小部分(长轮)中,同时确保大多数步骤(短轮)仅涉及平衡的短推出。通过从短轮中排除长响应并将其重新安排到几个指定的长轮中,尾部批处理可以有效减少推出期间的 GPU 空闲时间,并在不牺牲准确性的情况下显着加速 RL 训练。我们推出了 RollPacker,这是一个通过所有三个 RL 阶段的整体优化来充分利用尾批处理优势的系统:用于推出的弹性并行自适应、动态资源分配和奖励调度以及基于流的训练。实证结果表明,对于 Qwen2.5 系列 LLM 在多达 128 个 H800 GPU 上,与 veRL 相比,RollPacker 实现了 2.03 倍至 2.56 倍的端到端训练时间缩短,与 RLHFuse 相比,实现了高达 2.24 倍的加速 ...
步态识别是一种快速发展的视觉技术,用于远距离识别人员,在室内环境中取得了重大进展。然而,有证据表明,现有方法在应用于新发布的真实步态数据集时往往会产生不令人满意的结果。此外,从室内步态数据集得出的结论可能不容易推广到室外步态数据集。因此,本文的主要目标是提出一项旨在提高实用性的综合基准研究,而不是仅仅专注于提高性能。为此,我们开发了OpenGait,一个灵活高效的步态识别平台。使用 OpenGait,我们进行了深入的消融实验,以重新审视步态识别的最新发展。令人惊讶的是,我们发现了一些先前方法的一些不完善的部分,从而发现了一些关键但以前被忽视的见解。这些发现促使我们开发了三种结构简单但经验强大且实用稳健的基线模型:DeepGaitV2、SkeletonGait 和 SkeletonGait++,它们分别代表了基于外观、基于模型和多模态的步态模式描述方法。除了实现最先进的性能之外,我们的仔细探索还为深度步态模型的建模体验和典型步态模式的表征能力提供了新的视角。最后,我们讨论了当前步态识别的主要趋势和挑战,旨在激发进一步的进步,以实现更好的实用性。该代码可从此 https URL 获取 ...
我们提出了 SHARP,一种从单个图像合成逼真视图的方法。给定一张照片,SHARP 会回归所描绘场景的 3D 高斯表示的参数。在标准 GPU 上,通过神经网络的单个前馈传递,这一过程可在不到一秒的时间内完成。然后可以实时渲染由 SHARP 生成的 3D 高斯表示,为附近的视图生成高分辨率的逼真图像。该表示是公制的,具有绝对比例,支持公制相机移动。实验结果表明,SHARP 在跨数据集上提供了强大的零样本泛化能力。它在多个数据集上树立了新的技术水平,与最佳现有模型相比,LPIPS 减少了 25-34%,DISTS 减少了 21-43%,同时将合成时间降低了三个数量级。此 https URL 提供了代码和权重 ...
检索增强生成(RAG)和基于图的 RAG 已成为利用外部知识增强大型语言模型(LLM)的重要范例。然而,现有方法面临着根本性的权衡。虽然基于图的方法本质上依赖于高质量的图结构,但它们面临着重大的实际限制:手动构建的知识图的扩展成本过高,而从语料库中自动提取的图受到底层 LLM 提取器性能的限制,特别是在使用较小的本地部署模型时 ...
我们推出了 LLaTTE(LLM 风格的时间事件潜在 Transformer ),这是一种用于生产广告推荐的可扩展 Transformer 架构。通过系统实验,我们证明推荐系统中的序列建模遵循类似于 LLM 的可预测幂律缩放。至关重要的是,我们发现语义特征弯曲了缩放曲线:它们是缩放的先决条件,使模型能够有效地利用更深和更长的架构的能力。为了实现在严格延迟限制下持续扩展的好处,我们引入了一种两阶段架构,将大型长上下文模型的繁重计算卸载到异步上游用户模型。我们证明上游改进可预测地转移到下游排名任务。作为 Meta 上最大的用户模型进行部署,这个多阶段框架以最小的服务开销在 Facebook Feed 和 Reels 上推动了 4.3% 的转化提升,为利用工业推荐系统中的扩展法则建立了实用的蓝图 ...
未知环境中的四旋翼导航对于搜索和救援等实际任务至关重要。解决这个问题需要解决三个关键挑战:由于障碍物导致的自由空间的非凸性、四旋翼飞行器特定的动力学和目标,以及探索未知区域以找到实现目标的路径的需要。最近,模型预测路径积分(MPPI)方法已成为解决前两个挑战的有前途的解决方案。通过利用基于采样的优化,它可以有效地处理非凸自由空间,同时直接优化整个四旋翼飞行器动力学,从而能够包含四旋翼飞行器特定的成本,例如能耗。然而,它在未知环境中的表现有限,因为它缺乏在被大型障碍物阻挡时探索未知区域的能力。为了解决这个问题,我们引入了感知感知 MPPI (PA-MPPI)。这里,感知意识被定义为根据感知目标在线调整轨迹。具体来说,当目标被遮挡时,PA-MPPI的感知成本会使能够感知未知区域的轨迹产生偏差。这扩大了映射的可穿越空间并增加了找到到达目标的替代路径的可能性。通过硬件实验,我们证明 PA-MPPI 在我们高效的感知和映射模块下以 50 Hz 运行,在最先进的 MPPI 失败的具有挑战性的环境中,其性能比基线好 100%。此外,我们证明 PA-MPPI 可以用作导航基础模型的安全且稳健的动作策略,这些模型通常提供无法直接到达的目标姿势 ...
要实现真正的自适应体现智能,智能体不仅要通过模仿静态演示来学习,还要通过环境交互不断改进,这类似于人类通过练习掌握技能的方式。视觉-语言-动作(VLA)模型通过利用大型语言模型实现了先进的机器人操作,但仍然受到监督微调(SFT)的根本限制:每个任务需要数百次演示,严格记住轨迹,并且在部署条件偏离训练时无法适应。我们推出了 EVOLVE-VLA,这是一个测试时训练框架,使 VLA 能够通过环境交互不断适应,并具有最少或零的特定任务演示。关键的技术挑战是用自主反馈取代预言机奖励信号(在测试时不可用)。我们通过提供密集反馈的学习进度估计器来解决这个问题,更重要的是,我们设计了我们的框架,通过两种机制来“驯服”这种固有的噪声信号:(1) 累积进度估计机制,平滑噪声逐点估计,(2) 渐进的视野扩展策略,支持渐进的政策演化。 EVOLVE-VLA 取得了巨大的进步:在长视野任务上 +8.6\%,在 1-shot 学习中 +22.0\%,并实现了跨任务泛化——在没有特定任务演示训练的情况下,在未见过的任务上取得了 20.8\% 的成功(而纯 SFT 为 0\%)。定性分析揭示了演示中缺少的新兴功能,包括错误恢复和新颖的策略。这项工作代表了 VLA 迈出了真正学习和适应的关键一步,超越静态模仿,走向持续的自我完善 ...