最近,以超连接(HC)为代表的研究通过扩大残余流宽度和多样化连接模式,扩展了过去十年建立的普遍存在的残余连接范式。虽然产生了显着的性能提升,但这种多样化从根本上损害了剩余连接固有的身份映射属性,这导致严重的训练不稳定和受限的可扩展性,并且还会产生显着的内存访问开销。为了应对这些挑战,我们提出了流形约束超连接(mHC),这是一个通用框架,将 HC 的剩余连接空间投影到特定流形上以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。实证实验表明,mHC 对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预计 mHC 作为 HC 的灵活实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的发展提出有希望的方向 ...
新兴的持续学习应用需要下一代神经处理单元 (NPU) 平台来支持训练和推理操作。前景广阔的微缩放 (MX) 标准可实现用于推理的窄位宽和用于训练的大动态范围。然而,现有的 MX 乘法累加 (MAC) 设计面临着关键的权衡:整数累加需要从窄浮点乘积进行昂贵的转换,而 FP32 累加则面临量化损失和昂贵的归一化问题。为了解决这些限制,我们提出了一种用于 MX MAC 的混合精度可扩展约简树,它结合了两种方法的优点,实现了高效的混合精度累加和受控的精度松弛。此外,我们将这些 MAC 的 8x8 阵列集成到最先进的 (SotA) NPU 集成平台 SNAX 中,为我们优化的精确可扩展 MX 数据路径提供高效的控制和数据传输。我们在 MAC 和系统级别评估我们的设计,并将其与 SotA 进行比较。我们的集成系统对于 MXINT8、MXFP8/6 和 MXFP4 分别实现了 657、1438-1675 和 4065 GOPS/W 的能效,吞吐量分别为 64、256 和 512 GOPS ...
自主机器人需要高效的设备端学习来适应新环境,而不依赖于云。对于这种边缘训练,微缩放 (MX) 数据类型通过将整数和浮点表示与共享指数相结合,提供了一种有前途的解决方案,在保持准确性的同时降低了能耗。然而,最先进的连续学习处理器 Dacapo 面临着局限性,因为它仅支持 MXINT,并且在反向传播过程中基于向量的分组效率低下。在本文中,据我们所知,我们提出了第一个通过两项关键创新来解决这些限制的工作:(1)一个精度可扩展的算术单元,通过利用子字并行性和统一的整数和浮点处理来支持所有六种 MX 数据类型; (2) 支持平方共享指数组,以在反向传播期间实现有效的权重处理,消除存储冗余和量化开销。我们在 400MHz 下采用台积电 16nm FinFET 技术的四个机器人工作负载上,根据 Dacapo 评估了我们的设计,内存占用降低了 51%,有效训练吞吐量提高了 4 倍,同时实现了可比的能源效率,从而实现了高效的机器人在边缘持续学习 ...
除了 ChatGPT、GitHub Copilot 和 Cursor 等典型的生成应用程序之外,我们还观察到一个新兴趋势,即 LLM 越来越多地用于传统的判别性任务,例如推荐、信用验证和数据标记。这些新兴用例的关键特征是 LLM 仅生成单个输出 Token ,而不是任意长的 Token 序列。我们将此称为仅预填充工作负载。然而,由于现有的 LLM 引擎假定任意输出长度,因此它们无法利用仅预填充工作负载的独特属性。在本文中,我们提出了 PrefillOnly,这是第一个 LLM 推理引擎,它通过完全采用仅预填充工作负载的属性来提高推理吞吐量和延迟。首先,由于它只生成一个 Token ,PrefillOnly 只需要存储最后计算层的 KV 缓存,而不是所有层的 KV 缓存。这大大减少了 LLM 推理的 GPU 内存占用,并允许处理长输入,而无需使用降低吞吐量的解决方案,例如跨 GPU KV 缓存并行化。其次,由于输出长度是固定的,而不是任意的,PrefillOnly 可以在每个仅预填充请求开始之前精确确定其作业完成时间(JCT)。这可以实现有效的 JCT 感知调度策略,例如最短的剩余作业优先。 PrefillOnly 每秒可以处理多达 4 倍大的查询,而不会增加平均延迟和 P99 延迟 ...
自然语言引导无人机(NLGD)为目标匹配和导航等任务提供了一种新颖的范例。然而,无人机场景中广阔的视野和复杂的组合语义给视觉语言理解带来了挑战。主流视觉语言模型(VLM)强调全局对齐,但缺乏细粒度语义,而现有的分层方法依赖于精确的实体划分和严格的包含,限制了动态环境中的有效性。为了解决这个问题,我们提出了分层跨粒度对比和匹配学习(HCCM)框架,该框架包含两个组件:(1)区域全局图像文本对比学习(RG-ITC),它避免了精确的场景划分,并通过将局部视觉区域与全局文本进行对比来捕获分层的局部到全局语义,反之亦然; (2)区域全局图像文本匹配(RG-ITM),它免除了严格的约束,而是评估全局跨模态表示中的局部语义一致性,从而增强了组合推理。此外,无人机的文本描述通常不完整或含糊不清,从而破坏了对齐的稳定性。 HCCM 引入动量对比和蒸馏 (MCD) 机制来提高鲁棒性。 GeoText-1652 上的实验表明 HCCM 实现了最先进的 Recall@1 28.8%(图像检索)和 14.7%(文本检索)。在未见过的 ERA 数据集上,HCCM 表现出强大的零样本泛化能力,平均召回率 (mR) 为 39.93%,优于微调基线 ...
我们为 RoboSense 2025 赛道 4 提供了一个获胜解决方案:跨模式无人机导航。该任务根据自然语言查询从大型多平台语料库(卫星/无人机/地面)中检索最相关的地理参考图像。两个障碍是严重的平台间异构性以及通用训练描述和特定于平台的测试查询之间的领域差距。我们通过域对齐预处理管道和专家混合 (MoE) 框架来缓解这些问题:(i) 平台分区、卫星增强和方向词删除; (ii) 基于 LLM 的字幕细化管道,使文本语义与每个平台的独特视觉特征保持一致。使用 BGE-M3(文本)和 EVA-CLIP(图像),我们使用渐进式两阶段硬负挖掘策略来训练三位平台专家,以增强判别力,并在推理时融合他们的分数。该系统在官方排行榜上名列前茅,展示了异构视角下强大的跨模式地理定位能力 ...
潜在标记因增强大型语言模型(LLM)的推理而受到关注,但其内部机制仍不清楚。本文从可靠性的角度研究了这个问题,揭示了根本的弱点:潜在标记充当不可解释的占位符,而不是编码忠实的推理。在抵抗扰动的同时,它们提倡捷径的使用而不是真正的推理。我们专注于连续思维链(COCONUT),它声称比显式思维链(CoT)有更好的效率和稳定性,同时保持性能。我们通过两种互补的方法对此进行研究。首先,引导实验扰乱特定的标记子集,即 COCONUT 和显式 CoT。与 CoT Token 不同,COCONUT Token 对转向的敏感性最低,并且缺乏推理关键信息。其次,快捷实验评估有偏差和分布外设置下的模型。 MMLU 和 HotpotQA 的结果表明,COCONUT 始终利用数据集工件,在没有真正推理的情况下夸大基准性能。这些发现将 COCONUT 重新定位为伪推理机制:它生成隐藏捷径依赖性的合理痕迹,而不是忠实地代表推理过程 ...
大型语言模型(LLM)在长上下文建模领域越来越普遍,然而,它们的推理计算成本已成为阻碍智能体和多模态应用等任务进步的关键瓶颈。本报告对Top-$k$ Attention机制在解码和训练阶段的有效性和理论机制进行了初步研究。首先,我们通过大量实验验证精确 Top-$k$ 解码的有效性。实验表明,在解码阶段仅保留与查询相似度最高的关键键作为上下文窗口,其性能可与甚至超越对 HELMET 和 LongBench v2 等下游任务的充分关注。其次,我们进一步探索原生的 Top-$k$ 注意力训练策略。实验证实,确保Top-$k$ Attention操作的训练和推理之间的一致性,有利于进一步释放Top-$k$ Decoding的潜力,从而显着提升模型性能。此外,考虑到精确 Top-$k$ Attention 的高计算复杂度,我们研究了近似 Top-$k$ 算法精度对下游任务的影响。我们的研究证实了下游任务性能和近似保真度之间存在正相关性,并且我们提供了 DeepSeek-V3.2-Exp 模型中 Lightning Indexer 精度的统计评估。最后,本报告从熵的角度提供了理论解释。实验观察表明,经过Top-$k$ Attention SFT的模型在下游任务中表现出明显的熵减少现象,这验证了低熵状态更适合Top-$k$ Decoding的假设 ...
由于缺乏可访问的多模式数据集以及对齐视觉和文本数据的严格精度要求,通过自然语言命令导航无人机仍然具有挑战性。为了满足这一迫切需求,我们推出了 GeoText-1652,这是一种新的自然语言引导的地理定位基准。该数据集是通过交互式人机过程系统地构建的,利用大语言模型(LLM)驱动的注释技术与预训练的视觉模型相结合。 GeoText-1652 通过空间感知文本注释扩展了已建立的 University-1652 图像数据集,从而在图像、文本和边界框元素之间建立一对一的对应关系。我们进一步引入了一种新的优化目标,以利用细粒度的空间关联(称为混合空间匹配)进行区域级空间关系匹配。大量的实验表明,与其他流行的跨模态方法相比,我们的方法保持了有竞争力的召回率。这凸显了我们的方法通过在现实场景中无缝集成自然语言命令来提升无人机控制和导航的巨大潜力 ...
我们提出了 Tishby 等人 (1999) 信息瓶颈的变分近似。这种变分方法允许我们使用神经网络参数化信息瓶颈模型,并利用重新参数化技巧进行有效的训练。我们将此方法称为“深度变分信息瓶颈”,或深度 VIB。我们表明,在泛化性能和对抗攻击的鲁棒性方面,使用 VIB 目标训练的模型优于使用其他形式正则化训练的模型 ...