我们介绍了Llama-Nemotron系列模型,这是一个开放的异构推理模型家族,可提供出色的推理能力,推理效率和企业使用的开放许可。这个家庭有三种尺寸 - 纳米(8b),Super(49b)和Ultra(253b) - 并与最先进的推理模型(例如DeepSeek-R1)一起竞争,同时提供了出色的推理吞吐量和记忆效率。在本报告中,我们讨论了这些模型的培训程序,这些模型需要使用Llama 3模型的神经体系结构搜索进行加速推理,知识蒸馏和持续预处理,然后进行以推理为中心的训练后阶段,由两个主要部分组成:受监管的精细调整和大规模增强学习 ...
在粒子物理学中,基本力受到称为仪表不变性的对称性。这是任何物理系统的数学描述中的冗余。在本文中,我将证明 Transformer 体系结构具有相同的属性,并表明变形金刚的默认表示形式已部分但并未完全删除量规不变性 ...
循环 Transformer 在参数效率,计算能力和推理任务的概括方面具有优势。但是,它们在功能近似方面的表达能力仍未得到充实。在本文中,我们通过定义序列到序列函数的连续性模量来建立循环 Transformer 的近似速率 ...
我们介绍了在 Transformer 注意机制中的软键,这是一种纠正的,而不是总和替换,可消除注意力降低和大量激活。我们使用340m参数模型进行的实验表明,软饼在标准基准测试的同时保持了SoftMax的性能均衡,同时达到了0%的接收率。软键 Transformer 产生的隐藏状态显着较低(340 vs 33,510),并产生稀疏的注意力图(46 ...
我们介绍了DeepSeek-Prover-V2,这是一种旨在正式定理的开源大语言模型,该模型在LEAN 4中证明,通过递归定理收集的初始化数据证明了由DeepSeek-V3供电的管道。冷启动训练程序首先促使DeepSeek-V3将复杂的问题分解为一系列子目标。解决的子目标的证明被合成为一个经过思考的过程,并结合了DeepSeek-V3的逐步推理,为增强学习创造了最初的冷启动 ...
Vision语言动作(VLA)模型代表了开发通用机器人系统的有希望的方向,证明了结合视觉理解,语言理解和动作生成的能力。但是,跨不同机器人任务对这些模型的系统评估仍然有限。在这项工作中,我们提供了一个全面的评估框架和用于评估VLA模型的基准套件 ...
通过可验证的奖励(RLVR)的增强学习最近在增强LLM的推理能力方面取得了显着成功,尤其是在数学和编程任务中。人们普遍认为,RLVR使LLM能够持续自我爆发,从而获得超过相应基本模型能力的新型推理能力。但是,在这项研究中,我们通过测量@\ textIt {k}度量的通行证{k}度量\ textit {k}来探讨模型范围跨广泛的模型家族和基准的模型的推理能力边界,从而重新审视了这一假设 ...
学习从人类视频中执行操纵任务是一种教学机器人的有前途的方法。但是,许多操纵任务都需要在任务执行过程中更改控制参数,例如force,仅视觉数据无法捕获。在这项工作中,我们利用传感设备(例如测量人类肌肉活动和记录声音的麦克风,捕获人体操纵过程中的细节)等臂章,并使机器人能够提取任务计划和控制参数来执行相同的任务 ...
生成模型通常通过匹配流量或分数将噪声映射到数据,但是这些方法对于融合部分观测或其他先验而变得笨拙。受Wasserstein梯度流的最新进展的启发,我们提出了能量匹配,该框架将基于流量的方法统一了基于能量的模型(EBM)的灵活性。远离数据歧管,样品沿着无卷曲的最佳传输路径从噪声到数据移动 ...
这项工作提供了对训练 Transformer 的首次理论分析,以通过递归产生中间状态来解决复杂问题,该状态类似于对经过三通链(COT)推理的微调。我们考虑培训一层 Transformer 来解决基本的$ k $ - 准则问题,从而扩展了Wies等人(2023)对RNN的工作 ...