现代GPU凭借其专门的硬件(如张量核心),对于要求AI和深度学习应用至关重要。这项研究介绍了NVIDIA HOPPER GPU架构的全面,多级微型分析分析,并深入研究了其性能特征和新颖特征。我们基于Hopper的内存子系统延迟和吞吐量,将其L2分区的缓存行为和全局内存访问模式与最近的GPU Generations,Ampere和Ada Lovelace进行了比较 ...
ML和HPC应用程序越来越多地结合了密集和稀疏的内存访问计算,以最大程度地提高存储效率。但是,现有的CPU和GPU努力以始终高的计算效率灵活地处理这些异质工作负载。我们介绍了Occamy,一个432核,768-DP-GFLOP/S,Dual-HBM2E,双芯片RISC-V系统,具有耐潜力的层次结构互连和核内流媒体(SUS),旨在加速FP8至FP8至FP8至FP64 mL和HPC和HPC的工作量 ...
低精度数据类型在训练和推理期间在现代神经网络中至关重要,因为它们通过更好地利用可用的硬件资源来增强吞吐量和计算能力。尽管将FP8纳入了市售的神经网络加速器中,但仍然缺乏对其潜在机制的全面阐述,以及严格的性能和准确性评估。在这项工作中,我们以三种重要的方式做出了贡献 ...
大型语言模型(LLMS)具有出色的功能,但其高推理成本限制了更广泛的采用。同时增加参数计数可以提高准确性,但它也扩大了最新功能和实际部署性之间的差距。我们提出难题,这是一种硬件感知框架,可以在保留其功能的同时加速LLM的推断 ...
我们介绍了Llama-Nemotron系列模型,这是一个开放的异构推理模型家族,可提供出色的推理能力,推理效率和企业使用的开放许可。这个家庭有三种尺寸 - 纳米(8b),Super(49b)和Ultra(253b) - 并与最先进的推理模型(例如DeepSeek-R1)一起竞争,同时提供了出色的推理吞吐量和记忆效率。在本报告中,我们讨论了这些模型的培训程序,这些模型需要使用Llama 3模型的神经体系结构搜索进行加速推理,知识蒸馏和持续预处理,然后进行以推理为中心的训练后阶段,由两个主要部分组成:受监管的精细调整和大规模增强学习 ...
在粒子物理学中,基本力受到称为仪表不变性的对称性。这是任何物理系统的数学描述中的冗余。在本文中,我将证明 Transformer 体系结构具有相同的属性,并表明变形金刚的默认表示形式已部分但并未完全删除量规不变性 ...
循环 Transformer 在参数效率,计算能力和推理任务的概括方面具有优势。但是,它们在功能近似方面的表达能力仍未得到充实。在本文中,我们通过定义序列到序列函数的连续性模量来建立循环 Transformer 的近似速率 ...
我们介绍了在 Transformer 注意机制中的软键,这是一种纠正的,而不是总和替换,可消除注意力降低和大量激活。我们使用340m参数模型进行的实验表明,软饼在标准基准测试的同时保持了SoftMax的性能均衡,同时达到了0%的接收率。软键 Transformer 产生的隐藏状态显着较低(340 vs 33,510),并产生稀疏的注意力图(46 ...
我们介绍了DeepSeek-Prover-V2,这是一种旨在正式定理的开源大语言模型,该模型在LEAN 4中证明,通过递归定理收集的初始化数据证明了由DeepSeek-V3供电的管道。冷启动训练程序首先促使DeepSeek-V3将复杂的问题分解为一系列子目标。解决的子目标的证明被合成为一个经过思考的过程,并结合了DeepSeek-V3的逐步推理,为增强学习创造了最初的冷启动 ...
Vision语言动作(VLA)模型代表了开发通用机器人系统的有希望的方向,证明了结合视觉理解,语言理解和动作生成的能力。但是,跨不同机器人任务对这些模型的系统评估仍然有限。在这项工作中,我们提供了一个全面的评估框架和用于评估VLA模型的基准套件 ...