Transformer 已成为大型语言模型和各个领域的各种下游任务的事实上的标准。尽管有许多优势,例如固有的训练并行性,但由于无法有效处理固定上下文窗口和注意机制的二次复杂性, Transformer 仍然面临着关键的挑战。这些挑战已经引起了人们对类似RNN的架构的兴趣,这些构建结构具有序列长度的线性缩放,并改善了对远程依赖性的处理,尽管由于其固有的经常性性质,因此具有有限的并行性 ...
在这项工作中,我们提出了一个沿现代Hopfield网络(MNH)线的能量功能,其固定点与由于Vaswani等人[12]引起的注意力相对应,从而统一了两个框架。该景观的最小值形成了“上下文井” - 稳定的配置,封装了 Token 之间的上下文关系 ...
我们介绍了矢量旋转退火器(VISA),这是一个基于增益计算的框架,该框架利用了光结合相互作用,以解决自旋汉密尔顿人编码的复杂优化问题。由于旋转运动的限制,传统的驱动障碍系统通常会选择激发状态。 Visa通过使旋转能够在三维空间中运行,从而超越了这些约束,从而提供了强大的解决方案,以最大程度地减少Hamiltonians ...
我们研究了Ising Hamiltonians的最小化,比较了基于量子退火的半经典软旋转模型的动力学基于增益的计算范例的性能。我们系统地分析了Mobius图的循环耦合的能量格局如何随着退火参数的增加而演变。我们的发现表明,这些半古典模型由于维度的扩大而面临挑战 ...
在长期大型语言模型(LLM)培训期间,梯度规范在培训结束结束时迅速增加。在此简短说明中,我们表明,这种增加是由于体重衰减,标准化层和学习率计划之间的意外相互作用。我们提出了一种简单的校正,可以解决此行为,同时也导致整个训练中的损失值较低 ...
对操纵的模仿学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同,没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频 ...
随着深度学习和大型语言模型中新兴现象的迅速发现,解释和理解其原因已成为迫切需要。在这里,我们提出了一种严格的熵力理论,用于理解接受随机梯度下降(SGD)及其变体训练的神经网络的学习动力学。在参数对称性和熵损失格局的基础上,我们表明表示学习是由随机性和离散时间更新引起的紧急熵力至关重要的 ...
将组合优化层集成到神经网络中最近引起了重大的研究兴趣。但是,许多现有的方法缺乏理论保证或在依靠不精确求解器时无法充分执行。这是一个关键的局限性,因为许多操作研究问题都是NP-HARD,通常需要使用基于邻里的本地搜索启发式方法 ...
混沌系统对小错误本质上是敏感的,这具有挑战性的努力,以构建现实世界动态系统(例如流体流或神经元活动)的预测数据驱动模型。先前的努力包括在单个时间序列上单独培训的专业模型,或者在庞大的时间序列数据库中培训的基础模型很少有基本的动态结构。在动力学系统理论的启发下,我们提出了熊猫,对非线性动力学进行了修补 ...
现代GPU凭借其专门的硬件(如张量核心),对于要求AI和深度学习应用至关重要。这项研究介绍了NVIDIA HOPPER GPU架构的全面,多级微型分析分析,并深入研究了其性能特征和新颖特征。我们基于Hopper的内存子系统延迟和吞吐量,将其L2分区的缓存行为和全局内存访问模式与最近的GPU Generations,Ampere和Ada Lovelace进行了比较 ...