自适应大语言模型(LLM)旨在解决传统微调方法带来的挑战,这些方法通常是计算密集型的,并且处理不同任务的能力是静态的。我们引入了 $\text{Transformer}^2$,这是一种新颖的自适应框架,通过有选择地仅调整权重矩阵的奇异分量,使 LLM 实时适应看不见的任务。在推理过程中,$\text{Transformer}^2$ 采用两遍机制:首先,调度系统识别任务属性,然后动态混合使用强化学习训练的特定于任务的“专家”向量以获得目标传入提示的行为 ...
导出深度神经网络 Lipschitz 常数的清晰且可计算的上限对于形式上保证基于神经网络的模型的鲁棒性至关重要。我们分析了为 $l^2$ 范数编写的三个现有上限。我们强调了使用 $l^1$ 和 $l^\infty$ 规范的重要性,并为前馈全连接神经网络和卷积神经网络提出了两个新的界限 ...
摩尔定律的放缓推动了非常规计算范式的发展,例如专门为解决组合优化问题而定制的伊辛机。在本文中,我们通过用伊辛机训练深度生成人工智能模型,展示了基于概率位(p位)的伊辛机的新应用领域。我们使用稀疏、异步和大规模并行的伊辛机在混合概率经典计算设置中训练深度玻尔兹曼网络 ...
作为一种专用的量子设备,伊辛机可以在毫秒内解决大规模的二进制优化问题。由于生成人工智能的繁荣,人们对利用伊辛机训练前馈神经网络产生了兴趣。然而,由于复杂的非线性网络拓扑,现有方法只能训练单层前馈网络 ...
预训练自然语言表示时增加模型大小通常会提高下游任务的性能。然而,在某些时候,由于 GPU/TPU 内存限制和更长的训练时间,进一步增加模型变得更加困难。为了解决这些问题,我们提出了两种参数减少技术来降低内存消耗并提高 BERT 的训练速度 ...
在神经机器翻译(NMT)中,最常见的做法是在编码器和解码器中堆叠多个循环或前馈层。因此,每个新层的添加都显着提高了翻译质量。然而,这也导致参数数量的显着增加 ...
循环神经网络 (RNN) 通过使用每个新数据点更新其状态来顺序处理数据,长期以来一直是序列建模任务的事实上的选择。然而,它们固有的顺序计算使得它们的训练速度很慢。最近,前馈和卷积架构已被证明可以在机器翻译等某些序列建模任务上取得优异的结果,其额外优势是它们可以同时处理序列中的所有输入,从而实现轻松的并行化和更快的训练时间 ...
我们提出了一种 Transformers 参数共享方法(Vaswani 等人,2017)。所提出的方法放宽了一种广泛使用的技术,该技术与所有层共享一层的参数,例如通用 Transformer (Dehghani 等人) ...
我们通过扩散模型的范式研究深度学习和信息论之间的联系。利用非平衡热力学的既定原理,我们可以表征逆转扩散过程所需的信息量。神经网络存储这些信息并以类似于生成阶段麦克斯韦妖的方式运行 ...
大脑中的神经回路执行各种基本功能,包括输入分类、模式完成以及支持呼吸和运动等过程的节律和振荡的生成。还有大量证据表明,大脑通过神经活动序列编码记忆并处理信息。在本论文中,我们重点研究神经回路如何编码节律活动(如中枢模式生成器(CPG))以及序列编码的一般问题 ...