注意是跨多种领域的现代神经网络的强大组成部分。但是,尽管在机器学习中无处不在,但从理论的角度来看,我们对关注的理解仍然存在差距。我们提出了一个框架,通过使用量度理论构建数学上等效的注意模型来填补这一空白 ...
过去十年见证了数据科学和机器学习的实验革命,这是通过深度学习方法体现的。实际上,实际上,具有适当的计算量表,许多以前被认为是无法触及的高维学习任务(例如计算机视觉,玩游戏或蛋白质折叠)是可行的。值得注意的是,深度学习的本质是从两个简单的算法原理中构建的:首先,表示表示或特征学习的概念,通过这些概念(通常是层次结构,特征)为每个任务捕获适当的规律性概念,其次是通过本地梯度散发类型的方法进行的,通常以反射性为背部 ...
大型语言模型(LLMS)在许多应用中表现出了出色的性能,包括通过思考链(COTS)技术挑战推理问题,这些技术在回答问题之前会产生``思考 Token ''。尽管现有的理论作品表明,具有离散 Token 的COTS提高了LLM的能力,但最近对COTS的工作缺乏理论上的理解,为什么它在各种推理任务中胜过诸如定向图形可及性的各种推理任务(例如,包括许多实用的域名域名)的基本图形问题等各种推理任务。在本文中,我们证明具有连续COTS的两层 Transformer 可以解决有向的图形可及性问题,其中$ d $是该图的直径,而具有离散cots的恒定深度 Transformer 的最著名结果需要$ o(n^2)$ o(n^2)$ n $ n $ n $ n $ n $ n $ vertices($ d <n $ d <n $) ...
复发性神经网络的替代方案,尤其是基于注意力或卷积的体系结构,已经为处理输入序列而获得了动力。尽管具有相关性,但这些替代方案的计算属性尚未得到充分探讨。我们研究了两个最具范式架构的计算能力来体现这些机制: Transformer (Vaswani等人 ...
Transformer 架构广泛用于自然语言处理。尽管取得了成功,但 Transformer 的设计原理仍然难以捉摸。在本文中,我们为理解体系结构提供了一种新颖的观点:我们表明,对于多粒子动态系统中的对流扩散方程,可以将 Transformer 数学解释为数值的普通微分方程(ODE)求解器 ...
变形金刚已成为许多NLP问题的标准神经网络体系结构,从而激发了其在形式语言方面对其力量的理论分析。最近的工作表明,强烈注意的 Transformer 的功率非常有限(Hahn,2020),因为它们可以通过恒定深度和/或电路进行模拟(Hao等人2021) ...
该教程引入了一套新的强大技术,称为“神经机器翻译”或“神经序列到序列模型”。这些技术已用于许多有关人类语言处理的任务中,并且可以成为任何想要建模某种顺序数据的工具箱中的强大工具。教程假设读者知道数学和编程的基础知识,但没有假定在神经网络或自然语言处理方面的任何特定经验 ...
深度神经网络(DNNS)在许多任务上都表现出色,经常与人类绩效相提并论。然而,他们的内部过程仍然难以捉摸,经常被描述为“黑匣子”。虽然可以通过实验来完善性能,但要对其内部运作的基本掌握仍然是一个挑战 ...
在这项工作中,我们为深度学习开发了一种量子场理论形式主义,其中输入信号在高斯州编码,这是对高斯过程的概括,该过程编码了代理商对输入信号的不确定性。我们将如何表示线性和非线性层作为单一量子门,并将量子模型的基本激发解释为粒子,称为``hintons''。除了打开用于研究神经网络的新观点和技术之外,量子配方非常适合光学量子计算,并提供了可以在这些设备上有效运行的神经网络的量子变形 ...
从\ textIt {原位观察值(例如无线电图和海洋声速场)重建物理场张量,对于在各种应用中启用环境意识的决策至关重要,例如,无线通信和水下声学 ...