大型语言模型(LLMS)在许多应用中表现出了出色的性能,包括通过思考链(COTS)技术挑战推理问题,这些技术在回答问题之前会产生``思考 Token ''。尽管现有的理论作品表明,具有离散 Token 的COTS提高了LLM的能力,但最近对COTS的工作缺乏理论上的理解,为什么它在各种推理任务中胜过诸如定向图形可及性的各种推理任务(例如,包括许多实用的域名域名)的基本图形问题等各种推理任务。在本文中,我们证明具有连续COTS的两层 Transformer 可以解决有向的图形可及性问题,其中$ d $是该图的直径,而具有离散cots的恒定深度 Transformer 的最著名结果需要$ o(n^2)$ o(n^2)$ n $ n $ n $ n $ n $ n $ vertices($ d <n $ d <n $) ...

0 0 0 0 2025/07/06 arXiv:2505.12514v2 parsifalster

复发性神经网络的替代方案,尤其是基于注意力或卷积的体系结构,已经为处理输入序列而获得了动力。尽管具有相关性,但这些替代方案的计算属性尚未得到充分探讨。我们研究了两个最具范式架构的计算能力来体现这些机制: Transformer (Vaswani等人 ...

0 0 0 0 2025/07/06 arXiv:1901.03429v1 parsifalster

Transformer 架构广泛用于自然语言处理。尽管取得了成功,但 Transformer 的设计原理仍然难以捉摸。在本文中,我们为理解体系结构提供了一种新颖的观点:我们表明,对于多粒子动态系统中的对流扩散方程,可以将 Transformer 数学解释为数值的普通微分方程(ODE)求解器 ...

0 0 0 0 2025/07/06 arXiv:1906.02762v1 parsifalster

变形金刚已成为许多NLP问题的标准神经网络体系结构,从而激发了其在形式语言方面对其力量的理论分析。最近的工作表明,强烈注意的 Transformer 的功率非常有限(Hahn,2020),因为它们可以通过恒定深度和/或电路进行模拟(Hao等人2021) ...

0 0 0 0 2025/07/06 arXiv:2106.16213v3 parsifalster

该教程引入了一套新的强大技术,称为“神经机器翻译”或“神经序列到序列模型”。这些技术已用于许多有关人类语言处理的任务中,并且可以成为任何想要建模某种顺序数据的工具箱中的强大工具。教程假设读者知道数学和编程的基础知识,但没有假定在神经网络或自然语言处理方面的任何特定经验 ...

0 0 0 0 2025/07/06 arXiv:1703.01619v1 parsifalster

深度神经网络(DNNS)在许多任务上都表现出色,经常与人类绩效相提并论。然而,他们的内部过程仍然难以捉摸,经常被描述为“黑匣子”。虽然可以通过实验来完善性能,但要对其内部运作的基本掌握仍然是一个挑战 ...

0 0 0 0 2025/07/05 arXiv:2501.19281v1 parsifalster

在这项工作中,我们为深度学习开发了一种量子场理论形式主义,其中输入信号在高斯州编码,这是对高斯过程的概括,该过程编码了代理商对输入信号的不确定性。我们将如何表示线性和非线性层作为单一量子门,并将量子模型的基本激发解释为粒子,称为``hintons''。除了打开用于研究神经网络的新观点和技术之外,量子配方非常适合光学量子计算,并提供了可以在这些设备上有效运行的神经网络的量子变形 ...

0 0 0 0 2025/07/03 arXiv:2103.04913v1 parsifalster

从\ textIt {原位观察值(例如无线电图和海洋声速场)重建物理场张量,对于在各种应用中启用环境意识的决策至关重要,例如,无线通信和水下声学 ...

0 0 0 0 2025/06/21 arXiv:2506.11629v1 parsifalster

长期以来,机理设计一直是经济理论的基石,传统方法依赖数学推导。最近,出现了自动化方法,包括具有神经网络的可微分经济学,用于设计付款和分配。尽管分析方法和自动化方法都已经提高了该领域,但它们每个都面临着重要的弱点:数学推导不是自动化的,并且经常难以扩展到复杂的问题,而自动化,尤其是基于神经网络的方法的方法有限 ...

0 0 0 0 2025/06/21 arXiv:2502.12203v1 parsifalster

Transformer 模型已经彻底改变了从自然语言处理到计算机视觉的领域,但是它们的内部计算动力学仍然了解到引起了人们对可预测性和鲁棒性的关注。在这项工作中,我们介绍了熵镜,这是一个可扩展的模型不合SNOSTIC框架,利用信息理论来解释冷冻的,现成的大规模 Transformer 。通过量化中间残差流中香农熵的演变,我们的方法提取了区分模型家族,对特定于任务的提示进行分类并与输出精度相关的计算标志 ...

0 0 0 0 2025/06/21 arXiv:2502.16570v1 parsifalster

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)