物理学中传统的机器学习方法依赖于全球优化,限制了解释性和外部实施物理约束。我们介绍了HEBBIAN物理网络(HPN),这是一个自组织的计算框架,其中学习来自当地的HEBBIAN更新。 HPN以非平衡热力学为基础,受到耗散结构理论的启发,HPN通过将物理定律直接编码到系统/的局部动力学中,从而消除了对全球损失函数的需求 ...

0 0 0 0 2025/07/09 arXiv:2507.00641v1 odenkkk

最近的工作表明,训练损失量表是具有模型大小和 Token 数量的功率定律,并且实现Comperute-Timal模型需要缩放模型大小和 Token 数量。但是,这些缩放定律假设数据的无限供应,并主要应用于计算结合的设置。随着现代大型语言模型越来越依赖于大规模的互联网规模数据集,假设它们正在计算的假设变得越来越少 ...

0 0 0 0 2025/07/08 arXiv:2507.02754v1 odenkkk

在训练有素的 Transformer 中发现了懒惰的神经元现象,在训练有素的 Transformer 中,其前馈网络中的绝大多数神经元(FFN)对于每个 Token 都无效,它刺激了激活稀疏性的巨大利益,以提高大型模型效率。尽管在将这种稀疏性转化为墙壁时益处方面取得了显着的进步,但现代 Transformer 已从对这种现象至关重要的relu激活功能转移。重新引入激活稀疏性的现有努力通常会降低模型质量,增加参数计数,复杂或减慢训练 ...

0 0 0 0 2025/07/07 arXiv:2506.06644v1 odenkkk

最近的进步表明,扩展预训练的语言模型可以在许多下游任务上实现最先进的表现,从而促使大型语言模型(LLMS)成为人工智能领域的热门研究主题。但是,由于从头开始培训LLM的资源密集型性质,这对于保护LLM的知识产权不受侵权是紧迫和至关重要的。这激发了本文中的作者提出针对LLM的新型黑盒指纹技术,该技术既不需要模型训练也不需要模型进行微调 ...

0 0 0 0 2025/07/05 arXiv:2407.01235v1 odenkkk

我们建立了最初用于自然语言处理的 Transformer 体系结构与图形神经网络(GNNS)在图表上的表示。我们展示了如何将变形金刚视为传递在 Token 完全连接的图表上运行的消息传递GNN,自我发项机制捕获了所有 Token W.R.的相对重要性 ...

0 0 0 0 2025/07/04 arXiv:2506.22084v1 odenkkk

我们提出了Experts(COE),这是一种新的Experts(MOE)体系结构,该体系结构在每一层中介绍了连续的专家通信。与传统的MOE模型(专家在并行地独立运作)不同,COE在一层内部的一系列专家中迭代地迭代。为了支持跨越迭代的动态专家选择,COE在一层的每个迭代步骤中采用专用路由器 ...

0 0 0 0 2025/07/02 arXiv:2506.18945v1 odenkkk

Transformer 模型由于其二次时间和线性记忆复杂性而具有长篇文化推断。复发记忆变形金刚(RMT)通过将渐近成本降低到线性时间和持续的内存使用情况来提供解决方案。但是,它们的内存更新机制导致连续执行,从而导致性能瓶颈 ...

0 0 0 0 2025/07/01 arXiv:2506.05229v1 odenkkk

保留网络(RETNET)代表神经网络体系结构的重大进步,为 Transformer 提供了有效的替代方案。尽管变形金刚依靠自我注意力来建模依赖性,但由于二次复杂性,它们处理长序列时,它们的记忆成本高和可伸缩性有限。为了减轻这些局限性,Retnet引入了一种保留机制,该保留机制将复发的诱导性偏置与全球依赖依赖性建模统一 ...

0 0 0 0 2025/07/01 arXiv:2506.06708v1 odenkkk

局部全球注意模型最近已成为标准 Transformer 的引人注目的替代方案,有望提高训练和推理效率。但是,窗口尺寸的关键选择给出了帕累托的权衡:较大的窗户保持性能类似于全部关注,但在短上下文的情况下提供了最小的效率提高,而较小的窗户可以导致性能退化。当前的模型,例如Gemma2和Mistral,采用了保守的窗户尺寸(e ...

0 0 0 0 2025/07/01 arXiv:2506.15545v1 odenkkk

已经证明,经过思考链(COT)和循环 Transformer 可以通过递归增加计算步骤的数量来提高推理任务的绩效,并理论上提高表达性。但是,它们的比较能力仍然不太了解。在本文中,我们对它们各自的优势和局限性进行正式分析 ...

0 0 0 0 2025/07/01 arXiv:2505.19245v1 odenkkk

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)