odenkkk的文档

odenkkk

个性签名 ...

Foundation Model Driven Robotics: A Comprehensive Review

基础模型，尤其是大型语言模型（LLM）和视觉语言模型（VLM）的快速出现，引入了机器人技术的变革性范式。这些模型在语义理解，高级推理和跨模式概括方面具有强大的功能，从而在感知，计划，控制和人类机器人的互动方面带来了重大进步。这项批判性综述提供了对最新发展的结构化综合，对跨模拟驱动设计的应用程序进行了分类，开放世界执行，SIM卡转移和自适应机器人技术 ...

0 0 0 0 2025/07/17 arXiv:2507.10087v1 odenkkk

Critiques of World Models

世界模型是生物代理商所经历和采取行动的现实环境的算法代理，近年来一直是一个新兴的话题，因为需要增加具有人工（一般）智能的虚拟试剂。关于世界模型的真正是什么，如何构建它，如何使用它以及如何评估它，一直存在很多争论。在本文中，从著名的科幻经典沙丘中的想象力开始，并从心理学文学中的“假设思维”概念中汲取灵感，我们对几种关于世界建模的思想流派进行了批评，并认为世界模型的主要目标是模拟对现实世界的所有可行的可能性，以实现有目的的推理和行动 ...

0 0 0 0 2025/07/10 arXiv:2507.05169v1 odenkkk

Hebbian Physics Networks: A Self-Organizing Computational Architecture Based on Local Physical Laws

物理学中传统的机器学习方法依赖于全球优化，限制了解释性和外部实施物理约束。我们介绍了HEBBIAN物理网络（HPN），这是一个自组织的计算框架，其中学习来自当地的HEBBIAN更新。 HPN以非平衡热力学为基础，受到耗散结构理论的启发，HPN通过将物理定律直接编码到系统/的局部动力学中，从而消除了对全球损失函数的需求 ...

0 0 0 0 2025/07/09 arXiv:2507.00641v1 odenkkk

Fast and Simplex: 2-Simplicial Attention in Triton

最近的工作表明，训练损失量表是具有模型大小和 Token 数量的功率定律，并且实现Comperute-Timal模型需要缩放模型大小和 Token 数量。但是，这些缩放定律假设数据的无限供应，并主要应用于计算结合的设置。随着现代大型语言模型越来越依赖于大规模的互联网规模数据集，假设它们正在计算的假设变得越来越少 ...

0 0 0 0 2025/07/08 arXiv:2507.02754v1 odenkkk

Spark Transformer: Reactivating Sparsity in FFN and Attention

在训练有素的 Transformer 中发现了懒惰的神经元现象，在训练有素的 Transformer 中，其前馈网络中的绝大多数神经元（FFN）对于每个 Token 都无效，它刺激了激活稀疏性的巨大利益，以提高大型模型效率。尽管在将这种稀疏性转化为墙壁时益处方面取得了显着的进步，但现代 Transformer 已从对这种现象至关重要的relu激活功能转移。重新引入激活稀疏性的现有努力通常会降低模型质量，增加参数计数，复杂或减慢训练 ...

0 0 0 0 2025/07/07 arXiv:2506.06644v1 odenkkk

A Fingerprint for Large Language Models

最近的进步表明，扩展预训练的语言模型可以在许多下游任务上实现最先进的表现，从而促使大型语言模型（LLMS）成为人工智能领域的热门研究主题。但是，由于从头开始培训LLM的资源密集型性质，这对于保护LLM的知识产权不受侵权是紧迫和至关重要的。这激发了本文中的作者提出针对LLM的新型黑盒指纹技术，该技术既不需要模型训练也不需要模型进行微调 ...

0 0 0 0 2025/07/05 arXiv:2407.01235v1 odenkkk

Transformers are Graph Neural Networks

我们建立了最初用于自然语言处理的 Transformer 体系结构与图形神经网络（GNNS）在图表上的表示。我们展示了如何将变形金刚视为传递在 Token 完全连接的图表上运行的消息传递GNN，自我发项机制捕获了所有 Token W.R.的相对重要性 ...

0 0 0 0 2025/07/04 arXiv:2506.22084v1 odenkkk

Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

我们提出了Experts（COE），这是一种新的Experts（MOE）体系结构，该体系结构在每一层中介绍了连续的专家通信。与传统的MOE模型（专家在并行地独立运作）不同，COE在一层内部的一系列专家中迭代地迭代。为了支持跨越迭代的动态专家选择，COE在一层的每个迭代步骤中采用专用路由器 ...

0 0 0 0 2025/07/02 arXiv:2506.18945v1 odenkkk

Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

Transformer 模型由于其二次时间和线性记忆复杂性而具有长篇文化推断。复发记忆变形金刚（RMT）通过将渐近成本降低到线性时间和持续的内存使用情况来提供解决方案。但是，它们的内存更新机制导致连续执行，从而导致性能瓶颈 ...

0 0 0 0 2025/07/01 arXiv:2506.05229v1 odenkkk

A Survey of Retentive Network

保留网络（RETNET）代表神经网络体系结构的重大进步，为 Transformer 提供了有效的替代方案。尽管变形金刚依靠自我注意力来建模依赖性，但由于二次复杂性，它们处理长序列时，它们的记忆成本高和可伸缩性有限。为了减轻这些局限性，Retnet引入了一种保留机制，该保留机制将复发的诱导性偏置与全球依赖依赖性建模统一 ...

0 0 0 0 2025/07/01 arXiv:2506.06708v1 odenkkk