保留网络(RETNET)代表神经网络体系结构的重大进步,为 Transformer 提供了有效的替代方案。尽管变形金刚依靠自我注意力来建模依赖性,但由于二次复杂性,它们处理长序列时,它们的记忆成本高和可伸缩性有限。为了减轻这些局限性,Retnet引入了一种保留机制,该保留机制将复发的诱导性偏置与全球依赖依赖性建模统一 ...

0 0 0 0 2025/07/01 arXiv:2506.06708v1 odenkkk

局部全球注意模型最近已成为标准 Transformer 的引人注目的替代方案,有望提高训练和推理效率。但是,窗口尺寸的关键选择给出了帕累托的权衡:较大的窗户保持性能类似于全部关注,但在短上下文的情况下提供了最小的效率提高,而较小的窗户可以导致性能退化。当前的模型,例如Gemma2和Mistral,采用了保守的窗户尺寸(e ...

0 0 0 0 2025/07/01 arXiv:2506.15545v1 odenkkk

已经证明,经过思考链(COT)和循环 Transformer 可以通过递归增加计算步骤的数量来提高推理任务的绩效,并理论上提高表达性。但是,它们的比较能力仍然不太了解。在本文中,我们对它们各自的优势和局限性进行正式分析 ...

0 0 0 0 2025/07/01 arXiv:2505.19245v1 odenkkk

手势可以实现非语言人类机器人的交流,尤其是在敏捷生产等嘈杂的环境中。传统的基于深度学习的手势识别依赖于特定于任务的架构,使用图像,视频或骨骼姿势估计作为输入。同时,具有强大概括能力的视觉基础模型(VFM)和视觉语言模型(VLM)通过替换专用特定于任务的模块来降低系统复杂性的潜力 ...

0 0 0 0 2025/07/01 arXiv:2506.20795v1 odenkkk

我们提出了基于扩散的新一代商业规模的大语言模型(LLM)。这些模型通过 Transformer 体系结构进行了参数化,并经过训练以并联预测多个 Token 。在本报告中,我们详细介绍了水星编码器,这是我们为编码应用程序设计的第一组扩散LLM ...

0 0 0 0 2025/07/01 arXiv:2506.17298v1 odenkkk

我们介绍了所有(GET)Gripper的所有内容,这是一种新颖的1多道,三指设计,用于牢固抓住许多形状和尺寸的物体。该设计安装在标准的平行颚执行器上,具有三个狭窄的锥形手指,并以两种速度的配置排列,两个手指在其中汇聚成V形。与带有两个平坦的手指的传统设计相比,Get Gripper更有能力符合几何并形成安全的抓地力 ...

0 0 0 0 2025/06/30 arXiv:2505.09771v2 odenkkk

鉴于过去的视频和相对3D身体姿势代表的动作,我们训练模型以预测人类动作(PEVA)的自我视频。通过根据人体联合层次结构结构的运动学姿势轨迹的条件,我们的模型学会了从第一人称角度从第一人称角度来塑造环境的身体行为。我们在Nymeria上训练自动回归有条件扩散 Transformer ,这是一个大规模的以现实世界中心视频和身体姿势捕获的数据集 ...

0 0 0 0 2025/06/27 arXiv:2506.21552v1 odenkkk

人工智能的快速发展导致了人们对变革性科学发现的期望,但是当前系统在根​​本上仍然受其操作架构,脆性推理机制以及与实验现实的分离的限制。在早期工作的基础上,我们认为AI驱动的科学的进展现在取决于缩小三个基本差距 - 抽象差距,推理差距和现实差距 - 而不是模型大小/数据/测试时间计算。科学推理需要内部表示,以支持动作和反应的模拟,区分相关性与机制的因果结构以及持续校准 ...

0 0 0 0 2025/06/27 arXiv:2506.21329v1 odenkkk

具有短剩余连接的深度神经网络在整个领域都表现出显着的成功,但是深度的增加通常会引入计算冗余,而无需相应的表示质量改善。在这项工作中,我们介绍了自动压缩网络(ACN),这是一种体系结构变体,其中从每一层到输出的添加性长馈电连接取代了传统的短剩余连接。 ACNS展示了我们创建的独特属性作为“自动压缩”,这是网络在梯度下降期间通过建筑设计单独通过建筑设计在训练过程中有机地压缩信息的能力 ...

0 0 0 0 2025/06/27 arXiv:2506.09714v1 odenkkk

我们提出RXTX,这是一种用于计算矩阵的产品的新算法,其thrppose $ xx^{t} $ for $ x \ in \ mathbb {r}^{r}^{n \ times m} $。 RXTX使用$ 5 \%$ $ $ $ $ $ \%\%$ $ $ $ $ $ $ $ $ $ $ $ $比最先进的算法少。请注意,加速度不仅可以渐近地适用于具有$ n \ rightarrow \ infty $的大型矩阵,还适用于包括$ n = 4 $的小矩阵 ...

0 0 0 0 2025/06/25 arXiv:2505.09814v2 odenkkk

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)