大型语言模型(例如GPT)的成功归因于它们有效预测顺序下一步标记的能力。但是,这些模型依赖于恒定的计算工作,无论其预测的 Token 的复杂性如何,都缺乏迭代精致的能力。在本文中,我们引入了一个新型的循环神经网络,该网络通过使用更长的计算时间而不增加模型大小来实现更好的性能 ...

0 0 0 0 2025/03/12 arXiv:2409.14199v3 odenkkk

大型语言模型(LLMS)在参数约束下面临固有的性能瓶颈,尤其是在处理需要复杂推理的关键 Token 时。经验分析表明,具有挑战性的 Token 会引起跨层的突然梯度尖峰,从而揭示了标准 Transformer 中的建筑应力点。在此洞察力的基础上,我们提出了内在思维 Transformer (ITT),该思想 Transformer (ITT)将计算层的计算重新构想为隐式思维步骤 ...

0 0 0 0 2025/03/12 arXiv:2502.13842v2 odenkkk

大型语言模型显示出了显着的推理能力和缩放定律表明,大型参数计数,尤其是在深度轴上,是主要驱动力。在这项工作中,我们提出了更强有力的主张 - 许多推理问题需要很大的深度,但不一定是很多参数。这解锁了循环模型进行推理的新颖应用 ...

0 0 0 0 2025/03/12 arXiv:2502.17416v1 odenkkk

变形金刚在context求解各种(潜在)模型的数据拟合问题方面已显示出有效性,如GARG等人报道, Transformer 体系结构中缺少固有的迭代结构在模拟传统机器学习方法中通常使用的迭代算法提出了挑战。为了解决这个问题,我们提出了循环 Transformer 体系结构及其相关培训方法的利用,目的是将迭代特性纳入 Transformer 体系结构 ...

0 0 0 0 2025/03/11 arXiv:2311.12424v3 odenkkk

本文回顾了 50 年来机器人研究中提出的各种产生机器人运动的方法,以及最近的发展。它跨越了方法论的界限,从那些在显式模型上运行的方法到那些学习隐式模型的方法,通常不会一起进行调查。本文讨论了当前的最新技术以及不同方法的特性,强调了集成的机会 ...

0 0 0 0 2025/03/06 arXiv:2410.12172v2 odenkkk

我们提出了一种新型的神经网络结构,即标准化 Transformer (NGPT),并在超晶体上进行了表示。在NGPT中,所有形成嵌入,MLP,注意矩阵和隐藏状态的向量均为单位规范。 Token 的输入流在超晶表面上行进,每一层都会导致目标输出预测的位移 ...

0 0 0 0 2025/03/06 arXiv:2410.01131v1 odenkkk

本文通过功能组成的框架探讨了深神经网络的表现力。我们证明,尽管单个网络本身的表达能力有限,但单个固定尺寸的Relu网络的重复组合表现出令人惊讶的表达能力。具体而言,我们通过构造证明了$ \ Mathcal {l} _2 \ circ \ boldsymbol {g}^{\ circ r} \ circ \ circ \ boldsymbol {\ nathcal {l}} _ 1 $ cain _ 1 $ cain cain can y Mative $ 1 $ -lipsChitz持续功能在$ [0,1 $ [0,1 n,and and)上$ \ Mathcal {o}(r^{ - 1/d})$,其中$ \ boldsymbol {g} $由固定大小的relu网络,$ \ boldsymbol {\ boldsymbol {\ nathcal {l}} _ 1 $ and $ \ nathcal {lathcal {lathcal {lathcal {l} $ \ boldsymbol {g}^{\ circ r} $表示$ \ boldsymbol {g} $的$ r $ -Times组成 ...

0 0 0 0 2025/03/06 arXiv:2301.12353v2 odenkkk

我们提出了一个使用视觉运动扩散策略,用多方面的手来学习灵巧操纵的框架。我们的系统可以通过利用快速而响应的远程访问的teleperation设置为四指allegro手来启用复杂的手持操作任务,例如用一只手拧开瓶盖盖子。我们使用增强现实(AR)界面收集高质量的专家演示,该界面跟踪手动运动并应用逆运动和运动重新定位以进行精确控制 ...

0 0 0 0 2025/03/06 arXiv:2503.02587v1 odenkkk

从早期运动原始技术(MP)技术到现代视觉语言模型(VLMS),自主操纵仍然是机器人技术中的关键主题。作为两个极端,基于VLM的方法强调了零拍和自适应操作,但在精细元素的计划中挣扎。相反,基于MP的方法在精确的轨迹概括方面表现出色,但缺乏决策能力 ...

0 0 0 0 2025/03/06 arXiv:2503.02748v1 odenkkk

在本文中,我们提出了一个多模式移动遥控系统,该系统由基于新型的基于视觉的手姿势回归网络(Transteleop)和一种基于IMU的ARM跟踪方法组成。 Transteleop通过低成本深度摄像头观察人的手,不仅生成关节角度,还可以通过图像到图像的翻译过程生成配对机器人手摆姿势的深度图像。基于按键的重建损失探讨了人与机器人手之间的外观和解剖结构的相似之处,并丰富了重建图像的局部特征 ...

0 0 0 0 2025/02/25 arXiv:2003.05212v1 odenkkk

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)