许多科学问题需要以几何图形的形式处理数据。与通用图形数据不同,几何图形表现出平移、旋转和/或反射的对称性。研究人员利用这种归纳偏差,开发了几何等变图神经网络(GNN),以更好地表征几何图的几何形状和拓扑 ...
深度学习和 Transformer 领域的最新进展通过采用模仿学习、强化学习和基于 LLM 的多模态感知和决策等技术,推动了机器人技术的重大突破。然而,传统的深度学习和 Transformer 模型通常难以处理具有固有对称性和不变性的数据,通常依赖于大型数据集或广泛的数据增强。等变神经网络通过将对称性和不变性明确地集成到其架构中来克服这些限制,从而提高效率和泛化能力 ...
数据以连续流的形式到达我们的感官,从一个瞬间平稳地转换到下一个瞬间。这些平滑的转变可以被视为我们所居住的环境的连续对称性,定义了刺激之间随时间的等价关系。在机器学习中,尊重数据对称性的神经网络架构被称为等变,并且在泛化能力和样本效率方面具有经过证明的优势 ...
最近加速 LLM 预训练的努力主要集中在利用二阶结构的计算高效的近似上。这就提出了大规模训练的一个关键问题:这些近似会损失多少性能?为了探讨这个问题,我们通过将完整的高斯牛顿 (GN) 预处理应用于最多 150M 参数的 Transformer 模型,建立了迭代复杂性的实用上限。我们的实验表明,与现有优化器相比,完整的 GN 更新带来了显着的收益,达到了 5 ...
状态空间模型 (SSM) 已成为序列建模中 Transformer 的主要替代方案。它们的主要优点是通过固定大小的内存和计算复杂性的线性缩放实现长上下文和长格式生成的效率。我们通过展示一个简单的理论结果来开始这项工作,表明 SSM 无法准确解决任何“真正的长形式”发电问题(在某种意义上我们正式定义),从而削弱了它们的主要竞争优势 ...
众所周知,神经网络是非线性的。然而,线性度是相对于一对向量空间 $f$$:$$X$$\to$$Y$ 定义的。是否有可能识别一对非标准向量空间,而传统的非线性函数实际上是线性的?本文介绍了一种通过构造使此类向量空间显式化的方法 ...
人们普遍认为触觉反馈对于与物理世界的有效交互至关重要。然而,最先进的视觉-语言-动作(VLA)模型缺乏解释和使用触觉信号的能力,限制了它们在接触丰富的任务中的有效性。由于缺乏大型多模式数据集,将触觉反馈纳入这些系统具有挑战性 ...
我们提出了 VLH,一种新颖的视觉语言触觉基础模型,它统一了空中机器人和虚拟现实中的感知、语言和触觉反馈。与之前将触觉视为辅助反应通道的工作不同,VLH 合成空中力和振动提示,作为上下文视觉理解和自然语言命令的直接结果。我们的平台包括一个 8 英寸四轴飞行器,配备用于局部触觉驱动的双反向五连杆阵列、一个以自我为中心的 VR 相机和一个外心自上而下的视图 ...
最近的视觉语言动作(VLA)模型以视觉基础为基础,并实现了有希望的结果,并在机器人操纵中表现出了任务概括的可能性。但是,由于触觉传感器的异质性和获取触觉数据的困难,当前的VLA模型极大地忽略了触觉感知的重要性,并且在接触丰富的任务中失败了。为了解决这个问题,本文提出了Omnivtla,这是一种涉及触觉感应的新型建筑 ...
机器人触觉感知是一个复杂的过程,涉及在不同级别执行的多个计算步骤。触觉信息是由机器人动作、其身体的机械特性以及处理数据的软件的相互作用形成的。在这方面,处理和提取信息所需的高级计算通常是通过采用其他领域的现有技术来执行的,例如计算机视觉,它期望输入数据具有正确的结构 ...