视觉-语言-动作模型(VLA)的迅速出现对机器人技术产生了重大影响。然而,由于分散的接口和分布式设置中固有的通信延迟,它们的部署仍然很复杂。为了解决这个问题,我们引入了 VLAgents,这是一种模块化策略服务器,它在统一的 Gymnasium 风格协议背后抽象出 VLA 推理。至关重要的是,其通信层通过支持用于高速仿真的零拷贝共享内存和用于远程硬件的压缩流来透明地适应上下文。在这项工作中,我们展示了 VLAgents 的架构,并通过集成七个策略(包括 OpenVLA 和 Pi Zero)来验证它。在本地和远程通信的基准测试中,我们进一步展示了它如何优于 OpenVLA、OpenPi 和 LeRobot 提供的默认策略服务器。 VLAgents 可通过此 https URL 获取 ...
我们提出逻辑张量网络:集成自动学习和推理的统一框架。称为实数逻辑的逻辑形式主义是在一阶语言上定义的,其中公式在区间 [0,1] 中具有真值,语义在实数域上具体定义。逻辑常数被解释为实数的特征向量。 Real Logic 促进知识库上的演绎推理和高效的数据驱动的关系机器学习的有根据的集成。我们展示了如何使用 Google 的张量流原语在深度张量神经网络中实现 Real Logic。本文最后通过在一个简单但具有代表性的知识补全示例上应用逻辑张量网络的实验得出结论 ...
大型语言模型 (LLM) 的迅速出现引发了人工智能领域的深刻范式转变,带来了巨大的工程成功,对现代社会的影响日益增大。然而,当前领域中仍然存在一个关键的悖论:尽管具有实证效力,但我们对 LLM 的理论理解仍然处于不成比例的新生阶段,迫使这些系统在很大程度上被视为“黑匣子”。为了解决这种理论碎片化问题,本次调查提出了一种基于生命周期的统一分类法,将研究领域分为六个不同的阶段:数据准备、模型准备、训练、对齐、推理和评估。在此框架内,我们对驱动 LLM 绩效的基础理论和内部机制进行了系统回顾。具体来说,我们分析了核心理论问题,例如数据混合的数学合理性、各种架构的表示限制以及对齐算法的优化动态。超越当前的最佳实践,我们确定了关键的前沿挑战,包括合成数据自我改进的理论限制、安全保证的数学界限以及新兴智能的机械起源。通过将经验观察与严格的科学探究联系起来,这项工作为将 LLM 发展从工程启发法转向有原则的科学学科提供了一个结构化的路线图 ...
自回归模型 (ARM) 目前构成了大型语言模型 (LLM) 的主导范式。基于能量的模型(EBM)代表了另一类模型,该模型历来在 LLM 开发中不太流行,但自然地表征了培训后调整中的最佳策略。在本文中,我们提供了这两个模型类的统一视图。以概率链式法则为起点,我们在函数空间中建立了 ARM 和 EBM 之间的显式双射,并证明它对应于最大熵强化学习中软贝尔曼方程的特殊情况。基于这种双射,我们推导出 ARM 和 EBM 的监督学习之间的等价性。此外,我们通过提供理论误差范围来分析 EBM 到 ARM 的蒸馏。尽管基于下一个 Token 预测范式,但我们的结果提供了有关 ARM 提前计划能力的见解 ...
机器人操纵需要丰富的多模态感知和有效的学习框架来处理复杂的现实任务。透皮(STS)传感器结合了触觉和视觉感知,提供了有前景的传感能力,而现代模仿学习则为策略获取提供了强大的工具。然而,现有的 STS 设计缺乏同时多模态感知,并且触觉跟踪不可靠。此外,将这些丰富的多模态信号集成到基于学习的操纵管道中仍然是一个开放的挑战。我们推出了 TacThru,一种能够同时进行视觉感知和鲁棒触觉信号提取的 STS 传感器,以及 TacThru-UMI,一种利用这些多模态信号进行操作的模仿学习框架。我们的传感器具有完全透明的弹性体、持续照明、新颖的关键线标记和高效的跟踪,而我们的学习系统通过基于 Transformer 的扩散策略集成这些信号。对五项具有挑战性的现实世界任务的实验表明,TacThru-UMI 的平均成功率为 85.5%,显着优于交替触觉-视觉 (66.3%) 和仅视觉 (55.4%) 的基线。该系统在关键场景中表现出色,包括薄而软的物体的接触检测以及需要多模式协调的精确操作。这项工作表明,将同时多模态感知与现代学习框架相结合可以实现更精确、适应性更强的机器人操作 ...
2025 年诺贝尔化学奖金属有机框架 (MOF) 以及莫纳什大学王焕廷团队最近取得的突破,确立了埃级通道作为具有天然集成和烧制 (IF) 动力学的有前途的后硅衬底。然而,利用这些随机、模拟材料来执行确定性、位精确的人工智能工作负载(例如 FP8)仍然是一个悖论。现有的神经拟态方法通常满足于近似,不符合 Transformer 精度标准。为了跨越“从随机离子到确定性浮动”的差距,我们提出了一种原生尖峰微架构。将噪声神经元视为逻辑原语,我们引入了空间组合管道和粘性额外校正机制。对所有 16,129 个 FP8 对的验证确认与 PyTorch 100% 位精确对齐。至关重要的是,我们的架构将线性层延迟降低至 O(log N),从而实现 17 倍的加速。物理模拟进一步证明了针对极端膜泄漏(β 值约为 0.01)的鲁棒性,有效地使系统免受硬件随机性的影响 ...
我们研究允许大型语言模型(LLM)通过推理时间缩放的角度处理任意长的提示。我们提出了递归语言模型(RLM),这是一种通用推理策略,它将长提示视为外部环境的一部分,并允许 LLM 以编程方式检查、分解并在提示片段上递归调用自身。我们发现,RLM 成功地处理了超出模型上下文窗口两个数量级的输入,即使对于较短的提示,在四个不同的长上下文任务中,其质量也显着优于基础 LLM 和常见的长上下文支架,同时每个查询的成本相当(或更便宜) ...
我们提出了超连接,这是一种简单而有效的方法,可以作为剩余连接的替代方法。这种方法专门解决了残差连接变体中观察到的常见缺点,例如梯度消失和表示崩溃之间的跷跷板效应。理论上,超连接允许网络调整不同深度的特征之间的连接强度并动态地重新排列层。我们进行的实验侧重于大型语言模型的预训练,包括密集和稀疏模型,其中超连接比剩余连接显示出显着的性能改进。对视觉任务进行的其他实验也证明了类似的改进。我们预计这种方法将广泛适用并有益于解决各种人工智能问题 ...
我们重新审视序列建模中的一个基本问题:显式自注意力对于强大的性能和推理实际上是必要的吗?我们认为,标准多头注意力最好被视为张量提升的一种形式:隐藏向量被映射到成对交互的高维空间中,并且通过梯度下降约束这个提升的张量来进行学习。这种机制极具表现力,但在数学上不透明,因为经过多层之后,很难用一小部分显式不变量来描述模型。为了探索替代方案,我们提出了一种基于 Grassmann 流的无注意力架构。我们的因果 Grassmann 层不是形成 L × L 注意力矩阵,而是 (i) 线性减少标记状态,(ii) 通过 Plucker 坐标将局部标记对编码为 Grassmann 流形上的二维子空间,以及 (iii) 通过门控混合将这些几何特征融合回隐藏状态。因此,信息通过多尺度局部窗口上的低秩子空间的受控变形来传播,因此核心计算位于有限维流形上,而不是非结构化张量空间中。在 Wikitext-2 语言建模基准上,具有 13 至 1800 万个参数的纯粹基于 Grassmann 的模型实现的验证困惑度约为大小匹配 Transformer 的 10% 至 15%。在 SNLI 自然语言推理任务中,DistilBERT 之上的 Grassmann-Plucker 头的性能略优于 Transformer 头,其最佳验证和测试精度分别为 0.8550 和 0.8538,而相比之下,分别为 0.8545 和 0.8511。我们分析了格拉斯曼混合的复杂性,展示了固定秩的序列长度的线性缩放,并认为这种基于流形的设计为神经推理的几何和基于不变性的解释提供了一种更加结构化的途径 ...
大型语言模型 (LLM) 的快速扩展取得了卓越的性能,但也导致了过高的内存成本。现有的参数有效方法(例如剪枝和量化)主要压缩预训练模型,而没有增强架构能力,从而达到了基础模型的表征上限。在这项工作中,我们提出了 VersatileFFN,这是一种新颖的前馈网络(FFN),可以在固定参数预算内灵活地重用宽度和深度维度的参数。受认知双过程理论的启发,VersatileFFN 包含两条自适应路径:宽度通用路径,从单个共享 FFN 生成子专家的混合,在不增加参数的情况下模仿稀疏专家路由;以及深度通用路径,递归应用相同的 FFN 来模拟复杂标记的更深层处理。难度感知门控动态平衡两条路径,通过有效的宽度方向引导“简单” Token ,并将更深入的迭代细化分配给“困难” Token 。至关重要的是,这两种途径都重用相同的参数,因此所有额外的容量都来自计算而不是内存。不同基准和模型规模的实验证明了该方法的有效性。该代码将在此 https URL 中提供 ...