蛋白质折叠模型通常通过将领域知识集成到架构模块和训练管道中来实现突破性的结果。尽管如此,鉴于生成模型在不同但相关的问题上取得了成功,人们很自然地会质疑这些架构设计是否是构建高性能模型的必要条件。在本文中,我们介绍了 SimpleFold,这是第一个基于流匹配的蛋白质折叠模型,仅使用通用 Transformer 模块。蛋白质折叠模型通常采用计算量大的模块,涉及三角更新、显式对表示或针对该特定领域策划的多个训练目标。相反,SimpleFold 采用具有自适应层的标准转换器块,并通过带有附加结构项的生成流匹配目标进行训练。我们将 SimpleFold 扩展到 3B 参数,并在大约 9M 的蒸馏蛋白质结构和实验 PDB 数据上对其进行训练。在标准折叠基准上,与最先进的基线相比,SimpleFold-3B 实现了具有竞争力的性能,此外,SimpleFold 在集成预测方面表现出了强大的性能,这对于通过确定性重建目标训练的模型来说通常是困难的。由于其通用架构,SimpleFold 显示了在消费级硬件上的部署和推理效率。 SimpleFold 挑战了蛋白质折叠中对复杂领域特定架构设计的依赖,为未来的进步开辟了替代设计空间 ...

0 0 0 0 2025/11/18 arXiv:2509.18480v2 odenkkk

在机器学习的快速进步和大规模机器人数据的可用性不断增长的推动下,机器人学习正处于拐点。从经典的、基于模型的方法到数据驱动的、基于学习的范式的转变正在释放自主系统前所未有的能力。本教程探讨了现代机器人学习的前景,绘制了从强化学习和行为克隆的基本原理到能够跨不同任务甚至机器人实施例运行的通才、语言条件模型的课程。这项工作旨在为研究人员和从业者提供指南,我们的目标是为读者提供促进机器人学习发展所需的概念理解和实用工具,并在 $\texttt{lerobot}$ 中实现现成的示例 ...

0 0 0 0 2025/11/11 arXiv:2510.12403v1 odenkkk

我们认为,真正的多模态智能的进步需要从反应性、任务驱动系统和强力长上下文转向更广泛的超感知范式。我们将空间超感知视为超越纯语言理解的四个阶段:语义感知(命名所看到的内容)、流事件认知(在连续体验中维护记忆)、隐式 3D 空间认知(推断像素背后的世界)和预测世界建模(创建过滤和组织信息的内部模型)。目前的基准测试主要只测试早期阶段,提供了狭窄的空间认知覆盖范围,并且很少以需要真实世界建模的方式挑战模型。为了推动空间超感知的进步,我们提出了 VSI-SUPER,这是一个由两部分组成的基准:VSR(长视距视觉空间回忆)和 VSC(连续视觉空间计数)。这些任务需要任意长的视频输入,但可以抵抗暴力上下文扩展。然后,我们通过策划 VSI-590K 和训练 Cambrian-S 来测试数据扩展限制,在 VSI-Bench 上实现 +30% 的绝对改进,而无需牺牲一般功能。然而,VSI-SUPER 的性能仍然有限,这表明仅靠规模不足以实现空间超感知。我们提出预测传感作为前进的道路,提出了一种概念验证,其中自监督的下一个潜在帧预测器利用意外(预测误差)来驱动记忆和事件分割。在 VSI-SUPER 上,这种方法大大优于领先的专有基线,这表明空间超感知需要的模型不仅能够看到而且能够预测、选择和组织经验 ...

0 0 0 0 2025/11/10 arXiv:2511.04670v1 odenkkk

灵巧的操作需要精确的几何推理,但现有的视觉触觉学习方法难以完成传统基于模型的方法的常规亚毫米精度任务。我们发现了一个关键的限制:虽然触觉传感器提供丰富的接触信息,但当前的学习框架无法有效地利用触觉信号的感知丰富性及其与手部运动学的空间关系。我们认为,理想的触觉表示应该在稳定的参考系中明确地进行接触测量,同时保留详细的感官信息,使策略不仅能够检测接触的发生,而且能够精确地推断手坐标系中的物体几何形状。我们引入了 SaTA(用于灵巧操作的空间锚定触觉意识),这是一种端到端策略框架,通过正向运动学将触觉特征明确锚定到手的运动学框架,从而无需对象模型或显式姿态估计即可实现精确的几何推理。我们的主要见解是,基于空间的触觉表示使策略不仅可以检测接触的发生,还可以精确推断手坐标系中的对象几何形状。我们在具有挑战性的灵巧操作任务上验证了 SaTA,包括自由空间中的双手 USB-C 插接、需要亚毫米对准精度的任务、需要精确螺纹啮合和旋转控制的灯泡安装,以及需要微妙的力调制和角度精度的卡滑动。由于其严格的精度要求,这些任务对基于学习的方法提出了重大挑战。在多个基准测试中,SaTA 的性能显着优于强大的视觉触觉基准,将成功率提高了 30%,同时将任务完成时间缩短了 27% ...

0 0 0 0 2025/11/10 arXiv:2510.14647v1 odenkkk

这不是对世界模式的典型调查;它是那些想要构建世界的人的指南。我们的目标并不是对每一篇提到“世界模型”的论文进行分类。相反,我们遵循一条清晰的道路:从早期统一跨模态表示学习的屏蔽模型,到共享单一范式的统一架构,然后到关闭动作感知循环的交互式生成模型,最后到随着时间的推移维持一致世界的记忆增强系统。我们绕过松散相关的分支,专注于核心:生成心脏、交互循环和记忆系统。我们证明这是通往真实世界模型的最有希望的道路 ...

0 0 0 0 2025/11/07 arXiv:2510.20668v1 odenkkk

由生成模型参数化的隐式策略(例如扩散策略)已成为机器人技术中策略学习和视觉-语言-动作(VLA)模型的标准。然而,这些方法通常面临计算成本高、暴露偏差和推理动态不稳定的问题,从而导致分布变化下的发散。基于能源的模型 (EBM) 通过端到端学习能源景观和平衡动态建模来解决这些问题,从而提高稳健性并减少暴露偏差。然而,由 EBM 参数化的政策历来难以有效扩展。最近关于基于能量的 Transformer (EBT)的工作证明了 EBM 在高维空间中的可扩展性,但它们解决物理实体模型中核心挑战的潜力仍未得到充分开发。我们引入了一种新的基于能源的架构,EBT-Policy,它解决了机器人和现实世界环境中的核心问题。在模拟和现实世界的任务中,EBT-Policy 始终优于基于扩散的策略,同时需要较少的训练和推理计算。值得注意的是,在某些任务上,它只需两个推理步骤即可收敛,与 Diffusion Policy 的 100 步相比减少了 50 倍。此外,EBT-Policy 展现了先前模型中未见的新兴功能,例如仅使用行为克隆且无需显式重试训练即可从失败的动作序列中进行零样本恢复。通过利用其标量能量进行不确定性感知推理和动态计算分配,EBT-Policy 为在分布变化下实现稳健、可概括的机器人行为提供了一条有前途的道路 ...

0 0 0 0 2025/11/06 arXiv:2510.27545v1 odenkkk

在本文中,我们展示了如何使用单个消费级 GPU 以 30Hz 帧速率和最多 480Hz 轨迹频率运行 pi0 级多视图 VLA。这使得以前认为大型 VLA 模型无法完成的动态和实时任务成为可能。为了实现这一目标,我们引入了一系列策略来消除模型推理中的开销。现实世界的实验表明,pi0 策略与我们的策略在抓取落笔任务方面实现了 100% 的成功率。基于结果,我们进一步提出了用于 VLA 实时机器人控制的全流式推理框架。代码可从此 https URL 获取 ...

0 0 0 0 2025/11/06 arXiv:2510.26742v1 odenkkk

扩散和流动匹配模型已成为强大的机器人策略,使视觉-语言-动作(VLA)模型能够泛化到不同的场景和指令。然而,当通过模仿学习进行训练时,它们的高生成能力使它们对人类演示中的噪音敏感:抽动、停顿和抖动,这些都会降低动作的连贯性。动作一致性的降低会导致部署过程中的不稳定和轨迹漂移,这在精度至关重要的细粒度操作中会造成灾难性的故障。在本文中,我们提出了 VLA 模型的动作连贯性指导(ACG),这是一种无需训练的测试时指导算法,可以提高动作连贯性,从而提高性能。经过对 RoboCasa、DexMimicGen 和现实世界 SO-101 任务的评估,ACG 不断提高动作连贯性并提高各种操作任务的成功率。代码和项目页面分别可在此 https URL 和此 https URL 获取 ...

0 0 0 0 2025/11/06 arXiv:2510.22201v1 odenkkk

大多数等变神经网络依赖于单一的全局对称性,这限制了它们在对称性为局部对称性的领域中的使用。我们引入了 Torsor CNN,这是一个用于学习图的框架,其中局部对称性被编码为边缘势——相邻坐标系之间的群值变换。我们确定这种几何构造基本上等同于经典的群同步问题,产生:(1)一个 Torsor 卷积层,可证明与坐标系中的局部变化等变,以及(2)挫败损失——一个独立的几何正则化器,当添加到任何神经网络的训练目标时,它鼓励局部等变表示 ...

0 0 0 0 2025/11/06 arXiv:2510.23288v1 odenkkk

OpenAI 的 Sora 强调了视频生成对于开发遵守基本物理定律的世界模型的潜力。然而,视频生成模型在没有人类先验的情况下纯粹从视觉数据发现这些规律的能力可能会受到质疑。学习真实规律的世界模型应该能够对细微差别做出稳健的预测,并正确地推断出未见过的场景 ...

0 0 0 0 2025/11/04 arXiv:2411.02385v2 odenkkk