odenkkk的文档

End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection

实现像人类一样的灵巧操作仍然是通用机器人面临的主要挑战。虽然视觉-语言-动作 (VLA) 模型显示出通过演示学习技能的潜力，但其可扩展性受到稀缺的高质量训练数据的限制。现有的数据收集方法面临固有的限制：手动远程操作使操作员负担过重，而自动规划往往会产生不自然的运动。我们提出了一个共享自治框架，将控制分为宏观运动和微观运动。人类操作员通过直观的 VR 远程操作引导机器人的手臂姿势，而自主的 DexGrasp-VLA 策略则使用实时触觉和视觉反馈来处理细粒度的手部控制。这种划分显着减少了认知负荷，并能够有效收集高质量的协调臂手演示。利用这些数据，我们训练了一个端到端的 VLA 策略，该策略通过我们新颖的手臂-手特征增强模块得到增强，该模块捕获宏观和微观运动的独特和共享表示，以实现更自然的协调。我们的纠正性远程操作系统通过人在环故障恢复来实现持续的策略改进。实验表明，我们的框架可以用最少的人力生成高质量的数据，并在不同的对象（包括未见过的实例）上实现 90% 的成功率。综合评估验证了系统在发展灵巧操控能力方面的有效性 ...

0 0 0 0 2025/11/26 arXiv:2511.00139v1 odenkkk

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

我们提出了视觉自回归建模（VAR），这是一种新一代范式，它将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与标准光栅扫描“下一个标记预测”不同。这种简单、直观的方法使自回归 (AR) 转换器能够快速学习视觉分布并很好地概括：VAR 首次使类似 GPT 的 AR 模型在图像生成方面超越了扩散转换器。在 ImageNet 256x256 基准上，VAR 通过将 Frechet 起始距离 (FID) 从 18.65 提高到 1.73、起始分数 (IS) 从 80.4 提高到 350.2，显着改善了 AR 基线，推理速度提高了约 20 倍。实证还验证了 VAR 在图像质量、推理速度、数据效率和可扩展性等多个维度上均优于 Diffusion Transformer (DiT)。扩大 VAR 模型表现出清晰的幂律缩放定律，与 LLM 中观察到的相似，线性相关系数接近 -0.998，这是确凿的证据。 VAR 进一步展示了下游任务中的零样本泛化能力，包括图像内画、外画和编辑。这些结果表明 VAR 最初模拟了 LLM 的两个重要属性：缩放定律和零样本任务泛化。我们已经发布了所有模型和代码，以推动AR/VAR模型在视觉生成和统一学习方面的探索 ...

0 0 0 0 2025/11/25 arXiv:2404.02905v2 odenkkk

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

世界模型使智能代理能够想象、预测和推理世界如何响应其行为而演变，并相应地制定计划和战略。虽然最近的视频生成模型产生逼真的视觉序列，但它们通常以从提示到完整视频的方式运行，没有因果控制、交互性或有目的推理所需的长期一致性。另一方面，现有的世界建模工作通常侧重于深度和可控性有限的受限领域（例如物理、游戏或 3D 场景动态），并且很难在不同的环境和交互格式中进行泛化。在这项工作中，我们介绍了 PAN，这是一种通用的、可交互的、长视野的世界模型，它通过以历史和自然语言动作为条件的高质量视频模拟来预测未来的世界状态。 PAN 采用生成潜在预测 (GLP) 架构，该架构结合了基于大语言模型 (LLM) 的自回归潜在动态主干，该模型以广泛的基于文本的知识为基础进行模拟，并能够对语言指定的动作进行调节，与视频扩散解码器一起重建感知细节和时间连贯的视觉观察，以实现潜在空间推理（想象）和可实现的世界动态（现实）之间的统一。 PAN 经过跨不同领域的大规模视频动作对的训练，支持具有连贯、长期动态的开放域、动作条件模拟。大量实验表明，与其他视频生成器和世界模型相比，PAN 在动作条件世界模拟、长视野预测和模拟推理方面取得了强大的性能，向通用世界模型迈出了一步，能够对未来世界状态进行预测模拟以进行推理和行动 ...

0 0 0 0 2025/11/21 arXiv:2511.09057v3 odenkkk

$π^{*}_{0.6}$: a VLA That Learns From Experience

我们研究视觉-语言-动作（VLA）模型如何通过强化学习（RL）在现实世界的部署中得到改进。我们提出了一种通用方法，即通过优势条件策略进行经验和修正的强化学习 (RECAP)，它通过优势条件条件为 VLA 提供强化学习训练。我们的方法将异构数据纳入自我改进过程，包括演示、政策收集的数据以及自主执行期间提供的专家远程操作干预。 RECAP 首先使用离线 RL 预训练通用 VLA，我们将其称为 $\pi^{*}_{0.6}$，然后可以通过机器人数据收集专门实现下游任务的高性能。我们证明，使用完整 RECAP 方法训练的 $\pi^{*}_{0.6}$ 模型可以在真实家庭中折叠衣物、可靠地组装盒子，并使用专业浓缩咖啡机制作浓缩咖啡。在一些最困难的任务上，RECAP 使任务吞吐量增加了一倍以上，并将任务失败率大约降低一半 ...

0 2 0 0 2025/11/20 arXiv:2511.14759v2 odenkkk

TiDAR: Think in Diffusion, Talk in Autoregression

扩散语言模型有望实现快速并行生成，而自回归 (AR) 模型通常由于其因果结构与语言建模自然一致而在质量上表现出色。这就提出了一个基本问题：我们能否实现高吞吐量、更高 GPU 利用率和 AR 级别质量的协同作用？现有方法未能有效平衡这两方面，要么优先考虑 AR，使用较弱的模型进行顺序绘图（推测解码），导致绘图效率较低，要么使用某种形式的从左到右（类似 AR）解码逻辑进行扩散，但仍然会遭受质量下降并丧失其潜在的并行性。我们引入了 TiDAR，一种序列级混合架构，它在 Diffusion 中起草 token（Thinking）并自动回归采样最终输出（Talking）——所有这些都在使用专门设计的结构化注意力掩模的单个前向传递中进行。该设计利用了免费的 GPU 计算密度，在绘图和验证能力之间实现了强有力的平衡。此外，TiDAR 作为独立模型被设计为服务友好（低开销）。我们针对 AR 模型、推测性解码和 1.5B 和 8B 尺度的生成和似然任务的扩散变体广泛评估 TiDAR。得益于并行绘图和采样以及精确的 KV 缓存支持，TiDAR 在测量吞吐量方面优于推测解码，并在效率和质量方面优于 Dream 和 Llada 等扩散模型。最值得注意的是，TiDAR 是第一个缩小与 AR 模型质量差距的架构，同时每秒提供 4.71 倍到 5.91 倍的 Token ...

0 0 0 0 2025/11/20 arXiv:2511.08923v1 odenkkk

Entangled Schrödinger Bridge Matching

在复杂的能量景观上模拟多粒子系统的轨迹是分子动力学 (MD) 和药物发现的核心任务，但由于计算成本昂贵且模拟时间长，在规模上仍然具有挑战性。以前的方法利用流或薛定谔桥匹配等技术通过数据快照隐式学习关节轨迹。然而，许多系统，包括生物分子系统和异质细胞群，都会经历沿其轨迹演变的动态相互作用，并且无法通过静态快照捕获。为了弥补这一差距，我们引入了纠缠薛定谔桥匹配（EntangledSBM），这是一个学习相互作用的多粒子系统的一阶和二阶随机动力学的框架，其中每个粒子路径的方向和大小动态依赖于其他粒子的路径。我们将纠缠薛定谔桥 (EntangledSB) 问题定义为求解纠缠粒子速度的偏置力耦合系统。我们表明，我们的框架准确地模拟了高维生物分子系统中扰动和罕见转变下的异质细胞群 ...

0 0 0 0 2025/11/20 arXiv:2511.07406v1 odenkkk

How to build a consistency model: Learning flow maps via self-distillation

基于 Boffi 等人 (2024) 提出的框架，我们提出了一种系统方法来学习与流量和扩散模型相关的流量图。基于流程图的模型，通常称为一致性模型，包含最近为提高基于微分方程解的生成模型的效率所做的努力。通过利用连续时间流下的速度场与流图的瞬时变化率之间的关系，我们展示了如何通过自蒸馏将现有的蒸馏方案转换为直接训练算法，从而消除了对预训练模型的需要。我们根据经验评估了我们框架的几个实例，发现像图像合成这样的高维任务受益于避免流图的时间和空间导数的目标函数，而低维任务可以受益于结合高阶导数的目标来捕获清晰的特征 ...

0 0 0 0 2025/11/20 arXiv:2505.18825v2 odenkkk

Solving a Million-Step LLM Task with Zero Errors

LLM 在推理、洞察力和工具使用方面取得了显着的突破，但将这些能力链接到人类、组织和社会日常执行的扩展流程中仍然遥不可及。这些模型具有持续的错误率，无法扩大规模：例如，最近在河内塔基准域中进行的实验表明，该过程在最多几百步后不可避免地会脱轨。因此，尽管 LLM 研究通常仍然以具有相对较少依赖逻辑步骤的任务为基准，但人们越来越关注 LLM 执行长期任务的能力（或无能力）。本文介绍了 MAKER，这是第一个成功解决超过一百万个 LLM 步骤且零错误的任务的系统，并且原则上其规模远远超出了这一水平。该方法依赖于将任务极端分解为子任务，每个子任务都可以由集中的微代理来处理。分解产生的高水平模块化允许通过高效的多智能体投票方案在每一步应用纠错。这种极端分解和纠错的结合使得缩放成为可能。因此，结果表明，大规模分解代理过程（MDAP）可以提供一种有效解决组织和社会层面问题的方法，而不是依赖于当前 LLM 的持续改进 ...

0 0 0 0 2025/11/20 arXiv:2511.09030v1 odenkkk

LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics

学习可操纵的世界表征及其动态是人工智能的核心。联合嵌入预测架构（JEPA）提供了一个有前景的蓝图，但缺乏实践指导和理论导致了临时研发。我们提出了 JEPA 的综合理论，并在 {\bf LeJEPA} 中实例化它，这是一个精益、可扩展且有理论基础的培训目标。首先，我们将各向同性高斯确定为 JEPA 嵌入应遵循的最佳分布，以最大限度地减少下游预测风险。其次，我们引入了一个新颖的目标——{\bf 草绘各向同性高斯正则化}（SIGReg）——来约束嵌入以达到理想的分布。将 JEPA 预测损失与 SIGReg 相结合，产生的 LeJEPA 具有许多理论和实践优势：(i) 单一权衡超参数，(ii) 线性时间和内存复杂性，(iii) 跨超参数、架构（ResNets、ViTs、ConvNets）和域的稳定性，(iv) 无启发式，例如，无停止梯度、无师生、无超参数调度器，以及 (v) 分布式训练友好的实施仅需要 $\approx$50 行代码。我们的实证验证涵盖 10 多个数据集、60 多个架构，所有这些都具有不同的规模和领域。例如，使用 imagenet-1k 进行预训练和冻结主干的线性评估，LeJEPA 在 ViT-H/14 下达到 79\%。我们希望 LeJEPA 提供的简单性和理论友好的生态系统将重新建立自我监督预训练作为人工智能研究的核心支柱（\href{此 https URL}{GitHub 存储库}） ...

0 0 0 0 2025/11/19 arXiv:2511.08544v3 odenkkk

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

我们推出了 Infinity，一种按位视觉自回归建模，能够根据语言指令生成高分辨率、逼真的图像。 Infinity 在按位标记预测框架下重新定义了视觉自回归模型，具有无限词汇标记器和分类器以及按位自校正机制，显着提高了生成能力和细节。通过理论上将分词器词汇量大小扩展到无穷大并同时缩放 Transformer 大小，与普通 VAR 相比，我们的方法显着释放了强大的缩放功能 ...

0 0 0 0 2025/11/18 arXiv:2412.04431v2 odenkkk