视觉-语言-动作(VLA)模型最近在机器人操作方面表现出了强大的泛化能力。一些现有的 VLA 方法试图通过在动作执行之前显式生成语言推理轨迹或未来的视觉观察来提高动作准确性。然而,显式推理通常会产生不可忽略的推理延迟,这限制了机器人操作所需的时间分辨率。此外,这种推理仅限于语言空间,造成了难以忠实地捕捉不可言喻的物理属性的表征瓶颈。为了缓解这些限制,我们提出了 LaST$_0$,这是一个框架,可以在通过潜在时空思维链 (CoT) 进行行动之前实现高效推理,捕获通常难以用语言表达的细粒度物理和机器人动态。具体来说,我们引入了一个 Token 有效的潜在 CoT 空间,它可以对未来的视觉动态、3D 结构信息和机器人本体感受状态进行建模,并进一步跨时间扩展这些表示,以实现时间一致的隐式推理轨迹。此外,LaST$_0$ 采用通过 Mixture-of-Transformers 设计实现的双系统架构,其中推理专家进行低频潜在推理,代理专家根据面向机器人的潜在表示生成高频动作。为了促进协调,LaST$_0$ 使用异构操作频率进行训练,从而在部署期间实现推理和动作推理速率之间的自适应切换。在 10 个模拟任务和 6 个现实世界操作任务中,LaST$_0$ 比之前的 VLA 方法分别将平均成功率提高了 8% 和 13%,同时实现了更快的推理速度。项目网站:这个https URL ...
自回归模型 (ARM) 目前构成了大型语言模型 (LLM) 的主导范式。基于能量的模型(EBM)代表了另一类模型,该模型历来在 LLM 开发中不太流行,但自然地表征了培训后调整中的最佳策略。在本文中,我们提供了这两个模型类的统一视图。以概率链式法则为起点,我们在函数空间中建立了 ARM 和 EBM 之间的显式双射,并证明它对应于最大熵强化学习中软贝尔曼方程的特殊情况。基于这种双射,我们推导出 ARM 和 EBM 的监督学习之间的等价性。此外,我们通过提供理论误差范围来分析 EBM 到 ARM 的蒸馏。尽管基于下一个 Token 预测范式,但我们的结果提供了有关 ARM 提前计划能力的见解 ...
基于可能性的策略梯度方法是通过奖励训练机器人控制策略的主要方法。这些方法依赖于可微分的行动可能性,这将政策输出限制为高斯等简单分布。在这项工作中,我们展示了流匹配策略梯度(一种绕过似然计算的最新框架)如何在具有挑战性的机器人控制设置中有效地训练和微调更具表现力的策略。我们引入了一种改进的目标,可以成功完成腿部运动、人形运动跟踪和操纵任务,以及在两个人形机器人上实现稳健的模拟到真实的传输。然后我们对训练动态进行消融和分析。结果表明,在从头开始训练时,策略如何利用流表示进行探索,以及如何提高相对于基线的微调鲁棒性 ...
算法设计(AD)对于有效解决各个领域的问题至关重要。大型语言模型 (LLM) 的出现显着增强了该领域的自动化和创新,提供了新的视角和有前景的解决方案。在过去的三年里, LLM 与AD的整合(LLM4AD)取得了实质性进展,其应用领域涵盖优化、机器学习、数学推理和科学发现。鉴于该领域的快速发展和范围不断扩大,系统评价既及时又必要。本文对 LLM4AD 进行了系统回顾。首先,我们对现有研究进行概述和总结。然后,我们介绍了分类法,并从四个维度回顾了文献: LLM 的作用、搜索方法、提示方法和应用领域,并讨论了 LLM 在AD领域的潜力和成就。最后,我们确定了当前的挑战并强调了未来研究的几个有希望的方向 ...
本文介绍了 Youtu-Parsing,这是一种高效、多功能的文档解析模型,专为高性能内容提取而设计。该架构采用原生 Vision Transformer (ViT),具有动态分辨率视觉编码器来提取共享文档特征,并结合提示引导的 Youtu-LLM-2B 语言模型进行布局分析和区域提示解码。利用这种解耦且功能可重用的框架,我们引入了一种高并行性解码策略,该策略包含两个核心组件: Token 并行性和查询并行性。 Token 并行策略在每个推理步骤中同时生成最多 64 个候选 Token ,随后通过验证机制对其进行验证。与传统自回归解码相比,这种方法的速度提高了 5--11 倍,特别适合高度结构化的场景,例如表格识别。为了进一步利用区域提示解码的优势,查询并行策略支持同时预测多个边界框(最多 5 个),提供额外 2 倍的加速,同时保持与标准解码相当的输出质量。优图解析包含多种文档元素,包括文本、公式、表格、图表、印章和层次结构。此外,该模型在处理罕见字符、多语言文本和手写内容时表现出很强的鲁棒性。广泛的评估表明,Youtu-Parsing 在 OmniDocBench 和 olmOCR-bench 基准测试中均实现了最先进 (SOTA) 的性能。总体而言,Youtu-Parsing 对于大规模文档智能应用展示了显着的实验价值和实用性 ...
视觉-语言-动作(VLA)模型最近因其强大的推理能力和丰富的世界知识而在端到端自动驾驶领域引起了越来越多的关注。然而,现有的 VLA 往往受到有限的数值推理能力和过于简化的输入输出映射的影响,这阻碍了它们在需要逐步因果推理的复杂驾驶场景中的性能。为了应对这些挑战,我们提出了 CoT4AD,这是一种新颖的 VLA 框架,它引入了自动驾驶的思想链 (CoT) 推理,以增强视觉语言模型 (VLM) 中的数值和因果推理。 CoT4AD 集成了视觉观察和语言指令来执行语义推理、场景理解和轨迹规划。在训练过程中,它明确地建模了感知-问题-预测-动作 CoT,以将多个驾驶任务中的推理空间与动作空间保持一致。在推理过程中,它执行隐式 CoT 推理,以在动态环境中实现一致的数值推理和稳健的决策。对真实世界和模拟基准(包括 nuScenes 和 Bench2Drive)的大量实验表明,CoT4AD 在开环和闭环评估中均实现了最先进的性能。代码将在论文接受后发布 ...
我们推出 ReasonIR-8B,这是第一个专门训练用于一般推理任务的检索器。现有的检索器在推理任务上表现出的收益有限,部分原因是现有的训练数据集侧重于与直接回答它们的文档相关的简短事实查询。我们开发了一个合成数据生成管道,对于每个文档,我们的管道都会创建一个具有挑战性且相关的查询,以及看似相关但最终无用的硬否定。通过对我们的合成数据和现有公共数据进行混合训练,ReasonIR-8B 在 BRIGHT(广泛使用的推理密集型信息检索 (IR) 基准)上实现了新的最先进水平:不带重新排序器的 29.9 nDCG@10 和带重新排序器的 36.9 nDCG@10。当应用于 RAG 任务时,相对于闭卷基线,ReasonIR-8B 的 MMLU 和 GPQA 性能分别提高了 6.4% 和 22.6%,优于其他检索器和搜索引擎。此外,ReasonIR-8B 更有效地使用测试时计算:在 BRIGHT 上,其性能随着更长、信息更丰富的重写查询而持续提高;当与 LLM 重新排序器结合使用时,它继续优于其他检索器。我们的培训方案是通用的,可以轻松扩展到未来的 LLM ;为此,我们开源我们的代码、数据和模型 ...
LLM 代理在软件开发方面表现出了卓越的能力,但其性能受到长交互上下文的阻碍,这会导致高昂的 API 成本和延迟。虽然已经出现了 LongLLMLingua 等各种上下文压缩方法来应对这一挑战,但它们通常依赖于 PPL 等固定指标,而忽略了代码理解的特定于任务的性质。因此,它们经常破坏语法和逻辑结构,并且无法保留关键的实现细节。在本文中,我们提出了 SWE-Pruner,一种专为编码代理量身定制的自适应上下文修剪框架。 SWE-Pruner 从人类程序员在开发和调试过程中“选择性浏览”源代码的方式中汲取灵感,对长上下文执行任务感知的自适应剪枝。给定当前任务,代理制定明确的目标(例如,“专注于错误处理”)作为指导修剪目标的提示。轻量级神经撇渣器(0.6B 参数)经过训练,可以根据目标从周围环境中动态选择相关行。对四个基准和多个模型的评估验证了 SWE-Pruner 在各种场景中的有效性,在 SWE-Bench Verified 等代理任务上实现了 23-54% 的 Token 减少,同时甚至提高了成功率,在 LongCodeQA 等单轮任务上实现了高达 14.84 倍的压缩,同时对性能影响最小 ...
我们基于与先前标记的局部相似性,通过对从大型语料库检索到的文档块进行调节来增强自回归语言模型。凭借价值 2 万亿美元的 Token 数据库,我们的检索增强型 Transformer (RETRO) 获得了与 Pile 上的 GPT-3 和 Jurassic-1 相当的性能,尽管使用的参数少了 25$\times$。经过微调后,RETRO 性能转化为下游知识密集型任务,例如问答。 RETRO 结合了冻结的 Bert 检索器、可微分编码器和分块交叉注意力机制,根据比训练期间通常消耗的数据多一个数量级的数据来预测 Token 。我们通常从头开始训练 RETRO,但也可以通过检索快速 RETROfit 预训练的 Transformer,并且仍然获得良好的性能。我们的工作开辟了通过外显记忆以前所未有的规模改进语言模型的新途径 ...
作为人工智能领域最先进的技术之一,检索增强生成(RAG)可以提供可靠且最新的外部知识,为众多任务提供巨大便利。特别是在人工智能生成内容(AIGC)时代,强大的检索能力提供额外的知识,使RAG能够协助现有的生成式人工智能产生高质量的输出。最近,大型语言模型(LLM)在语言理解和生成方面表现出了革命性的能力,但仍然面临着固有的局限性,例如幻觉和过时的内部知识。鉴于RAG在提供最新且有用的辅助信息方面的强大能力,检索增强大型语言模型(RA-LLM)应运而生,利用外部权威知识库,而不是仅仅依赖模型的内部知识,来提高LLM的生成质量。在本次调查中,我们全面回顾了 RA-LLM 的现有研究,涵盖三个主要技术视角:架构、培训策略和应用。作为预备知识,我们简要介绍了LLM的基础和最新进展。然后,为了说明RAG对LLM的实际意义,我们从架构、培训策略和应用领域系统地回顾了主流相关工作,具体详细说明了每个RA-LLM面临的挑战以及相应的能力。最后,为了提供更深入的见解,我们讨论了当前的局限性和未来研究的几个有希望的方向。有关此调查的更新信息可以在此 https URL 中找到 ...