实体代理面临着一个根本性的限制:一旦部署在现实环境中执行特定任务,它们就无法获取额外的知识来提高任务性能。在本文中,我们提出了一种通用的部署后学习框架 Dejavu,它采用经验反馈网络(EFN)并通过检索执行记忆来增强冻结的视觉-语言-动作(VLA)策略。 EFN 根据检索到的指导识别上下文先前的行动经验和条件行动预测。我们采用具有语义相似性奖励的强化学习来训练 EFN,确保预测的动作与当前观察下的过去行为一致。在部署过程中,EFN 不断用新的轨迹丰富其记忆,使代理能够表现出“从经验中学习”。跨不同具体任务的实验表明,EFN 比冻结基线提高了适应性、稳健性和成功率。我们在补充材料中提供了代码和演示 ...

0 0 0 0 2026/03/11 arXiv:2510.10181v2 xj

充分利用配备机械臂的四足机器人的局部操纵能力并非易事,因为它需要控制四足机器人的所有自由度(DoF)以实现有效的全身协调。在这封信中,我们提出了一种新颖的框架RoboDuet,它采用两种协作策略同时实现运动和操纵,通过相互交互实现全身控制。除了实现大范围 6D 姿态跟踪以进行操作之外,我们发现双策略框架支持现实世界中具有相似形态和物理尺寸的四足机器人之间的零镜头传输。我们的实验表明,在采用全身控制的挑战性局部操纵任务中,RoboDuet 的成功率比基线提高了 23%。为了支持进一步的研究,我们在我们的网站上提供开源代码和其他视频:此 http URL ...

0 0 0 0 2026/03/11 arXiv:2403.17367v5 lrk

多模态推理需要语言和视觉之间的迭代协调,但目前尚不清楚什么构成了有意义的交错思维链。我们认为文本和图像思维应该作为互补而不是同构的模式来相互促进推理。在这一原则的指导下,我们构建了 ThinkMorph,这是一个统一模型,在大约 24K 高质量交错推理轨迹上进行了微调,涵盖了具有不同视觉参与度的任务。 ThinkMorph 学习生成渐进式文本图像推理步骤,具体操作视觉内容,同时保持连贯的语言逻辑。它在以视觉为中心的基准测试中取得了巨大的进步(平均比基本模型提高了 34.7%),并推广到域外任务,匹配或超越更大的专有 VLM。除了性能之外,ThinkMorph 还展示了新兴的多模态智能,包括看不见的视觉操作技能、推理模式之间的自适应切换,以及通过多样化的多模态思维更好地扩展测试时间。这些发现为表征多模态推理统一模型的新兴能力提供了有希望的方向 ...

0 0 0 0 2026/03/11 arXiv:2510.27492v3 aweek15

配备自动驾驶系统(ADS)的车辆在具有多智能体交互的高维连续系统中运行。该连续系统具有由连续运动常微分方程(微分驱动)控制的各种类型的交通代理(非齐次)。每个智能体独立做出决策,这可能会导致与主体车辆(SV)以及其他参与者(非合作)发生冲突。使用各种安全关键场景并观察由此产生的碰撞(或接近碰撞)的典型车辆安全评估程序不足以评估 ADS 在操作安全状态维护方面的性能。在本文中,我们引入了模型预测瞬时安全度量(MPrISM),它考虑给定交通快照的最坏情况安全场景,确定 SV 的安全状态。然后,该方法分析特定评估时间段内 SV 与潜在碰撞的接近程度。所描述的度量在标准假设下从碰撞时间方面引入了安全性的理论保证。通过将解决方案制定为一系列特定结构的极小极大二次优化问题,该方法易于处理实时安全评估应用。它的功能通过来自现实世界测试的综合示例和案例进行了演示 ...

0 0 0 0 2026/03/11 arXiv:2005.09999v1 chenlei

端到端驱动是一种有前途的范例,因为它克服了与模块化系统相关的缺点,例如其巨大的复杂性和错误传播的倾向。自动驾驶超越了传统的交通模式,能够提前主动识别关键事件,确保乘客的安全并为他们提供舒适的交通,特别是在高度随机和多变的交通环境中。本文对端到端自动驾驶堆栈进行了全面回顾。它提供了自动驾驶任务的分类,其中神经网络以端到端的方式使用,涵盖从感知到控制的整个驾驶过程,同时解决现实应用中遇到的关键挑战。分析了端到端自动驾驶的最新发展,并根据基本原理、方法和核心功能对研究进行了分类。这些类别包括感觉输入、主要和辅助输出、从模仿到强化学习的学习方法以及模型评估技术。该调查详细讨论了可解释性和安全性方面。此外,它还评估最先进的技术、识别挑战并探索未来的可能性。我们在此 https URL 上维护了最新的进展及其相应的开源实现 ...

0 0 0 0 2026/03/11 arXiv:2307.04370v2 chenlei

神经组合优化 (NCO) 是一种很有前景的基于学习的方法,无需大量手动设计即可解决车辆路径问题 (VRP)。虽然现有的构造性 NCO 方法通常遵循基于附加的范例,将未访问的节点顺序添加到部分解决方案中,但这种严格的方法通常会导致次优结果。为了克服这一限制,我们探索了基于插入的范式的思想,并提出了使用基于插入的范式进行学习构建(L2C-Insert),这是一种新颖的基于学习的构造性 NCO 方法。与传统方法不同,L2C-Insert通过在当前部分解决方案中的任何有效位置策略性地插入未访问的节点来构建解决方案,这可以显着提高灵活性和解决方案质量。所提出的框架引入了三个关键组件:用于精确插入位置预测的新颖模型架构、用于模型优化的有效训练方案以及充分利用插入范式灵活性的先进推理技术。对旅行商问题 (TSP) 和容量车辆路由问题 (CVRP) 的合成实例和现实实例进行的大量实验表明,L2C-Insert 在各种问题规模上始终能够实现卓越的性能 ...

0 0 0 0 2026/03/11 arXiv:2505.13904v3 alex666

神经组合优化 (NCO) 已成为一种有前途的基于学习的范例,用于通过最大限度地减少大量手动工程的需求来解决车辆路径问题 (VRP)。虽然现有的 NCO 方法在小规模实例(例如 100 个节点)上进行训练,在类似规模的问题上取得了相当大的成功,但在应用于大规模场景时,其性能会显着下降。这种退化是由于训练和测试数据之间的分布变化引起的,使得在小实例上学到的策略对于更大的问题无效。为了克服这一限制,我们引入了一种由大型语言模型(LLM)驱动的新颖的学习框架。该框架学习训练和测试分布之间的投影,然后部署该投影以增强 NCO 模型的可扩展性。值得注意的是,与需要与神经网络联合训练的流行技术不同,我们的方法仅在推理阶段运行,从而无需模型重新训练。大量实验表明,我们的方法使骨干模型(在 100 个节点实例上训练)能够在来自不同分布的多达 100K 节点的大规模旅行商问题 (TSP) 和容量车辆路由问题 (CVRP) 上实现卓越的性能 ...

0 0 0 0 2026/03/11 arXiv:2506.02392v3 alex666

ChipNeMo 旨在探索大语言模型(LLM)在工业芯片设计中的应用。我们没有直接部署现成的商业或开源LLM,而是采用以下领域适应技术:领域自适应标记化、领域自适应持续预训练、与领域特定指令的模型对齐以及领域适应检索模型。我们在三个选定的芯片设计 LLM 应用程序上评估这些方法:工程助理聊天机器人、EDA 脚本生成以及错误总结和分析。我们的评估表明,与基础 LLaMA2 对应项相比,语言模型的领域自适应预训练可以在领域相关的下游任务中带来卓越的性能,而不会降低通用能力。特别是,我们最大的模型 ChipNeMo-70B 在我们的两个用例(即工程助理聊天机器人和 EDA 脚本生成)上优于功能强大的 GPT-4,同时在错误总结和分析方面表现出有竞争力的性能。这些结果强调了特定领域定制在增强专业应用程序中大型语言模型有效性方面的潜力 ...

0 0 0 0 2026/03/11 arXiv:2311.00176v5 YWU2822

现代预训练架构在对新任务进行持续微调的同时,很难保留以前的信息。尽管连续分类取得了显着进展,但为检测或分割等复杂视觉任务设计的系统仍然难以获得令人满意的性能。在这项工作中,我们引入了一种基于内存的检测 Transformer 架构,使预训练的 DETR 型检测器适应新任务,同时保留以前任务的知识。我们提出了一种新颖的本地化查询函数,用于从记忆单元中高效地检索信息,旨在最大限度地减少遗忘。此外,我们还发现了连续检测中的一个基本挑战,称为背景降级。当早期任务中的对象类别重新出现在未来任务中时(可能没有标签),就会出现这种情况,导致它们被隐式地视为背景。这是连续检测或分割中不可避免的问题。引入的持续优化技术有效地解决了这一挑战。最后,我们评估了我们提出的系统在连续检测基准上的性能,并证明我们的方法超越了现有最先进的性能,导致 MS-COCO 和 PASCAL-VOC 在连续检测任务上的性能提高了 5-7% ...

0 0 0 0 2026/03/10 arXiv:2403.14797v2 18804024672

多模式学习的最新进展在不同的视觉语言任务中取得了显着的成功。然而,这种进展严重依赖于大规模图像文本数据集,使得训练成本高昂且效率低下。之前在数据集过滤和修剪方面的努力试图缓解这个问题,但仍然需要相对较大的子集来维持性能,并且在非常小的子集下会失败。数据集蒸馏提供了一种有前途的替代方案,但现有的多模态数据集蒸馏方法需要全数据集训练以及图像像素和文本特征的联合优化,这使得它们依赖于架构并限制了跨架构泛化。为了克服这个问题,我们提出了一种免学习的数据集蒸馏框架,该框架消除了大规模训练和优化的需要,同时增强了跨架构的泛化能力。我们的方法使用 CLIP 提取对齐的图像文本嵌入,获得原型,并采用 unCLIP 解码器来合成图像,从而实现高效且可扩展的多模式数据集蒸馏。大量的实验表明,我们的方法始终优于基于优化的数据集蒸馏和子集选择方法,实现了最先进的跨架构泛化 ...

0 0 0 0 2026/03/10 arXiv:2602.19756v2 Ollama