研究人员正在投入大量努力来开发强大的通用代理,其中将基础模型用作代理系统(例如,经过思考链,自我反射,工具形式)的模块 ...
0 0 0 2025/05/22 arXiv:2408.08435v2 dropout
大语言模型(LLMS)的最新进展强调了对更全面的评估方法的需求,以准确评估其推理能力。现有的基准通常是特定于领域的,因此无法完全捕获LLM的一般推理潜力。为了解决这一限制,我们介绍了知识正交推理体育馆(Korgym),这是一个受Kor-Bench和Gymnasium启发的动态评估平台 ...
0 0 0 2025/05/22 arXiv:2505.14552v2 chrisxiong
端到端的自主驾驶框架能够无缝地集成感知和计划,但通常依赖于单发轨迹预测,这可能会导致不稳定的控制和脆弱性在单帧感知中闭塞。为了解决这个问题,我们提出了动量吸引驾驶(MOMAD)框架,该框架引入了轨迹动量和感知动量,以稳定和完善轨迹预测。 MOMAD包括两个核心组成部分:(1)拓扑轨迹匹配(TTM)采用Hausdorff距离来选择与先前路径保持一致的最佳计划查询以确保相干性;(2)动量计划交互器(M ...
0 0 0 2025/05/22 arXiv:2503.03125v3 chenlei
自主缝合是手术机器人技术的长期目标。在分阶段环境之外,缝合针的准确定位是自动化现实世界中各种缝合针操纵任务的关键基础。当将握把的针头定位时,以前的工作通常会单独跟踪它们,而无需考虑它们的关系 ...
0 0 0 2025/05/22 arXiv:2210.11973v1 swang
在内窥镜程序中,异常区域和循环切割标记物的自主跟踪可以显着减轻内镜医生的认知负担。但是,基于模型的传统管道对于每个组件都是脆弱的(例如 ...
0 0 0 2025/05/22 arXiv:2505.15206v1 蔡明方
基于深度神经网络(DNN)的策略模型,例如视觉语言动作(VLA)模型,在从多模式输入中自动化复杂决策方面表现出色。但是,扩展这些模型会大大增加计算开销,从而使资源受限设置(如机器人操纵和自动驾驶)中的部署变得复杂。为了解决这个问题,我们提出了显着意识的量化模仿学习(SQIL),该学习将量化感知培训与针对关键任务国家的选择性损失加权策略相结合 ...
0 0 0 2025/05/22 arXiv:2505.15304v1 蔡明方
我们介绍$ \ textbf {f} $ uture $ \ textbf {la} $ tent $ \ textbf {re} $表现对准($ \ textbf {flare} $),这是一个将预测性潜在的潜在世界建模集成到机器人策略学习中的新颖框架。通过将扩散 Transformer 的特征与未来观察结果的潜在嵌入在一起,$ \ textbf {flare} $使扩散的 Transforme ...
0 0 0 2025/05/22 arXiv:2505.15659v1 蔡明方
视觉语言动作(VLA)模型的概括能力是看不见的任务对于在开放世界中实现通用机器人操纵至关重要。但是,现有VLA模型的交叉任务概括功能仍然显着尚未得到充满异常的影响。为了解决这一差距,我们介绍了Agnostos,这是一种新型的模拟基准测试,旨在严格评估操作中的交叉任务零射门概括 ...
0 0 0 2025/05/22 arXiv:2505.15660v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)