本文介绍了一种计算稀疏晶格计划器控制集的方法,该组合通过从代表性的车辆路径数据集中学习,适合特定任务。为此,我们使用类似于Fréchet距离的评分度量,并提出了一种根据评分度量评估给定控制集的算法。然后根据目标函数从密集的控制设置中选择控制动作,该目标函数在匹配数据集时奖励改进,同时也鼓励稀疏性 ...
0 0 0 2025/06/13 arXiv:1903.02044v2 ChenAllen1973
段的任何模型(SAM)已成为图像分割中的一种变革性方法,以其可靠的零拍分段功能和灵活的提示系统而受到赞誉。但是,其性能受到质量退化的图像的挑战。在解决这一限制时,我们提出了强大的片段任何模型(RobustSAM),从而增强了SAM在低质量图像上的性能,同时保留其迅速性和零拍的概括 ...
0 0 0 2025/06/13 arXiv:2406.09627v1 mixiu
现代AI的主要挑战是学会理解世界并在很大程度上通过观察来行动。本文探讨了一种自我监督的方法,该方法将互联网规模的视频数据与少量交互数据(机器人轨迹)结合在一起,以开发能够在物理世界中理解,预测和计划的模型。我们首先在一个视频和图像数据集上预先培训了无动作的联合预测架构V-JEPA 2,该架构包含超过100万小时的互联网视频 ...
0 0 0 2025/06/13 arXiv:2506.09985v1 andyrbm
传统上,使用自回归的大语言模型(LLM)解码,依次发生一个 Token 。新兴的工作线通过识别和同时生成语义独立的LLM响应块来探索并行解码。但是,这些技术依赖于与句法结构(如列表和段落)相关的手工制作的启发式方法,使其僵化和不精确 ...
0 0 0 2025/06/13 arXiv:2502.11517v2 xiaotai
在复杂的深层搜索场景中,检索增强的生成(RAG)系统具有需要多步推理和迭代信息检索的复杂搜索场景中的高级大语言模型(LLM)。但是,现有方法面临缺乏高质量训练轨迹的关键局限性或在模拟环境中的分布不匹配以及现实世界部署的高度计算成本。本文介绍了SimpleDeepsearcher,这是一个轻巧而有效的框架,它通过战略数据工程而不是复杂的培训范式弥合了这一差距 ...
0 0 0 2025/06/13 arXiv:2505.16834v2 weanhear
我们提出了一种单发方法,可以实时从单个未介绍的图像(例如,面部肖像)推断和呈现一个逼真的3D表示 ...
0 0 0 2025/06/13 arXiv:2305.02310v1 xfei
视觉和语言导航(VLN)任务主要根据跨多个环境的单个指令执行,旨在开发能够以零拍的方式在任何环境中运行的代理。但是,现实世界中的导航机器人通常会在持久的环境中运行,其物理布局,视觉观察和讲师的语言风格相对一致。任务环境中的这种差距为通过连续适应特定环境而融合了改善VLN代理的机会 ...
0 0 0 2025/06/13 arXiv:2501.17403v1 gavin218
使用外部工具启用大型语言模型已成为将其功能扩展到文本空间之外的关键策略。为了增强LLMS的工具称呼能力,以前的方法主要依赖于监督的微调(SFT),其轨迹从更强的模型中蒸馏出来,通常会导致模仿推理,从而限制了概括。在这项工作中,我们探讨了基于规则的增强学习,以增强LLM中的工具称呼,从而导致Nemotron-Research-Tool-N1(一系列工具称呼推理模型) ...
0 0 0 2025/06/13 arXiv:2505.00024v2 落日一瞬

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)