我们建议在缩放机器人学习中生成高质量的数据和评估,以建模动作 - 视频动力学来建模。由于处理各种设置的挑战,同时保持计算效率以实时运行,因此很难为机器人技术建立交互式视频世界模型和政策。 HMA使用来自不同机器人实施方案,域和任务的观测和动作序列的异质预训练 ...
0 0 0 2025/09/02 arXiv:2502.04296v1 orangelcx
现实世界中可扩展的机器人学习受到真实机器人的成本和安全问题的限制。此外,在现实世界中推出机器人轨迹可能既耗时又费力。在本文中,我们建议学习交互式真实机器人动作模拟器作为替代方案 ...
0 0 0 2025/09/02 arXiv:2406.14540v2 orangelcx
从稀疏的2D视图中重建和语义解释3D场景仍然是计算机视觉中的基本挑战。常规方法通常会使语义理解与重建或需要每场场景优化的昂贵,从而限制其可伸缩性和可推广性。在本文中,我们介绍了Uni3R,这是一个新颖的馈送前框架,该框架共同重建了统一的3D场景表示,并直接来自未经未受的多视图图像,并富含开放式摄影语义语义 ...
0 0 0 2025/09/02 arXiv:2508.03643v3 pjt
视觉模型(VLM)通常会遭受幻觉的困扰,部分原因是对齐多模式信息的挑战。我们提出了提示,这是一种简单的方法,将文本指令直接嵌入到图像中。这消除了对单独的文本输入的需求,并迫使模型通过视觉通道处理所有内容 ...
0 0 0 2025/09/02 arXiv:2508.01678v1 hhhhh
大型语言模型(LLMS)越来越多地通过加强学习(RL)方法(例如小组相对策略优化(GRPO))来适应下游任务,这些方法通常需要数千个推出才能学习新任务。我们认为,与从稀疏,标量奖励获得的政策梯度相比,语言的可解释性质通常可以为LLM提供更丰富的学习媒介。为了测试这一点,我们介绍了GEPA(遗传 -  pareto),这是一个及时的优化器,彻底结合了自然语言反思,以从反复试验中学习高级规则 ...
0 0 0 2025/09/02 arXiv:2507.19457v1 tangemon
我们介绍了一个新颖的框架,用于3D对象分类中的持续学习。我们的方法CL3D基于使用光谱聚类从每个类中的原型选择。对于非欧几里德数据,例如点云,只要可以在样本对之间定义距离度量,就可以采用光谱聚类 ...
0 0 0 2025/09/02 arXiv:2409.08388v2 DamnMan
使用大型语言模型 (LLM) 的检索增强生成 (RAG) 系统通常会由于检索不相关或松散相关的信息而生成不准确的响应。现有的在文档级别操作的方法无法有效过滤掉此类内容。我们提出了 LLM 驱动的块过滤 ChunkRAG,这是一个通过在块级别评估和过滤检索到的信息来增强 RAG 系统的框架 ...
0 0 0 2025/09/02 arXiv:2410.19572v5 rookie
实时语义分段提出了设计有效的体系结构的双重挑战,这些架构捕获了大型接受领域的语义理解,同时还可以完善详细的轮廓。 Vision Transformers有效地模拟了远程依赖性,但会产生高计算成本。为了应对这些挑战,我们介绍了较大的内核注意力(LKA)机制 ...
0 0 0 2025/09/02 arXiv:2508.07300v1 KingXHJ

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)