模拟为通才政策廉价扩展培训数据提供了一种有希望的方法。为了可靠地生成来自不同和现实的任务的数据,现有算法要么依赖于大型语言模型(LLMS),这些模型可能会使任务对机器人技术不有趣。或数字双胞胎,这些双胞胎需要仔细的真实对齐对齐,并且很难扩展。为了应对这些挑战,我们介绍了Video2 -Policy,这是一个新颖的框架,该框架利用Internet RGB视频根据日常人类行为重建任务 ...
0 0 0 2025/04/09 arXiv:2502.09886v1 白石
一般智能机器人高度要求在非结构化环境中执行语言条件的机器人操纵任务。常规的机器人操纵方法通常学习动作预测观察的语义表示,这忽略了人类目标完成的场景级时空动力学。在本文中,我们提出了一种动态的高斯分裂方法,名为Manigussian多任务机器人操作,该方法通过未来的场景重建来挖掘场景动态 ...
0 0 0 2025/04/09 arXiv:2403.08321v2 zsh231264
在本文中,我们应对管理标准操作程序(SOP)的挑战,这些挑战通常遭受语言,格式和执行的不一致,导致运营效率低下的挑战。传统的流程​​建模需要大量的手动工作,领域专业知识以及对诸如业务流程建模符号(BPMN)等复杂语言的熟悉程度,从而为非技术用户造成了障碍。我们介绍了SOP结构(SOPSTRUCT),这是一种利用大型语言模型(LLM)将SOP转换为基于决策树的结构化表示的新型方法 ...
0 0 0 2025/04/09 arXiv:2504.00029v1 jueli
组成的图像检索(CIR)是一项复杂的任务,旨在根据多模式查询检索图像。典型的培训数据包括包含参考图像的三胞胎,所需修改的文本描述以及目标图像,这些图像昂贵且耗时。 CIR数据集的稀缺性已导致使用合成三胞胎或使用无处不在的Web爬行图像捕获对的视觉模型(VLMS)的零射击方法 ...
0 0 0 2025/04/09 arXiv:2503.19910v1 slen
本文介绍了可与学习系统一起端到端训练的高阶高阶控制障碍功能(CBF)。 CBF通常过于保守,同时保证安全。在这里,我们通过使用环境依赖性软化其定义,而不会失去安全保证,并将它们嵌入可微分的二次程序中,以解决他们的保守性 ...
0 0 0 2025/04/09 arXiv:2111.11277v1 user
作为服务(FAA)的功能(FAA)有望成为下一代云系统的基础,因为它在可扩展性,成本效益和易用性方面具有固有的优势。但是,诸如需要专业知识和在建筑功能工作流程中的困难之类的挑战持续到云本地应用程序开发人员。为了克服这些挑战并减轻开发基于FAA的应用程序的负担,在本文中,我们提出了一种称为Action Engine的机制,该机制使用其内核中使用工具增强的大型语言模型(LLM)来解释人类语言查询并自动 ...
0 0 0 2025/04/09 arXiv:2411.19485v1 jueli
现实的3D全身谈话化身在AR中具有巨大的潜力,其应用程序从电子商务实时流媒体到全息沟通。尽管在3D高斯脱落(3DG)中取得了进步,但现有的方法在全身交谈任务中对面部表情和身体运动的细粒度控制挣扎。此外,它们通常缺乏足够的细节,并且无法在移动设备上实时运行 ...
0 0 0 2025/04/09 arXiv:2503.17032v1 kevin-1299
我们提出了前景覆盖的原型生成和匹配,以解决少数弹片分割(FSS),该分段旨在根据标记的支持图像在未标记的查询图像中细分目标区域。与先前的研究不同,该研究通常使用支持原型和查询像素来估算查询中的目标区域,我们利用了支持和查询原型之间的关系。为了实现这一目标,我们利用了两个互补功能:用于像素聚合的SAM Image编码器功能和类别一致性的重新连接功能 ...
0 0 0 2025/04/09 arXiv:2501.00752v1 Jht

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)