机器人模仿学习已从解决静态任务到解决动态交互情况的发展,但是由于需要与动态环境进行实时互动,测试和评估仍然成本高昂和具有挑战性。我们提出了Enterverse-AC(EVAC),这是一种动作条件世界模型,该模型基于代理的预测动作产生未来的视觉观察,从而实现了现实且可控的机器人推断。 EVAC在以前的体系结构的基础上,引入了动态多视图图像生成的多级动作调节机制和射线图编码,同时以不同的故障轨迹扩展训 ...
0 0 0 2025/05/20 arXiv:2505.09723v1 xiewende
扩展服务机器人的能力对于扩展他们在日常操纵任务中所能实现的目标很重要。另一方面,还必须确保他们在任务执行过程中由于异常或永久失败而确定在某些情况下无法实现的目标。机器人需要识别这些情况,并揭示这些案件背后的原因以克服和从中恢复 ...
0 0 0 2025/05/20 arXiv:2001.09084v1 火火火
在本报告中,我们提出了QWEN2.5-OMNI,这是一种端到端的多模型模型,旨在感知各种方式,包括文本,图像,音频和视频,同时以流方式生成文本和自然语音响应。为了启用多模式信息输入的流,音频和视觉编码器都采用了块处理方法 ...
0 1 0 2025/05/20 arXiv:2503.20215v1 Jodie
由于获得高质量的阶梯监督的困难和成本,评估大语言模型(LLM)推理的分步可靠性(LLM)推理的逐步可靠性仍然具有挑战性。在本文中,我们介绍了自我游戏评论家(SPC),这是一种新颖的方法,即评论家模型可以通过对抗性自我玩游戏来评估推理步骤的能力,从而消除了对手动级别级别注释的需求。 SPC涉及对基本模型的两份副本进行微调来扮演两个角色,即“偷偷摸摸的发电机”,故意产生错误的步骤,旨在难以检测到,并分 ...
0 0 0 2025/05/20 arXiv:2504.19162v2 ee_zhuy
这项工作提供了一个统一的框架,用于解决视觉监督域的适应和泛化的问题。主要思想是利用暹罗体系结构来学习一个具有歧视性的嵌入子空间,并在映射的视觉域在语义上进行对齐且最大程度地分开。监督设置变得有吸引力,尤其是当只需要标记目标数据样本时 ...
0 1 0 2025/05/20 arXiv:1709.10190v1 15966829631
我们介绍了多个实体生成(MIG)任务,该任务的重点是在单个图像中生成多个实例,每个实例都准确地放置在具有类别,颜色和形状等属性的预定位置,严格遵循用户规格。 MIG面临三个主要挑战:避免实例之间的属性泄漏,支持各种实例描述并保持迭代生成的一致性。为了解决属性泄漏,我们提出了多个现实生成控制器(MIGC) ...
0 0 0 2025/05/20 arXiv:2407.02329v3 wonglliam
我们提出了一种基于互动3D布局控制的基于扩散的文本对图像(T2I)生成的方法。已经广泛研究了布局控制,以减轻T2I扩散模型在理解对象的位置和文本描述中关系中的缺点。但是,现有的布局控制方法仅限于2D布局,要求用户事先提供静态布局,并且在布局更改下未能保留生成的图像 ...
0 0 0 2025/05/20 arXiv:2408.14819v1 wonglliam
大型语言模型(LLMS)凭借推理能力的进步而在复杂的任务上表现出色。但是,现有方法忽略了推理效率和计算效率之间的权衡,通常会鼓励不必要的长期推理链和浪费 Token 。为了解决这个问题,我们建议学习思考(L2T),这是一个信息理论增强型LLMS的微调框架,使模型以较少的 Token 实现最佳推理 ...
0 0 0 2025/05/20 arXiv:2505.10425v2 Nxixi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)