本文介绍了一个大型多模型(LMMS)的重建视觉教学调整(ROSS),这些家族利用了以视觉为中心的监督信号。与独家监督文本输出的常规视觉教学调谐方法相反,Ross提示LMMS通过重建输入图像来监督视觉输出。通过这样做,它利用了输入图像本身中固有的丰富性和细节,这些固有的细节和细节通常在纯文本监督中丢失 ...
0 0 0 2025/09/11 arXiv:2410.09575v2 一个沙雕
最近的研究越来越集中于开发模拟复杂现实世界情景的3D世界模型。世界模型在各个领域都发现了广泛的应用,包括体现的AI,自动驾驶,娱乐等。具有准确的物理学的更现实的模拟将有效地缩小SIM到真实的空白,并让我们方便地收集有关现实世界的丰富信息 ...
0 0 0 2025/09/11 arXiv:2509.05263v2 waterfall666
冷启动建议是推荐系统(RS)面临的主要挑战之一。本文中,我们专注于用户冷启动问题。最近,使用侧面信息或元学习的方法已用于建模冷启动用户 ...
0 0 0 2025/09/11 arXiv:2309.15646v1 huangxinan545
肯德尔(Kendall)的tau经常用于元评估机器翻译(MT)评估指标的分数单个翻译。它对成对分数比较的关注是直观的,但提出了应如何处理关系的问题,即灰色区域,它激发了文献中不同的变体。我们证明,在现代MT元评估等环境中,现有的变体因其处理关系而产生弱点,在某些情况下甚至可以被认出 ...
0 0 0 2025/09/11 arXiv:2305.14324v2 lpfgss
多模式大语模型(MLLM)利用大型语言模型作为多种视觉语言任务的认知框架。最近已经做出了为MLLM提供视觉感知和接地能力的努力。但是,在提供细粒的像素级感知并将相互作用扩展到特定于文本的输入之外,仍然存在差距 ...
0 0 0 2025/09/11 arXiv:2403.02969v2 eileen
许多机器人操纵任务需要感知并响应诸如扭矩之类的力信号,以评估该任务是否已成功完成并实现闭环控制。但是,当前的视觉语言动作(VLA)模型缺乏整合这种微妙的物理反馈的能力。在这项工作中,我们探索了扭矩感知的VLA模型,旨在通过系统地研究将扭矩信号纳入现有VLA架构的设计空间来弥合这一差距 ...
0 0 0 2025/09/11 arXiv:2509.07962v1 harry12138
大语言模型(LLM)令人印象深刻的能力激发了这样一个观念,即合成剂可以用作人类受试者研究中真正参与者的替代品。为了评估这一主张的优点,社会科学研究人员在很大程度上关注LLM生成的调查数据是否与提示LLM代表的人类对应者相对应。相比之下,我们解决了一个更基本的问题:在不同的实验环境下检查时,代理是否保持内部一致性,保留类似的行为?为此,我们开发了一项旨在(a)揭示代理商内部状态的研究,以及(b)在基 ...
0 0 0 2025/09/11 arXiv:2509.03736v1 w_changing
虽然当前的自动驾驶研究和开发主要侧重于开发新功能和算法,但从隔离软件组件转移到整个软件堆栈中的转移已被稀少介绍。除此之外,由于自动软件堆栈和公共道路交通的复杂性,整个堆栈的最佳验证是一个开放的研究问题。我们的论文针对这两个方面 ...
0 0 0 2025/09/11 arXiv:2309.15492v2 neisakutou

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)