大型视觉模型(LVLM)最近在多模式任务中表现出惊人的成功,包括多模式链链(MCOT)推理的进步。尽管取得了这些成功,但当前的基准仍遵循传统的范式,具有多模式输入和文本模式输出,这导致了重要的缺点,例如丢失的视觉操作和模糊的表达式。在此激励的情况下,我们引入了一系列新型的多模式思想(COMT)基准,以解决这些局限性 ...
0 0 0 2025/06/06 arXiv:2412.12932v3 ShuoHanai
我们将社区手伸出来,这是一种简单且耗时的方法,用于通过人类的示范来教机器人新的操纵任务。 Hand使用易于证明的手持演示来从任务不合时宜的机器人播放数据中检索相关行为,而不是依靠通过Teleperation收集的特定任务机器人演示。使用视觉跟踪管道,手从手演示中提取人手的运动,并在两个阶段中检索机器人子射击:第一次通过视觉相似性进行过滤,然后检索具有与手相似行为的轨迹 ...
0 0 0 2025/06/06 arXiv:2505.20455v3 wchiyu98
对医疗程序的低成本电信对于为偏远和服务不足的社区提供医疗保健至关重要。人类的遥控是一种有前途的新方法,用于通过混合现实(MR)界面指导具有相对较高精度和效率的新手。先前的工作表明,新手或“追随者”可以可靠地跟踪MR输入,而性能与远程动态系统不同 ...
0 0 0 2025/06/06 arXiv:2504.11653v1 wchiyu98
以前的语言模型预训练方法对所有训练标记统一应用下一个标记预测损失。为了挑战这一规范,我们假设“并非语料库中的所有标记对于语言模型训练都同样重要”。我们的初步分析深入研究了语言模型的标记级训练动态,揭示了不同标记的不同损失模式 ...
0 0 0 2025/06/06 arXiv:2404.07965v4 haoyi199815
灵巧的操作是机器人系统的基本能力,但是进步受到精确,紧凑,强度和负担能力之间的硬件权衡的限制。现有的控制方法对手部设计和应用造成了妥协。但是,基于学习的方法为重新考虑这些权衡的机会提供了机会,尤其是通过肌腱驱动的驱动和低成本材料应对挑战 ...
0 0 0 2025/06/06 arXiv:2504.13165v1 wchiyu98
操作系统(OS)代理的最新进展使视觉语言模型能够直接与OS的图形用户界面进行交互。这些多模式OS代理通过应用程序编程接口(API)自主执行基于计算机的任务。此类API通常支持低级操作,包括鼠标点击,键盘输入和屏幕截图捕获 ...
0 0 0 2025/06/06 arXiv:2503.10809v1 hhhhh
基于视觉语言模型(VLM)的Web代理通过模拟与网站的类似人类的交互来自动化复杂任务的重要一步。但是,它们在不受控制的Web环境中的部署引入了重大的安全漏洞。现有对对抗环境注入攻击的研究通常依赖于不切实际的假设,例如直接的HTML操纵,用户意图知识或访问代理模型参数,从而限制了其实际适用性 ...
0 0 0 2025/06/06 arXiv:2505.21499v1 hhhhh
机器人机器人操作的最新进展已利用虚拟现实(VR)来增强远程操作系统的精确性和沉浸性,极大地超过了依赖于2D摄像机供稿和操纵杆控制的传统方法。尽管取得了这些进步,但仍然存在挑战,尤其是关于不同设置的用户体验的挑战。本文介绍了一个基于VR的新型Teleperation Framework,该框架旨在集成到移动平台上的机器人操纵器 ...
0 0 0 2025/06/06 arXiv:2504.15229v1 wchiyu98

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)