视觉语言模型(VLM)的最新进展显着增强了其处理复杂的图形用户界面(GUI)交互任务的能力。尽管有这些改进,但当前的框架通常很难在挑战性的GUI环境中产生正确的行动。最先进的商业VLM是黑盒,用于GUI任务的微调开源VLM需要大量资源 ...
对比性语言图像预训练(剪辑)框架已成为多模式表示学习的一种广泛使用的方法,尤其是在图像文本检索和聚类中。但是,其功效受到三个关键局限性的限制:(1)文本 Token 截断,(2)隔离的图像文本编码,以及(3)由于词袋行为而引起的缺陷组成性。尽管最近的多模式大型语言模型(MLLM)在广义视觉理解方面表现出了重大进步,但它们学习可转移的多模式表示的潜力仍然是这项工作的HTTP URL,但我们展示了Un ...
尽管在3D视觉中广泛使用了点云,但相对有限的数据可用于培训深层神经网络。尽管数据增强是弥补数据稀缺性的标准方法,但在Point Cloud文献中,它的探索较少。在本文中,我们提出了一种称为Pointwolf的简单有效的增强方法,用于增强点云 ...
大型语言模型(LLM)越来越多地用作多步任务的自主剂。但是,大多数现有的框架无法维持对任务状态的结构化理解,通常依靠线性提示串联或浅内存缓冲区。这会导致脆弱的性能,频繁的幻觉和远距离连贯性 ...
自动停车是自动驾驶技术备受期待的应用。然而,现有的路径规划方法由于无法处理现实中多样化且复杂的停车场景而无法满足这一需求。虽然非学习方法提供了可靠的规划结果,但它们容易受到复杂情况的影响,而基于学习的方法擅长探索,但在收敛到可行解决方案方面不稳定 ...
开源、用户友好的工具构成了跨学科科学进步的基石。数据驱动学习的广泛采用导致多指灵巧性、双手操作以及从物流到家庭机器人等应用领域取得了显着进步。然而,现有的数据收集平台通常是专有的、成本高昂的,或者是针对特定的机器人形态量身定制的... ...
我们提出了TICAM,这是一种使用单个广角深度摄像头的飞行时间内机舱监视数据集,用于车辆内部监视。我们的数据集解决了当前可用的车内机舱数据集的缺陷,从标记的类,记录的场景和提供注释方面;同时。我们记录了在开车时执行的详尽措施列表,并为它们提供了多模式标记的图像(DEPTH,RGB和IR),并为2D和3D对象检测,实例和语义分段以及RGB帧的活动注释提供了完整的注释 ...
人类可以远程操作机器人来完成复杂的操纵任务。模仿学习已成为一个强大的框架,利用人类远程操作演示来教授机器人新技能。然而,学习策略的性能受到示范数据的质量、规模和多样性的瓶颈 ... ...