在本文中,我们将重点放在特征学习的问题上,存在于6-DOF GRASP检测的规模不平衡的情况下,并提出了一种新颖的方法,特别是解决了处理小规模样本的困难。提出了多尺度的圆柱体组(MSCG)模块,以通过组合多尺度缸体和全局环境来增强本地几何表示。此外,设计了量表平衡学习(SBL)损失和对象平衡采样(OBS)策略,其中SBL扩大了样品的梯度,其样品的尺度在APRIORI权重较低的情况下,而OBS借助辅 ...
创建大型、多样化、高质量的机器人操作数据集是迈向更强大、更强大的机器人操作政策的重要基石。然而,创建此类数据集具有挑战性:在不同环境中收集机器人操作数据会带来后勤和安全挑战,并且需要在硬件和人力方面进行大量投资。因此,即使是当今最通用的机器人操纵策略,也大多是根据场景和任务多样性有限的少数环境中收集的数据进行训练的 ...
物体构成估计,在计算机视觉和机器人技术应用中至关重要,面临着看不见类别的多样性的挑战。我们提出了一种零击方法,以实现类别级别的6-DOF对象姿势估计,该方法利用了输入RGB-D图像的2D和3D通用特征以建立基于语义相似性的对应关系,并且可以将其扩展到不看到的类别,而无需其他模型。我们的方法首先结合有效的2D通用特征,以找到类别内对象之间的稀疏对应关系,并获得初始的粗姿势 ...
6D对象姿势估计旨在从单个RGBD图像中确定对象的翻译,旋转和比例。最近的进步将这一估计从实例级扩展到类别级别,从而允许模型在同一类别中的看不见的实例中概括。但是,这种概括受到现有数据集涵盖的类别范围的限制,例如NOCS,这些类别也倾向于忽略诸如遮挡之类的常见现实世界中的挑战 ...
视力大型语言模型(LLM)的最新发展取得了显着的进步,但仍遇到对多模式通才的挑战,例如粗粒度的实例级别的理解,对图像和视频的统一支持缺乏统一的支持,以及在各种视觉任务中的覆盖范围不足。在本文中,我们介绍了Vivron,这是一种通用像素级视觉LLM,旨在全面理解,生成,分割和编辑静态图像和动态视频。 Votron在LLM主链的基础上建立在其前端模块内的图像,视频和像素级区域视觉效果的编码器,同时采用 ...
车辆轨迹为各种现实世界应用提供了至关重要的运动信息。为了更好地利用车辆轨迹,必须开发一种轨迹学习方法,该方法可以有效,有效地提取丰富的语义信息,包括运动行为和旅行目的,以支持准确的下游应用程序。但是,创建这种方法提出了两个重大挑战 ...
回归模型对于推荐系统至关重要。但是,社区内已明显忽略了转化的偏见问题。尽管其他领域的许多作品都设计了有效的偏见校正方法,但所有这些方法都是在模型外部进行事后治疗的,当应用于现实世界中的推荐系统时,面临实际挑战 ...
我们介绍了基于专门的扩散生成模型,该模型通过在注释的腹腔镜手术镜头上进行监督学习,捕获细粒机器人手术子缝隙动作的时空动力学。提出的模型为数据驱动的世界模型构成了基础,该模型能够模拟具有高时间忠诚的手术缝合的生物力学相互作用和程序动力学。注释从模拟视频中提取的$ \ sim2k $剪辑的数据集,我们将手术动作分类为细粒的子缝线类,包括理想和非理想执行针头定位,靶向,驾驶,驾驶和撤回 ...