现有的多边形重建方法在很大程度上取决于输入的完整性和与不完整的点云斗争。我们认为,虽然当前的点云完成技术可能会恢复缺失点,但它们并未针对多边形重建进行优化,其中基础表面的参数表示仍然忽略了。为了解决这一差距,我们引入了参数完成,这是一种用于点云完成的新型范式,它恢复了参数基原始人而不是各个点以传达高级几何结构 ...
通用多模式嵌入模型在诸如交织的图像文本检索,多模式抹布和多模式聚类等任务中起着至关重要的作用。但是,我们的经验结果表明,经过标准Infonce损失训练的现有基于LMM的嵌入模型在正面和负面对之间的相似性分布中表现出高度的重叠,因此有效区分硬性负面对的挑战。为了解决这个问题,我们提出了一个简单而有效的框架,该框架可以根据其歧视性难度动态地改善嵌入模型的负面对象 ...
我们发布了BevDet的新代码库版本,称为Branch Dev2.0。使用Dev2 ...
最近,由于其强大的建模能力和大规模的预处理,普通视觉 Transformer (VIT)在各种计算机视觉任务上表现出了令人印象深刻的性能。但是,他们尚未征服图像垫子的问题。我们假设VIT也可以提高图像垫,并提出一种新的高效且基于VIT的基于Vitmatte的新型和强大的基于Vitmatte ...
人体运动预测的目标是估计未来一段时间内人类的行为,是许多现实应用中的一项基本任务。然而,现有的工作通常集中于预测人体的主要关节,而没有考虑人手的微妙运动。在实际应用中,手势在人类与现实世界的交流中发挥着重要作用,表达了人类的首要意图... ...
细分任何模型(SAM)已成为分割任务中零击学习的领先方法,从而提供了避免像素式注释的优势。它在医学图像细分中尤其有吸引力,在此,注释过程是费力和专业知识。但是,与常规完全监督的分割网络相比,SAM的直接应用通常会产生较低的结果 ...
顺序依赖性在部署大规模自回归模型时表现出基本的瓶颈,尤其是用于实时应用程序。虽然传统的优化方法诸如修剪和量化之类的方法经常损害模型质量,但最新一代框架的进步表明,这种权衡可以大大减轻。这项调查介绍了一代框架框架的全面分类,分析了自回归序列任务的方法 ...
我们提出了有机化:基于开放式扩散扩散的全景分段,该分割统一了预训练的文本图像扩散和判别模型,以执行开放式杂质的全磁盘分割。文本对图像扩散模型具有出色的能力,可以产生具有不同开放式语言描述的高质量图像。这表明他们的内部表示空间与现实世界中的开放概念高度相关 ...