通用多模式嵌入模型在诸如交织的图像文本检索,多模式抹布和多模式聚类等任务中起着至关重要的作用。但是,我们的经验结果表明,经过标准Infonce损失训练的现有基于LMM的嵌入模型在正面和负面对之间的相似性分布中表现出高度的重叠,因此有效区分硬性负面对的挑战。为了解决这个问题,我们提出了一个简单而有效的框架,该框架可以根据其歧视性难度动态地改善嵌入模型的负面对象 ...
0 0 0 2025/03/24 arXiv:2503.04812v1 arthur
我们发布了BevDet的新代码库版本,称为Branch Dev2.0。使用Dev2 ...
0 0 0 2025/03/24 arXiv:2211.17111v1 lcaiwen
最近,由于其强大的建模能力和大规模的预处理,普通视觉 Transformer (VIT)在各种计算机视觉任务上表现出了令人印象深刻的性能。但是,他们尚未征服图像垫子的问题。我们假设VIT也可以提高图像垫,并提出一种新的高效且基于VIT的基于Vitmatte的新型和强大的基于Vitmatte ...
0 0 0 2025/03/24 arXiv:2305.15272v2 suxuefeng
人体运动预测的目标是估计未来一段时间内人类的行为,是许多现实应用中的一项基本任务。然而,现有的工作通常集中于预测人体的主要关节,而没有考虑人手的微妙运动。在实际应用中,手势在人类与现实世界的交流中发挥着重要作用,表达了人类的首要意图... ...
0 0 0 2025/03/24 arXiv:2312.11972v2 Eny530
细分任何模型(SAM)已成为分割任务中零击学习的领先方法,从而提供了避免像素式注释的优势。它在医学图像细分中尤其有吸引力,在此,注释过程是费力和专业知识。但是,与常规完全监督的分割网络相比,SAM的直接应用通常会产生较低的结果 ...
0 0 0 2025/03/24 arXiv:2308.00883v3 mixiu
顺序依赖性在部署大规模自回归模型时表现出基本的瓶颈,尤其是用于实时应用程序。虽然传统的优化方法诸如修剪和量化之类的方法经常损害模型质量,但最新一代框架的进步表明,这种权衡可以大大减轻。这项调查介绍了一代框架框架的全面分类,分析了自回归序列任务的方法 ...
0 0 0 2025/03/24 arXiv:2502.19732v3 ziva
我们提出了有机化:基于开放式扩散扩散的全景分段,该分割统一了预训练的文本图像扩散和判别模型,以执行开放式杂质的全磁盘分割。文本对图像扩散模型具有出色的能力,可以产生具有不同开放式语言描述的高质量图像。这表明他们的内部表示空间与现实世界中的开放概念高度相关 ...
0 0 0 2025/03/24 arXiv:2303.04803v4 walnut2002
投机解码表明了其在加速大型语言模型的推断的同时,保持了一致的采样分布方面的有效性。但是,训练单独的模型以实现令人满意的 Token 接受率的常规方法可能是昂贵的。从早期退出的灵感中,我们提出了一种新颖的自我指导解码框架\ emph {kangaroo},该框架将固定的浅子网络用作自由放养模型,其余层用作较大的目标模型 ...
0 0 0 2025/03/24 arXiv:2404.18911v1 ziva

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)