我们提出了VGGT,这是一个馈送前向神经网络,它直接渗透了场景的所有关键3D属性,包括相机参数,点地图,深度地图和3D点轨道,从一个,几个或数百个视图中。这种方法是在3D计算机视觉中向前迈出的一步,其中模型通常被限制为单个任务并专门针对单个任务。它也是简单有效的,在一秒钟内重建图像,并且仍然超过需要使用视觉几何优化技术进行后处理的替代方案 ...
长期以来,图像字幕一直是视觉理解中的关键任务,视觉模型(VLM)的最新进展显着增强了生成详细的图像标题的能力。然而,由于过时的评估指标和粗略注释,对详细图像字幕的评估仍未被忽视。在本文中,我们介绍了Decapbench以及一种新颖的指标DCSCORE,专门设计用于详细的字幕任务 ...
大型语言模型(LLM)已彻底改变了基于自然语言处理(NLP)的应用程序,包括自动化文本生成,问答,聊天机器人等。但是,他们面临着一个重大的挑战:幻觉,模型产生了合理的听起来但实际上不正确的反应。这破坏了信任并限制了LLM在不同域中的适用性 ...
在紧迫气候变化挑战和节肢动物之间的生物多样性丧失的背景下,来自有机图像的自动分类学分类是一项激烈研究的主题。但是,基于CNN或VITS等深层神经视觉架构的传统AI管道面临限制,例如在长尾上的长尾表现降低,并且无法推理其预测。我们将图像字幕和检索型发电(RAG)与大语言模型(LLMS)集成在一起,以增强生物多样性监测,从而表征了稀有和未知的节肢动物物种的特殊希望 ...
机器学习的许多应用需要一个模型来对与训练样本分布不同的测试样本做出准确的预测,而训练期间特定于任务的标签很少。应对这一挑战的有效方法是在数据丰富的相关任务上预训练模型,然后在感兴趣的下游任务上对其进行微调。虽然预训练在许多语言和视觉领域都很有效,但如何在图数据集上有效地使用预训练仍然是一个悬而未决的问题... ...
本文介绍了Sana-Sprint,这是一种超快速文本图像(T2i)生成的有效扩散模型。 Sana-Sprint建立在预先训练的基础模型上,并通过混合蒸馏增强,将推理步骤从20至1-4大幅降低。我们介绍了三个关键的创新:(1)我们提出了一种无训练方法,该方法改变了持续时间一致性蒸馏(SCM)的预训练的流动匹配模型(SCM),从而消除了从SCRATCH中消除昂贵的培训并实现了高训练效率 ...
在过去的一年中,视频生成模型取得了显着的进步。 AI视频的质量不断提高,但以更大的模型大小,数据数量增加以及对培训计算的需求更大。在本报告中,我们提出开放式2 ...
对比视力语言预训练(称为剪辑)为使用大型图像文本对学习视觉表示提供了新的范式。它通过零照片知识转移在下游任务上表现出令人印象深刻的表现。为了进一步增强剪辑的适应能力,提出的现有方法可以微调额外的可学习模块,从而大大提高了少数弹性的性能,但引入了额外的培训时间和计算资源 ...