最近,DeepSeek R1证明了如何通过简单的基于规则的激励措施进行强化学习可以使大型语言模型中复杂推理的自主发展,其特征是“ AHA时刻”,在该模型中,该模型在训练过程中表现出自我反省和增加的响应长度。但是,将这一成功扩展到多模式推理的尝试通常未能重现这些关键特征。在本报告中,我们介绍了仅在非SFT 2B模型上进行多模式推理的这些新兴特征的首次成功复制 ...
对话中的情绪识别(ERC)是一项预测对话上下文中话语情绪的任务。它紧密依赖于对话上下文、说话者身份信息、多方对话场景等。然而,最先进的方法(instructERC)仅识别说话者,而忽略了常识知识(即说话人) ...
我们提出了VGGT,这是一个馈送前向神经网络,它直接渗透了场景的所有关键3D属性,包括相机参数,点地图,深度地图和3D点轨道,从一个,几个或数百个视图中。这种方法是在3D计算机视觉中向前迈出的一步,其中模型通常被限制为单个任务并专门针对单个任务。它也是简单有效的,在一秒钟内重建图像,并且仍然超过需要使用视觉几何优化技术进行后处理的替代方案 ...
长期以来,图像字幕一直是视觉理解中的关键任务,视觉模型(VLM)的最新进展显着增强了生成详细的图像标题的能力。然而,由于过时的评估指标和粗略注释,对详细图像字幕的评估仍未被忽视。在本文中,我们介绍了Decapbench以及一种新颖的指标DCSCORE,专门设计用于详细的字幕任务 ...
大型语言模型(LLM)已彻底改变了基于自然语言处理(NLP)的应用程序,包括自动化文本生成,问答,聊天机器人等。但是,他们面临着一个重大的挑战:幻觉,模型产生了合理的听起来但实际上不正确的反应。这破坏了信任并限制了LLM在不同域中的适用性 ...
在紧迫气候变化挑战和节肢动物之间的生物多样性丧失的背景下,来自有机图像的自动分类学分类是一项激烈研究的主题。但是,基于CNN或VITS等深层神经视觉架构的传统AI管道面临限制,例如在长尾上的长尾表现降低,并且无法推理其预测。我们将图像字幕和检索型发电(RAG)与大语言模型(LLMS)集成在一起,以增强生物多样性监测,从而表征了稀有和未知的节肢动物物种的特殊希望 ...
机器学习的许多应用需要一个模型来对与训练样本分布不同的测试样本做出准确的预测,而训练期间特定于任务的标签很少。应对这一挑战的有效方法是在数据丰富的相关任务上预训练模型,然后在感兴趣的下游任务上对其进行微调。虽然预训练在许多语言和视觉领域都很有效,但如何在图数据集上有效地使用预训练仍然是一个悬而未决的问题... ...
本文介绍了Sana-Sprint,这是一种超快速文本图像(T2i)生成的有效扩散模型。 Sana-Sprint建立在预先训练的基础模型上,并通过混合蒸馏增强,将推理步骤从20至1-4大幅降低。我们介绍了三个关键的创新:(1)我们提出了一种无训练方法,该方法改变了持续时间一致性蒸馏(SCM)的预训练的流动匹配模型(SCM),从而消除了从SCRATCH中消除昂贵的培训并实现了高训练效率 ...