图像字幕上已经取得了很大的进步,这是由如何使用预训练模型编码图像的研究驱动的。这包括视觉编码(例如 ...
由OpenAI的O1系列举例说明的大语言模型(LLMS)中测试时间缩放的出现,通过在推理过程中扩展计算资源分配具有先进的推理功能。尽管QWQ,DeepSeek-R1(R1)和豪华轿车之类的后继者会复制这些进步,但这些模型是否真正具有测试时间扩展功能仍然没有得到充实。这项研究发现,这些类似O1的模型的较长的COT并不能持续提高准确性。实际上,对于相同的问题,正确的解决方案通常比错误的解决方案短 .. ...
视频描述是视频和语言方面的巨大可变性,在视觉和语言理解中最具挑战性的问题之一。因此,模型通常会捷径识别识别困难并产生基于先验的合理句子,但不一定基于视频。在这项工作中,我们通过在句子中注释每个名词短语,并在视频中的一个框架中用相应的边界框,将句子与视频中的证据联系起来 ...
我们介绍了DeepInversion,这是一种从用于训练深神经网络的图像分布中合成图像的新方法。我们“反转”一个训练有素的网络(教师),以合成从随机噪声开始的类条件输入图像,而无需使用有关培训数据集的任何其他信息。保持教师的固定,我们的方法在使用教师的批处理层中存储的信息在正规化中间特征图的分布时优化了输入 ...
培训卷积神经网络(CNN)以完全监督的方式检测红外小目标,近年来已经获得了出色的研究兴趣,但是由于需要大量的每像素注释,因此劳动力很高。为了解决这个问题,在本文中,我们首次尝试通过点级监督实现红外小目标检测。有趣的是,在按点标签监督的训练阶段,我们发现CNN首先学会在目标附近分割一群像素,然后逐渐收敛以预测地面图点标签 ...
现有的增量对象检测(IOD)方法部分减轻了在实际情况下检测新对象时的灾难性遗忘。但是,其中许多方法都取决于以下假设:未标记的旧级对象可能与增量数据中标记的新级对象共发生。当没有标记的老阶层对象不存在时,现有方法的性能往往会降解 ...
文本到语音(TTS)系统的最新进展使文本输入的自然和表达性语音产生。重音的TTS旨在通过使综合语音与少数群体的听众更相关,并在各种应用程序和环境中有用,从而增强用户体验。可以通过允许用户选择扬声器身份和口音的任何组合,从而导致各种个性化的语音输出,从而使语音合成更加灵活 ...
顺序推荐系统旨在根据用户的交互历史为个性化建议。为了实现这一目标,他们经常合并辅助信息,例如项目和辅助任务的文本描述,例如预测用户偏好和意图。尽管为增强这些模型而做出了许多努力,但它们仍然受到有限的个性化苦难 ...