尽管最近的大型视力模型(LVLM)在多模式任务中表现出了显着的性能,但它们很容易产生幻觉文本响应,这些响应与给定的视觉输入不符,这限制了它们在现实世界中的实际适用性。在这项工作中,受到观察的启发,即文本对图像生成过程是LVLMS中图像条件的响应生成的倒数,我们探讨了利用文本对图像生成模型的潜力,以帮助减轻LVLMS中的幻觉。我们发现,生成模型可以提供有价值的自我反馈,以减轻响应和 Token 水平 ...
多模式奖励模型(RMS)的最新进展在提供奖励信号以使视力模型与人类偏好相结合时表现出了巨大的希望。但是,当前的RMS通常仅限于提供直接响应或参与深度有限的浅水推理过程,通常导致奖励信号不准确。我们认为,将明确的思想链(COT)纳入奖励推理过程可以显着增强其可靠性和鲁棒性 ...
忠实的图像超分辨率(SR)不仅需要恢复看起来很现实的图像,类似于图像生成任务,而且还要求恢复的图像保持忠诚度和与输入的结构一致性。为此,我们提出了一种名为Faithdiff的简单有效的方法,以完全利用忠实图像SR的潜在扩散模型(LDMS)的令人印象深刻的力量。与现有的基于扩散的SR方法相反,该方法冻结了在高质量图像上预先训练的扩散模型,我们建议在识别有用的信息并恢复忠实的结构之前释放扩散 ...
尽管自我监督的方法已导致视觉表示学习的快速进步,但这些方法通常使用相同的镜头处理对象和场景。在本文中,我们专注于对物体和场景的学习表示,这些对象和场景保留了它们之间的结构。通过观察到在表示空间中接近视觉上相似的对象的动机,我们认为场景和对象应该基于其组成性遵循层次结构 ...
为了安全有效地浏览复杂的交通情况,自动驾驶汽车需要具有预测周围车辆未来运动的能力。多种相互作用的代理,驾驶员行为的多模式性质以及任务涉及的固有不确定性使周围车辆的运动预测成为具有挑战性的问题。在本文中,我们提出了一个LSTM模型,用于在高速公路上对周围车辆的相互作用感知运动预测 ...
尽管Colpali/colqwen2在可视化文档检索(VDR)中的性能很强,但它将每个页面编码为多个补丁级嵌入式,并导致过多的内存使用情况。这项实证研究研究了以最小的性能降解减少每页粘合嵌入的方法。我们评估了两种 Token 还原策略: Token 修剪和 Token 合并 ...
神经音频编解码器(NACS)作为音频压缩的关键技术以及语音语言模型的音频表示,引起了极大的关注。虽然主流NAC模型主要基于卷积,但具有纯粹基于 Transformer 的NAC的性能仍未得到探索。本文介绍了基于 Transformer 的简单流单编解码器TS3-Codec ...
神经音频编解码器最近因其压缩高保真音频并生成可用于下游生成建模任务中的离散 Token 的能力而获得了吸引力。但是,领先的方法通常依赖于资源密集型模型和多量式架构,从而导致了相当大的计算开销和限制的现实世界适用性。在本文中,我们提出了SQCodec,这是一种轻巧的神经音频编解码器,利用单个量化器来解决这些限制 ...