近年来,在计算机视觉任务中已经积极研究和改进了使用基于深度学习的方法的强大匹配方法。但是,对强大和快速匹配的技术的需求仍然存在。为了解决这个问题,我们提出了一种新型的基于Mamba的本地功能匹配方法,即Mambaglue,其中Mamba是一种新兴的最先进的建筑,以迅速获得其在训练和推理方面的较高速度,并且与变形金刚建筑相比有希望的性能 ...
语音水印技术可以主动减轻即时语音克隆技术的潜在有害后果。这些技术涉及将信号插入人类无法察觉的语音中,但可以通过算法检测到。以前的方法通常将水印消息嵌入连续空间中 ...
当前的文本视频检索方法主要依赖于查询和视频之间的跨模式匹配来计算其相似性分数,然后将其排序以获得检索结果。这种方法考虑了每个候选视频和查询之间的匹配,但它会产生大量的时间成本,并且随着候选人的增加而大大增加。生成模型在自然语言处理和计算机视觉中很常见,并且已成功应用于文档检索,但是它们在多模式检索中的应用仍未得到探索 ...
“预训练然后参数”范式在大型语言模型的部署中普遍采用。低高效秩适应(LoRA)是一种参数的参数方法,通常用于使基本模型适应多种任务,从而产生从一个基本模型派生大量的 LoRA 类型。我们的观察到,以服务为例,大规模推理提供了重要的机会...... ...
视频检索的最新进展主要是由模型架构和培训策略的进步所驱动的。但是,Videotext检索模型的表示学习能力仍受到低质量和有限的培训数据注释的约束。为了解决这个问题,我们介绍了一个新颖的Videotext检索范式,其中包括基于相关的增强,即Dream,它使用大型基础模型来增强视频和文本数据,以了解更多的概括性功能 ...
(STGNN)(STG)预测的主导模型。尽管取得了成功,但他们未能对 ...
在这项工作中,我们探索了用于视觉接地的整洁而有效的基于 Transformer 的框架。先前的方法通常解决了视觉接地的核心问题,即 ...
3D中湍流的模拟是计算流体动力学(CFD)中最昂贵的模拟之一。已经写了许多关于代孕模型的作品,以更快,学习,自回归模型代替流体流量的数值求解器。但是,三个维度的湍流的复杂性需要以很小的时间步长训练这些模型,同时产生逼真的流量状态需要长时间的滚动,并从许多步骤和大量误差积累或从已知的现实流动状态开始 - 我们首先要避免这种情况 ...