对比性语言图像预训练(剪辑)已显示出强大的零击学习表现。很少有学习的学习旨在通过在每个班级中给出几个图像,也就是“几镜头”,从而进一步增强了剪辑的传输能力。大多数现有方法要么通过合并可学习的提示或适配器来隐式地学习镜头,要么将它们明确嵌入缓存模型中以进行推理 ...
深度神经网络的最新进展显着提高了语义分割的性能。但是,阶级不平衡和实例失衡仍然是持续的挑战,在较小的实例和较薄的边界通常被较大的结构所掩盖。为了解决分段对象的多尺寸性质,各种模型都包含了诸如空间注意力和特征金字塔网络之类的机制 ...
前景细分是计算机视觉中的一项基本任务,包括各种细分任务。以前的研究通常为每个任务设计了特定于任务的架构,导致缺乏统一。此外,他们主要专注于识别前景对象,而没有有效地将它们与背景区分开 ...
尽管大语言模型(LLMS)取得了显着的成功,但基础 Transformer 体系结构在处理复杂的推理任务方面具有固有的局限性。经过思考链(COT)提示已成为一种实际的解决方法,但是大多数基于COT的方法都依赖于单个通用的提示,例如“逐步思考”,而没有特定于任务的适应性。这些方法希望该模型自己发现有效的推理路径,从而迫使其搜索庞大的及时空间 ...
动态3D场景重建的最新进展显示出了令人鼓舞的结果,从而使高保真3D新型视图合成并具有改善的时间一致性。其中,由于其能够建模高保真空间和时间变化的能力,因此4D高斯(4DG)已成为一种吸引人的方法。但是,由于4D高斯对静态区域的分配冗余,现有方法具有大量的计算和内存开销,这也会降低图像质量 ...
贝叶斯神经网络(BNN)为模型参数提供了概率分布,从而在预测中实现了不确定性量化。但是,与确定性的神经网络相比,它们通常表现不佳。利用相互学习可以有效提高同伴BNN的性能 ...
由于文本错误信息,操纵图像和外部知识推理之间的复杂相互作用,假新闻检测仍然是一个具有挑战性的问题。尽管现有方法在验证真实性和跨模式的一致性方面取得了显着的结果,但两个关键挑战仍然存在:(1)现有方法通常仅考虑全局图像上下文,同时忽略了本地对象级别的细节,并且(2)他们未能将外部知识和实体关系纳入更深入的语义理解。为了应对这些挑战,我们提出了一个新颖的多模式假新闻检测框架,该框架整合了视觉,文本和基于知识的表示 ...
电池对于各种应用至关重要,包括电动汽车和可再生能源存储,使安全性和效率引起关注。电池热图像中的异常检测有助于尽早确定故障,但是传统的深度学习方法需要广泛的标记数据,这很难获得,尤其是由于安全风险和高数据收集成本而引起的异常。为了克服这一点,我们使用视觉问题答案(VQA)模型探索了零射击异常检测,该模型利用了验证的知识和基于文本的提示来跨视觉任务概括 ...
零射击异常检测(ZSAD)旨在仅依靠外部辅助数据来检测无目标域训练样本的异常。现有的基于夹的方法试图通过手工制作或静态的可学习提示来激活模型的ZSAD潜力。前者的高工程成本和有限的语义覆盖范围,而后者对各种异常类型进行了相同的描述,因此无法适应复杂的变化 ...
在计算机视觉和图形中,代表和渲染2D图像的动态场景是一个基本而又具有挑战性的问题。这项调查对动态场景表示和渲染的演变和进步进行了全面的综述,并特别强调了基于神经辐射场和基于3D高斯分裂的重建方法的最新进展。我们系统地总结了现有方法,根据其核心原则对它们进行分类,编译相关数据集,比较这些基准测试的各种方法的性能,并探索这个迅速发展的领域中的挑战和未来研究方向 ...