深度学习的成功使得需要多模式任务的进步,这些任务需要多个输入域的非平凡融合。尽管多模型模型在许多问题中都显示出潜力,但它们的复杂性增加使它们更容易受到攻击。后门(或特洛伊木马)攻击是一类安全漏洞,其中攻击者将恶意的秘密行为嵌入到网络中(e ...
指纹身份验证系统非常容易受到指纹的人为复制的影响,称为指纹表现攻击。检测演示攻击并不是很微不足道的,因为攻击者每年都会完善其复制技术。国际指纹检测竞赛(LivDET)是处理呈现攻击检测问题的学院和私人公司的开放且良好的会议点,其目标是通过使用标准实验协议和数据集来评估指纹表现攻击检测(FPAD)算法的性能 ...
我们探索了一个新任务,用于视听语言建模,称为细粒度的听觉视频描述(FAVD)。它旨在为给定的听觉视频提供详细的文本描述,包括每个对象的外观和空间位置,移动对象的动作以及视频中的声音。现有的视觉建模任务通常集中在视频中的视觉提示上,同时低估了语言和音频方式 ...
预测不规则的多元时间序列(IMT)最近成为一个独特的研究领域,需要专门模型来应对其独特的挑战。虽然大多数预测文献都假定没有缺少价值观的定期观察,但许多现实世界中的数据集(尤其是在医疗保健,气候研究和生物力学上)都违反了这些假设。时间序列(TS) - 混合模型在常规多元时间序列预测中取得了显着的成功 ...
迅速调整与多模式学习的集成显示了各种下游任务的显着概括能力。尽管取得了进步,但现有方法在很大程度上取决于大量的特定于特定于标记的数据(例如, ...
本文介绍了用于文本驱动视频编辑的\ emph {controlVideo} - 生成与给定文本对齐的视频,同时保留源视频的结构。controlVideo基于预先训练的文本到图像扩散模型,通过合并附加条件(例如边缘图),controlVideo通过提供具有高保真度的视频来超越各种竞争基准... ...
大型语言模型(LLMS)由于GEMM操作,重量访问和KV缓存访问的效率低下而面临明显的推理潜伏期,尤其是在实时场景中。这突出了需要多功能计算机的有效加速器。不幸的是,现有的 Transformer 加速器努力同时解决这两个方面,因为它们专注于价值水平的处理,缺少细粒度的机会来协作优化计算和内存 ...
主流多模式大型语言模型(MLLM)通过使用视觉投影仪来弥合预处理的视觉编码器和大型语言模型(LLM)来实现视觉理解。视觉和文本方式之间的固有差距使视觉投影仪的嵌入对于视觉理解至关重要。但是,当前的对齐方法将视觉嵌入视为上下文提示,而仅将自动回归监督应用于文本输出,从而忽略了引入等效直接视觉监督的必要性,从而阻碍了潜在的视觉嵌入的潜在比对 ...