音频视频分割(AVS)任务旨在使用音频提示在视觉空间中进行启发对象。但是,在这项工作中,人们认识到,以前的AVS方法非常依赖于与听觉对象相关的有害细分偏好,而不是精确的音频指导。我们认为,主要原因是,与视觉相比,音频缺乏强大的语义,尤其是在多源的声音场景中,导致视觉空间的音频指导较弱 ...
一类视频异常检测的最新努力是利用扩散模型并将任务视为一代问题,在该问题中,训练扩散模型以专门恢复正常模式,从而将异常模式报告为异常值。然而,现有尝试忽略了异常的各种形态,并且无论监视视频中的异常对象通常相对较小,都可以在功能水平上预测正常样本。为了解决这个问题,提出了一种基于补丁的新型扩散模型,专门设计用于捕获细粒的本地信息 ...
大型语言模型(LLM)通过使用工具和处理多种方式的能力增强了。这些新功能带来了新的好处以及新的安全风险。在这项工作中,我们表明攻击者可以使用视觉对抗性示例引起攻击者设计的工具使用情况 ...
大型语言模型(LLMS)的快速发展具有显着高级的代码完成功能,从而产生了新一代基于LLM的代码完成工具(LCCTS)。与通用LLM不同,这些工具具有独特的工作流程,将多个信息源集成为输入和优先级代码建议,而不是自然语言互动,这引入了独特的安全挑战。此外,LCCT通常依靠专有代码数据集进行培训,从而引起人们对敏感数据潜在暴露的担忧 ...
视觉语言大型模型在各种多模式任务中取得了巨大的成功,但是由于视频数据的固有复杂性和计算需求,将它们应用于视频理解仍然具有挑战性。尽管基于培训的视频LLM提供高性能,但他们通常需要大量资源进行培训和推理。相反,无训练方法通过在没有额外培训的情况下调整预先训练的图像-LLMS模型来提供更有效的替代方法,但是由于视频框架产生了大量的视觉 Token ,它们会面临推理效率瓶颈 ...
机器人技术和增强现实(AR)的整合为提高可用性,直觉和可访问性提供了推进人类机器人互动(HRI)的变革机会。这项工作引入了无控制器,由LLM驱动的语音命令伪装系统,使用户可以实时操纵其虚拟对应物,从而使用户能够对机器人进行操作。通过利用自然语言处理(NLP)和AR技术,我们的系统 - 使用Meta Quest 3进行了原型 - 消除了对物理控制器的需求,增强了易用性,同时最大程度地降低了与直接机器 ...
自从 LLM 出现以来,将自然语言查询转换为结构化 SQL 命令的情况正在增加。与之前的评论不同,本次调查全面研究了基于 LLM 的文本到 SQL 系统的演变,从早期基于规则的模型到高级 LLM 方法,以及 LLM 如何影响该领域。我们讨论基准、评估方法和评估指标 ...
时间知识图(TKG)推理具有两个设置:插值推理和外推理。他们俩都引起了很多研究兴趣,并且具有重要意义。前者的方法强调事实序列之间的时间相关性,而后者的方法则需要严格的年代知识顺序,而忽略了过去缺失的事实所提供的推断线索 ...