多模式的大语言模型(MLLM)最近在处理和理解各种方式(例如文本,音频和视觉信号)的信息方面取得了巨大成功 ...
由于其出色的有效性和效率,异常检测已在实际工业制造中获得了广泛的应用。但是,以前的基于生成的模型受到次优重建质量的限制,从而阻碍了它们的整体性能。我们介绍了一种新型的异常检测管道,包括重建子网络和分割子网络 ...
随着图形神经网络的研究变得越来越密集和全面,它们的稳健性和安全性引起了极大的研究兴趣。现有的全局攻击方法将图中的所有节点视为其攻击目标。尽管现有方法取得了出色的成果,但仍有相当大的改进空间 ...
随着文本到图像(T2I)生成模型的快速发展,评估生成的图像和文本描述之间的语义一致性已成为一个重大的研究挑战。当前的方法,包括基于视觉问题回答的方法(VQA),仍然在精细粒度评估和图像文本对齐的精确量化方面挣扎。本文提出了一种改进的评估方法,称为图像文本和元素匹配(iMatch)的指定启动的多模式对齐(iMatch),该方法通过微调多模式大语言模型来评估图像文本语义对齐 ...
大型视觉模型(LVLM)取得了显着的成功,但它们的重大计算要求阻碍了实际部署。尽管提高LVLM效率的努力正在增长,但现有方法缺乏各种主链,基准和指标的全面评估。在这项工作中,我们系统地评估了LVLM的主流加速技术,分为 Token 和参数压缩 ...
模拟器提供了自动驾驶系统安全,低成本开发的可能性。但是,当前的驾驶模拟器展示了背景流量的幼稚行为模型。在模拟过程中,通常添加手动调整的场景,以诱导关键的情况 ...
多模式大型语言模型(MLLM)通过通过文本和图像启用互动来扩展传统语言模型的功能。但是,确保这些模型的安全仍然是一个重大挑战,特别是在准确确定多模式内容是安全的还是不安全的,我们将其称为安全意识。在本文中,我们介绍了MMSAFEAWARE,这是第一个综合的多模式安全意识基准测试,旨在评估29个安全场景中的MLLM,并使用1500个精心策划的图像推出对 ...
边缘扰动是修改图形结构的基本方法。它可以根据它们对图形神经网络(GNN)的性能的影响(即 ...