dm616703的文档

dm616703

希望有一篇CCFA

多模式大语言模型（MLLMS）弥合了视觉和文本数据之间的差距，从而实现了一系列高级应用程序。但是，视觉元素之间的复杂内部互动及其与文本的一致性可能引入漏洞，可以利用这些漏洞来绕过安全机制。为了解决这个问题，我们分析图像内容与任务之间的关系，发现子图像的复杂性而不是其内容是关键 ...

0 0 0 0 2025/02/19 arXiv:2502.10794v1 dm616703

人类容易出现认知扭曲 - 偏见的思维模式会导致对特定刺激的反应，尽管在非常不同的情况下。本文表明，先进的多模式大语言模型（MLLM）表现出类似的趋势。尽管这些模型旨在在安全机制下响应查询，但他们有时会在某些视觉刺激的存在下拒绝无害的查询，而无视其上下文的良性本质 ...

0 0 0 0 2025/02/02 arXiv:2406.17806v1 dm616703

在本文中，我们研究了多模态大语言模型（MLLM）的无害对齐问题。我们对代表性 MLLM 的无害性能进行了系统的实证分析，并揭示了图像输入造成了 MLLM 的对齐漏洞。受此启发，我们提出了一种名为 HADES 的新颖越狱方法，该方法使用精心制作的图像隐藏并放大文本输入中恶意意图的危害性 ...

0 1 0 0 2025/02/01 arXiv:2403.09792v3 dm616703