由大型语言模型(LLM)提供支持的AI代理通过实现无缝,自然和背景感知的沟通来改变人类计算机的互动。尽管这些进步提供了巨大的效用,但它们也继承并扩大了固有的安全风险,例如偏见,公平,幻觉,隐私漏洞以及缺乏透明度。本文研究了一个关键的脆弱性:针对AI代理中LLM核心的对抗性攻击 ...
随着检索功能生成(RAG)系统的越来越多,最近的研究引入了旨在降低其性能的攻击方法。但是,这些方法依赖于不切实际的白框假设,例如攻击者可以访问抹布系统的内部流程。为了解决这个问题,我们基于RAG悖论引入了现实的黑框攻击方案,在该场景中,抹布系统无意间暴露了脆弱性,同时试图增强可信度 ...
尽管大型语言模型(LLM)在生成任务中取得了显着的成功,但它们仍然面临局限性,例如缺乏最新知识和产生幻觉。检索增强的生成(RAG)通过整合外部知识基础来增强LLM的性能,从而提供其他上下文,从而显着提高准确性和知识覆盖率。但是,建立这些外部知识库通常需要大量资源,并且可能涉及敏感信息 ...
现有的文本对图像生成模型反映甚至扩大了其培训数据中根深蒂固的社会偏见。对于人类形象生成,这尤其令人担忧,其中模型与某些人口统计组有偏见。现有的纠正此问题的尝试受到预先训练模型的固有局限性的阻碍,并且无法实质上改善人口多样性 ...
密集的检索系统已被广泛用于各种NLP应用中。但是,他们对潜在攻击的脆弱性尚未得到充实。本文调查了一种新颖的攻击情况,攻击者的目的是误导检索系统来检索攻击者指定的内容 ...
检索增强生成 (RAG) 系统通过集成外部知识源来增强大型语言模型 (LLM),从而针对用户查询提供更准确且与上下文相关的响应。然而,这些系统仍然容易受到语料库中毒攻击,这些攻击可能会通过注入恶意内容而显着降低 LLM 的性能。为了应对这些挑战,我们提出了 TrustRAG,这是一个强大的框架,可以在受损和不相关的内容到达语言模型之前系统地对其进行过滤 ...
检索增强生成(RAG)在提高语言模型(LM)的准确性和真实性方面表现出了巨大的潜力。然而,不完美的检索器或嘈杂的语料库可能会给检索的内容引入误导甚至错误的信息,对生成质量构成重大挑战。现有的 RAG 方法通常通过直接预测最终答案来解决这一挑战,尽管输入可能存在噪声,从而导致难以解释和验证的隐式去噪过程 ...
尽管由大型语言模型 (LLM) 提供支持的基于 LLM 的代理可以使用外部工具和内存机制来解决复杂的现实任务,但它们也可能会引入严重的安全漏洞。然而,现有文献并未全面评估针对基于 LLM 的代理的攻击和防御。为了解决这个问题,我们引入了 Agent Security Bench (ASB),这是一个综合框架,旨在形式化、基准测试和评估基于 LLM 的代理的攻击和防御,包括 10 个场景(例如: ...
检索增强生成(RAG)系统在自然语言处理方面显示出了巨大的前景。然而,他们对存储在检索数据库中的数据的依赖(可能包含专有或敏感信息)引入了新的隐私问题。具体来说,攻击者可以通过观察 RAG 系统的输出来推断某个文本段落是否出现在检索数据库中,这种攻击称为成员推理攻击 (MIA) ...
神经文本排名模型已经见证了显着的进步,并越来越多地在实践中部署。不幸的是,它们还继承了一般神经模型的对抗性脆弱性,这些神经模型已被检测到,但仍未被先前的研究所遭到反抗。此外,Blackhat SEO可能会利用继承的对抗脆弱性来击败受保护的搜索引擎 ...