0x211的文档

Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems

大型语言模型 (LLM) 正在重塑我们日常生活的方方面面，导致广泛采用基于网络的服务。尽管 LLM 具有多功能性，但它们仍面临着显着的挑战，例如生成幻觉内容和无法获取最新信息。最近，为了解决这些限制，检索增强生成（RAG）通过生成基于外部知识源的响应而成为一个有前途的方向。典型的 RAG 系统由以下部分组成：i) 检索器，用于从知识库中探测一组相关段落；ii) 生成器，用于根据检索到的内容制定响应。然而，与其他人工智能系统一样，最近的研究证明了 RAG 的脆弱性，例如通过注入误导性信息进行知识损坏攻击。作为回应，人们提出了几种防御策略，包括让 LLM 单独检查检索到的段落或微调强大的检索器。虽然有效，但此类方法通常会带来大量的计算成本。在这项工作中，我们介绍了 RAGDefender，这是一种资源高效的防御机制，可防止实际 RAG 部署中的知识损坏（即数据中毒）攻击。 RAGDefender 在检索后阶段运行，利用轻量级机器学习技术来检测和过滤掉对抗性内容，而无需额外的模型训练或推理。我们的实证评估表明，RAGDefender 在多个模型和对抗场景中始终优于现有的最先进的防御：例如，当对抗性段落数量超过合法段落数时，RAGDefender 将针对 Gemini 模型的攻击成功率 (ASR) 从 0.89 降低到低至 0.02，而 RobustRAG 为 0.69，Discern-and-Answer 为 0.24。因数四 (4x) ...

0 0 0 0 2025/12/05 arXiv:2511.01268v1 0x211

TracLLM: A Generic Framework for Attributing Long Context LLMs

长上下文大语言模型 (LLM) 部署在许多实际应用程序中，例如 RAG、代理和广泛的 LLM 集成应用程序。给定指令和长上下文（例如文档、PDF文件、网页），长上下文 LLM 可以生成基于所提供上下文的输出，旨在提供更准确、最新和可验证的输出，同时减少幻觉和不受支持的主张。这就提出了一个研究问题：如何在上下文中查明对 LLM 生成的输出贡献最大或负责的文本（例如句子、段落或段落）？这个过程，我们称之为上下文回溯，有各种实际应用，例如 1) 调试基于 LLM 的系统，2) 对 LLM 的攻击（例如提示注入攻击、知识损坏攻击）进行攻击后取证分析，3) 突出知识源以增强用户对 LLM 生成的输出的信任。当应用于长上下文 LLM 的上下文追踪时，现有的特征归因方法（例如 Shapley）的性能不佳和/或会产生大量的计算成本。在这项工作中，我们开发了 TracLLM，这是第一个专为长上下文 LLM 定制的通用上下文追溯框架。我们的框架可以提高现有特征归因方法的有效性和效率。为了提高效率，我们在 TracLLM 中开发了一种基于知情搜索的算法。我们还开发了贡献分数集成/去噪技术来提高 TracLLM 的准确性。我们的评估结果表明 TracLLM 可以有效地识别长上下文中的文本，从而产生 LLM 的输出。我们的代码和数据位于：此 https URL ...

0 0 0 0 2025/11/27 arXiv:2506.04202v3 0x211

AttnTrace: Attention-based Context Traceback for Long-Context LLMs

长上下文大语言模型 (LLM)，例如 Gemini-2.5-Pro 和 Claude-Sonnet-4，越来越多地用于增强高级人工智能系统的能力，包括检索增强生成 (RAG) 管道和自主代理。在这些系统中， LLM 接收指令以及上下文（通常由从知识数据库或内存检索的文本组成），并通过遵循指令生成基于上下文的响应。最近的研究设计了解决方案，可以追溯到对 LLM 生成的响应贡献最大的上下文中的文本子集。这些解决方案有许多实际应用，包括执行攻击后取证分析以及提高 LLM 输出的可解释性和可信度。尽管已经做出了巨大的努力，但 TracLLM 等最先进的解决方案通常会导致较高的计算成本，例如，TracLLM 需要数百秒才能对单个响应上下文对执行回溯。在这项工作中，我们提出了 AttnTrace，这是一种新的上下文追溯方法，基于 LLM 为提示生成的注意权重。为了有效地利用注意力权重，我们引入了两种旨在增强 AttnTrace 有效性的技术，并为我们的设计选择提供了理论见解。我们还对 AttnTrace 进行了系统评估。结果表明，AttnTrace 比现有最先进的上下文追溯方法更准确、更高效。我们还表明，AttnTrace 可以通过检测前归因范例改进在长上下文下检测提示注入的最先进方法。作为一个现实世界的应用程序，我们证明 AttnTrace 可以有效地查明旨在操纵 LLM 生成的评论的论文中注入的指令。代码位于此 https URL ...

0 0 0 0 2025/11/27 arXiv:2508.03793v1 0x211

Who Taught the Lie? Responsibility Attribution for Poisoned Knowledge in Retrieval-Augmented Generation

检索增强生成（RAG）将外部知识集成到大型语言模型中以提高响应质量。然而，最近的研究表明，RAG 系统非常容易受到中毒攻击，恶意文本会被插入到知识数据库中以影响模型输出。虽然已经提出了几种防御措施，但它们常常被更具适应性或更复杂的攻击所绕过。本文提出了 RAGOrigin，这是一个黑盒责任归因框架，旨在识别知识数据库中的哪些文本对误导或不正确的生成负责。我们的方法构建了针对每个错误生成事件的集中归因范围，并通过评估其检索排名、语义相关性以及对生成响应的影响来为每个候选文本分配责任分数。然后，系统使用无监督聚类方法隔离中毒文本。我们评估了七个数据集和十五种中毒攻击的 RAGOrigin，包括新开发的自适应中毒策略和多攻击场景。我们的方法在识别有毒内容方面优于现有基线，并且在动态和噪声条件下保持稳健。这些结果表明，RAGOrigin 为追踪 RAG 系统中损坏知识的起源提供了实用且有效的解决方案。我们的代码位于：此 https URL ...

0 0 0 0 2025/11/26 arXiv:2509.13772v2 0x211

GRADA: Graph-based Reranking against Adversarial Documents Attack

检索增强生成（RAG）框架通过集成检索文档中的外部知识来提高大型语言模型（LLM）的准确性，从而克服模型静态内在知识的局限性。然而，这些系统很容易受到对抗性攻击，这些攻击通过引入对抗性但语义上与查询相似的文档来操纵检索过程。值得注意的是，虽然这些对抗性文档与查询相似，但它们与检索集中的良性文档表现出较弱的相似性。因此，我们提出了一种简单而有效的基于图的对抗性文档攻击重排名（GRADA）框架，旨在保持检索质量，同时显着降低对手的成功率。我们的研究通过在五个 LLM 上进行的实验来评估我们方法的有效性：GPT-3.5-Turbo、GPT-4o、Llama3.1-8b、Llama3.1-70b 和 Qwen2.5-7b。我们使用三个数据集来评估性能，自然问题数据集的结果表明，攻击成功率降低了 80%，同时保持了最小的准确性损失 ...

0 0 0 0 2025/11/26 arXiv:2505.07546v3 0x211

Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective

大型语言模型 (LLM) 在一系列自然语言处理任务中取得了令人印象深刻的成果，但它们产生有害内容的潜力引起了严重的安全问题。目前的毒性检测器主要依赖于单标签基准，它无法充分捕捉现实世界有毒提示固有的模糊性和多维性质。这种限制会导致评估出现偏差，包括错过有毒物质检测和误报，从而损害了现有探测器的可靠性。此外，收集细粒度毒性类别的全面多标签注释成本高昂，进一步阻碍了有效的评估和开发。为了解决这些问题，我们引入了三种新颖的多标签毒性检测基准：\textbf{Q-A-MLL}、\textbf{R-A-MLL}和\textbf{H-X-MLL}，它们源自公共毒性数据集，并根据详细的 15 类分类法进行注释。我们进一步提供了一个理论证明，在我们发布的数据集上，使用伪标签进行训练比直接从单标签监督中学习可以获得更好的性能。此外，我们还开发了一种基于伪标签的毒性检测方法。大量实验结果表明，我们的方法显着超越了先进的基线，包括 GPT-4o 和 DeepSeek，从而能够更准确、可靠地评估 LLM 生成内容中的多标签毒性 ...

0 0 1 2 2025/11/14 arXiv:2510.15007v1 0x211

"Give a Positive Review Only": An Early Investigation Into In-Paper Prompt Injection Attacks and Defenses for AI Reviewers

随着人工智能模型的快速发展，它们在不同任务中的部署变得越来越广泛。一个值得注意的新兴应用是利用人工智能模型来协助审阅科学论文。然而，最近的报告显示，一些论文包含隐藏的、注入的提示，旨在操纵人工智能审稿人提供过于有利的评估。在这项工作中，我们对这一新兴威胁进行了早期系统调查。我们提出两类攻击：（1）静态攻击，采用固定的注入提示；（2）迭代攻击，针对模拟审阅者模型优化注入提示，以最大限度地提高其有效性。这两种攻击都取得了惊人的性能，当针对前沿人工智能评审者时，经常会产生完整的评估分数。此外，我们表明这些攻击在各种设置下都是稳健的。为了应对这种威胁，我们探索了一种简单的基于检测的防御。虽然它大大降低了攻击的成功率，但我们证明自适应攻击者可以部分规避这种防御。我们的研究结果强调，在人工智能辅助同行评审中，需要更多关注和严格防范即时注入威胁 ...

0 0 0 0 2025/11/13 arXiv:2511.01287v1 0x211

CompressionAttack: Exploiting Prompt Compression as a New Attack Surface in LLM-Powered Agents

LLM 支持的代理通常使用即时压缩来降低推理成本，但这会带来新的安全风险。压缩模块针对效率而不是安全性进行了优化，可以通过对抗性输入进行操纵，从而导致语义漂移并改变 LLM 行为。这项工作将即时压缩确定为一种新颖的攻击面，并提出了 CompressionAttack，这是第一个利用它的框架。 CompressionAttack 包括两种策略：HardCom（使用离散对抗性编辑进行硬压缩）和 SoftCom（对软压缩执行潜在空间扰动）。对多个 LLM 进行的实验显示，攻击成功率高达 80%，偏好翻转率高达 98%，同时保持高度隐秘性和可转移性。 VSCode Cline 和 Ollama 中的案例研究证实了现实世界的影响，而当前的防御措施被证明是无效的，这凸显了加强保护的必要性 ...

0 0 0 0 2025/11/13 arXiv:2510.22963v2 0x211

Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack

尽管大型语言模型 (LLM) 的功能令人印象深刻，但仍然容易受到越狱攻击。调查这些弱点对于健全的安全机制至关重要。现有的攻击主要通过引入额外的上下文或对抗性标记来分散 LLM 的注意力，从而使核心有害意图保持不变。在本文中，我们介绍了 ISA（意图转移攻击），它会混淆 LLM 的攻击意图。更具体地说，我们建立了意图转换的分类法，并利用它们来生成可能被 LLM 误解为良性信息请求的攻击。与之前依赖复杂标记或冗长上下文的方法不同，我们的方法只需要对原始请求进行最少的编辑，并产生自然的、人类可读的、看似无害的提示。对开源和商业 LLM 的大量实验表明，与直接有害提示相比，ISA 的攻击成功率提高了 70% 以上。更重要的是，仅对使用 ISA 模板重新制定的良性数据进行模型微调，可将成功率提高到接近 100%。对于防御，我们评估现有方法并证明它们针对 ISA 的不足，同时探索免训练和基于训练的缓解策略。我们的研究结果揭示了 LLM 安全意图推断的根本挑战，并强调需要更有效的防御。我们的代码和数据集可在此 https URL 获取 ...

0 0 0 0 2025/11/13 arXiv:2511.00556v1 0x211

POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models

大型语言模型（LLM）在各个领域取得了显着的成功，这主要是由于它们在推理和生成类人文本方面的强大能力。尽管 LLM 的表现令人印象深刻，但他们很容易产生幻觉，这可能会导致不正确或误导性的输出。这主要是由于缺乏最新知识或特定领域的信息 ...

0 0 0 0 2025/11/03 arXiv:2505.06579v1 0x211