0x211的文档

Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse

LLM 是检索增强生成（RAG）系统的组成部分。虽然许多研究侧重于评估端到端 RAG 系统的质量，但缺乏了解 LLM 对于 RAG 任务的适当性的研究。因此，我们引入了一个新的指标——信任评分，它可以对 RAG 框架中 LLM 的可信度进行整体评估 ...

0 0 1 4 2025/06/19 arXiv:2409.11242v4 0x211

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

大型语言模型（LLMS）的显着成功阐明了为学术和工业社区实现人工智能的有希望的途径，因为它们在各种应用程序中的前所未有的表现。随着LLM在研究和商业领域的突出地位，其安全性和安全性的影响已成为一个日益严重的关注点，不仅对于研究人员和公司而言，而且对每个国家也是如此。当前，现有对LLM安全性的调查主要集中在LLM生命周期的特定阶段，e ...

0 0 0 0 2025/06/11 arXiv:2504.15585v4 0x211

PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing

部署语言模型（LMS）必须使输出既高质量又符合安全指南。尽管推理时间护栏（ITG）提供了将模型输出分布转移到合规性的解决方案，但我们发现当前的方法在平衡安全性与有益的方法方面很难。安全解决不合规查询的ITG方法表现出较低的帮助，而那些优先级有帮助的人对安全性进行了损害 ...

0 0 0 0 2025/06/11 arXiv:2407.16318v1 0x211

Trust-Oriented Adaptive Guardrails for Large Language Models

Guardrail是一种新兴机制，旨在通过调节有害或有毒的反应来确保大型语言模型（LLM）与人类价值观保持一致，因此需要在其设计中采用社会技术方法。本文解决了一个关键问题：现有的护栏缺乏有充分的方法来满足不同用户群体的各种需求，尤其是有关访问权利的需求。在信任建模（主要是在社交方面）的支持，并通过在线内部学习通过检索效果生成（在“技术”方面）进行了增强，我们引入了一种自适应护栏机制，以基于用户信任度量的指标动态访问敏感内容 ...

0 0 0 0 2025/06/11 arXiv:2408.08959v3 0x211

Benchmarking Poisoning Attacks against Retrieval-Augmented Generation

通过在推断过程中纳入外部知识，检索授权的生成（RAG）已被证明可以有效缓解大语言模型的幻觉。但是，这种集成引入了新的安全漏洞，尤其是中毒攻击。尽管先前的工作探讨了各种中毒策略，但对它们对抹布系统的实际威胁的彻底评估仍然缺失 ...

0 0 0 0 2025/06/09 arXiv:2505.18543v1 0x211

Tricking Retrievers with Influential Tokens: An Efficient Black-Box Corpus Poisoning Attack

检索增强的生成（RAG）系统通过合并外部知识来增强大语言模型，解决过时的内部知识和幻觉等问题。但是，它们对外部知识基础的依赖使它们容易受到语料库中毒攻击的影响，在这些攻击中，可以注入对抗性段落以操纵检索结果。现有的制作此类段落的方法，例如随机 Token 更换或训练倒置模型，通常很慢且计算上很昂贵，需要访问回猎犬的梯度或大量的计算资源 ...

0 0 0 0 2025/06/09 arXiv:2503.21315v1 0x211

Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

已知大型语言模型（LLM）容易受到越狱攻击的影响，在这种攻击中，对手会利用精心设计的提示来引起有害或不道德的反应。这些威胁引起了人们对LLM在现实世界部署中安全性和可靠性的关键关注。尽管现有的防御机制部分降低了这种风险，但随后的对抗技术的进步使新的越狱方法可以避免这些保护，从而揭示了静态防御框架的局限性 ...

0 0 0 0 2025/06/09 arXiv:2505.15753v1 0x211

TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation

检索增强生成 (RAG) 系统通过集成外部知识源来增强大型语言模型 (LLM)，从而针对用户查询提供更准确且与上下文相关的响应。然而，这些系统仍然容易受到语料库中毒攻击，这些攻击可能会通过注入恶意内容而显着降低 LLM 的性能。为了应对这些挑战，我们提出了 TrustRAG，这是一个强大的框架，可以在受损和不相关的内容到达语言模型之前系统地对其进行过滤 ...

0 0 0 0 2025/06/06 arXiv:2501.00879v3 0x211

PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization

大型语言模型（LLMS）在广泛的应用中表现出了出色的性能，例如医疗问题，数学科学和代码生成 ...

0 0 0 0 2025/05/27 arXiv:2504.07717v2 0x211

Prompt Injection attack against LLM-integrated Applications

大型语言模型（LLM）以其在语言理解和生成方面的良好水平而闻名，刺激了周围应用的充满活力的生态系统。但是，他们对各种服务的广泛同化引入了重大的安全风险。这项研究解构了对实际LLM集成应用的迅速注射攻击的复杂性和含义 ...

0 0 0 0 2025/05/26 arXiv:2306.05499v2 0x211