LLM 是检索增强生成(RAG)系统的组成部分。虽然许多研究侧重于评估端到端 RAG 系统的质量,但缺乏了解 LLM 对于 RAG 任务的适当性的研究。因此,我们引入了一个新的指标——信任评分,它可以对 RAG 框架中 LLM 的可信度进行整体评估 ...

0 0 1 4 2025/06/19 arXiv:2409.11242v4 0x211

大型语言模型(LLMS)的显着成功阐明了为学术和工业社区实现人工智能的有希望的途径,因为它们在各种应用程序中的前所未有的表现。随着LLM在研究和商业领域的突出地位,其安全性和安全性的影响已成为一个日益严重的关注点,不仅对于研究人员和公司而言,而且对每个国家也是如此。当前,现有对LLM安全性的调查主要集中在LLM生命周期的特定阶段,e ...

0 0 0 0 2025/06/11 arXiv:2504.15585v4 0x211

部署语言模型(LMS)必须使输出既高质量又符合安全指南。尽管推理时间护栏(ITG)提供了将模型输出分布转移到合规性的解决方案,但我们发现当前的方法在平衡安全性与有益的方法方面很难。安全解决不合规查询的ITG方法表现出较低的帮助,而那些优先级有帮助的人对安全性进行了损害 ...

0 0 0 0 2025/06/11 arXiv:2407.16318v1 0x211

Guardrail是一种新兴机制,旨在通过调节有害或有毒的反应来确保大型语言模型(LLM)与人类价值观保持一致,因此需要在其设计中采用社会技术方法。本文解决了一个关键问题:现有的护栏缺乏有充分的方法来满足不同用户群体的各种需求,尤其是有关访问权利的需求。在信任建模(主要是在社交方面)的支持,并通过在线内部学习通过检索效果生成(在“技术”方面)进行了增强,我们引入了一种自适应护栏机制,以基于用户信任度量的指标动态访问敏感内容 ...

0 0 0 0 2025/06/11 arXiv:2408.08959v3 0x211

通过在推断过程中纳入外部知识,检索授权的生成(RAG)已被证明可以有效缓解大语言模型的幻觉。但是,这种集成引入了新的安全漏洞,尤其是中毒攻击。尽管先前的工作探讨了各种中毒策略,但对它们对抹布系统的实际威胁的彻底评估仍然缺失 ...

0 0 0 0 2025/06/09 arXiv:2505.18543v1 0x211

检索增强的生成(RAG)系统通过合并外部知识来增强大语言模型,解决过时的内部知识和幻觉等问题。但是,它们对外部知识基础的依赖使它们容易受到语料库中毒攻击的影响,在这些攻击中,可以注入对抗性段落以操纵检索结果。现有的制作此类段落的方法,例如随机 Token 更换或训练倒置模型,通常很慢且计算上很昂贵,需要访问回猎犬的梯度或大量的计算资源 ...

0 0 0 0 2025/06/09 arXiv:2503.21315v1 0x211

已知大型语言模型(LLM)容易受到越狱攻击的影响,在这种攻击中,对手会利用精心设计的提示来引起有害或不道德的反应。这些威胁引起了人们对LLM在现实世界部署中安全性和可靠性的关键关注。尽管现有的防御机制部分降低了这种风险,但随后的对抗技术的进步使新的越狱方法可以避免这些保护,从而揭示了静态防御框架的局限性 ...

0 0 0 0 2025/06/09 arXiv:2505.15753v1 0x211

检索增强生成 (RAG) 系统通过集成外部知识源来增强大型语言模型 (LLM),从而针对用户查询提供更准确且与上下文相关的响应。然而,这些系统仍然容易受到语料库中毒攻击,这些攻击可能会通过注入恶意内容而显着降低 LLM 的性能。为了应对这些挑战,我们提出了 TrustRAG,这是一个强大的框架,可以在受损和不相关的内容到达语言模型之前系统地对其进行过滤 ...

0 0 0 0 2025/06/06 arXiv:2501.00879v3 0x211

大型语言模型(LLMS)在广泛的应用中表现出了出色的性能,例如医疗问题,数学科学和代码生成 ...

0 0 0 0 2025/05/27 arXiv:2504.07717v2 0x211

大型语言模型(LLM)以其在语言理解和生成方面的良好水平而闻名,刺激了周围应用的充满活力的生态系统。但是,他们对各种服务的广泛同化引入了重大的安全风险。这项研究解构了对实际LLM集成应用的迅速注射攻击的复杂性和含义 ...

0 0 0 0 2025/05/26 arXiv:2306.05499v2 0x211