arxiv Prompt Leakage effect and defense strategies for multi-turn LLM interactions

名称
Prompt Leakage effect and defense strategies for multi-turn LLM interactions
首页
https://yiyibooks.cn/arxiv/2404.16251v3/index.html
原始地址
https://arxiv.org/abs/2404.16251
描述
即时泄漏对 LLM 申请构成了引人注目的安全和隐私威胁。系统提示的泄露可能会损害知识产权,并成为攻击者的对抗性侦察。缺乏对即时泄漏威胁和缓解策略的系统评估,特别是对于多轮 LLM 互动。在本文中,我们系统地调查了跨四个领域的 10 个封闭源和开源 LLM 的即时泄漏 LLM 漏洞。我们设计了一个独特的威胁模型,利用 LLM 的阿谀奉承效应,将多回合设置中的平均攻击成功率 (ASR) 从 17.7% 提高到 86.2%。我们的标准化设置进一步允许剖析任务说明和知识文档等特定提示内容的泄漏。我们衡量了 7 种黑盒防御策略的缓解效果,并微调开源模型以防御泄漏尝试。我们针对威胁模型提出了不同的防御组合,包括成本分析。我们的研究强调了构建安全 LLM 应用程序的关键要点,并为多轮 LLM 交互的研究提供了方向 ...