大型语言模型(LLMS)在各种应用中都取得了显着成功,但仍然容易受到阻止其安全护栏的对抗性越狱。以前利用这些漏洞的尝试通常依赖于高成本的计算外推,这可能是不切实际的或有效的。在本文中,受到米尔格拉姆实验中的权威影响的启发,我们提出了一种轻巧的方法,可以利用LLMS的拟人化功能来构建$ \ textit {虚拟的,嵌套的场景} $,从而使其实现一种自适应方法,以在正常场景中逃脱用法控制 ...

0 0 0 0 2025/04/29 arXiv:2311.03191v5 dm616703

大型语言模型 (LLM) 已被证明会产生非法或不道德的响应,特别是在“越狱”时。对越狱的研究凸显了 LLM 的安全问题。然而,先前的研究主要集中在单轮对话,忽略了多轮对话所带来的潜在复杂性和风险,而多轮对话是人类从 LLM 中获取信息的关键模式 ...

0 0 0 0 2025/04/28 arXiv:2402.17262v2 dm616703

逐步验证器(也称为过程奖励模型(PRM))是测试时间缩放的关键要素。 PRM需要阶梯级监督,使其训练昂贵。这项工作旨在将数据效率的PRM构建为口头上的逐步奖励模型,这些模型通过生成验证链(COT)来验证解决方案中的每个步骤 ...

0 0 0 0 2025/04/27 arXiv:2504.16828v1 dm616703

由于缺乏足够的基准来系统地评估大型语言模型 (LLM) 抵抗生成有害内容的能力,其安全性仍然是一个关键问题。以前针对自动化红队的努力涉及静态或模板化的非法请求集和对抗性提示,鉴于越狱攻击的不断发展和可组合性质,这些提示的实用性有限。我们提出了一种新颖的可组合越狱攻击的动态基准,以超越静态数据集以及攻击和危害的分类法 ...

0 0 0 0 2025/04/26 arXiv:2408.04811v4 dm616703

在本文中,我们提出了 AutoDAN-Turbo,一种黑盒越狱方法,可以从头开始自动发现尽可能多的越狱策略,无需任何人为干预或预定义范围(例如,指定的候选策略),并将它们用于红色 -团队合作 ...

0 0 0 0 2025/04/26 arXiv:2410.05295v4 dm616703

大型语言模型(LLM)的快速发展带来了显着的生成能力,但也引起了人们对它们潜在滥用的担忧。尽管从人类反馈中进行的微调和强化学习等策略提高了其安全性,但这些方法主要集中于自然语言,这可能不会推广到其他领域。本文介绍了CodeAttack,该框架将自然语言输入转换为代码输入,并提出了一个新的环境,以测试LLMS的安全性概括 ...

0 0 0 0 2025/04/24 arXiv:2403.07865v5 dm616703

多模式大语言模型(MLLM)的惊人突破已经需要新的基准测试来定量评估其能力,揭示其局限性并指出未来的研究方向。但是,在遥感(RS)的背景下,这是具有挑战性的,因为图像具有超高分辨率,结合了极其复杂的语义关系。现有的基准通常比现实世界中的RS场景采用的图像大小要小,注释质量有限,并且认为评估尺寸不足 ...

0 0 0 0 2025/04/10 arXiv:2503.23771v1 dm616703

我们介绍了围攻,这是一个多转化的对抗框架,该框架通过树搜索的角度逐渐模拟大语模型(LLM)安全性的逐渐侵蚀。与依靠一个精心设计的提示的单转弯越狱不同,攻城以广度优先的方式扩展了对话,分支了多个对抗性提示,从而利用部分依从性从先前的回应中剥夺。通过跟踪这些增量策略泄漏并将其重新注入随后的查询,围攻揭示了如何将小特许权积累到完全不允许的输出中 ...

0 0 0 0 2025/04/09 arXiv:2503.10619v2 dm616703

迅速恢复,从大型语言模型(LLMS)的输出中重建提示,随着LLMS无处不在。大多数用户通过无内部模型权重的API访问LLM,仅依靠输出和逻辑,这会使恢复复杂化。本文探讨了一项独特的提示恢复任务,该任务的重点是重建样式转移和重新启动的提示,而不是典型的提问 ...

0 0 0 0 2025/04/09 arXiv:2504.04373v1 dm616703

我们介绍了围攻,这是一个多转化的对抗框架,该框架通过树搜索的角度逐渐模拟大语模型(LLM)安全性的逐渐侵蚀。与依靠一个精心设计的提示的单转弯越狱不同,攻城以广度优先的方式扩展了对话,分支了多个对抗性提示,从而利用部分依从性从先前的回应中剥夺。通过跟踪这些增量策略泄漏并将其重新注入随后的查询,围攻揭示了如何将小特许权积累到完全不允许的输出中 ...

0 0 0 0 2025/03/14 arXiv:2503.10619v1 dm616703

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)