大多数传统的人工智能安全研究都将人工智能模型视为机器,并以安全专家开发的以算法为中心的攻击为中心。随着大型语言模型 (LLM) 变得越来越普遍和强大,非专家用户也可能在日常交互中带来风险。本文介绍了越狱 LLM 作为类人沟通者的新视角,以探索日常语言交互和人工智能安全之间被忽视的交叉点 ...

0 0 0 0 2024/12/26 arXiv:2401.06373v2 dm616703

最近开发的大型语言模型(LLM)在通用和常识问题上表现出了令人印象深刻的零样本熟练程度。然而, LLM 在特定领域垂直问题上的应用仍然滞后,这主要是由于羞辱问题和垂直知识的缺乏。此外,垂直数据注释过程通常需要劳动密集型专家的参与,从而对增强模型的垂直能力提出了额外的挑战 ...

0 0 0 0 2024/12/23 arXiv:2403.01570v2 dm616703

大型语言模型 (LLM) 显着提高了从智能对话到文本生成等众多应用程序的性能。然而,它们固有的安全漏洞已成为一个日益重大的挑战,特别是在越狱攻击方面。攻击者可以规避这些 LLM 的安全机制,违反安全限制并导致有害输出 ...

0 0 0 0 2024/12/23 arXiv:2408.04686v1 dm616703

大型语言模型(LLM)正在以惊人的速度进步。然而,这些模型仍然容易受到越狱攻击,随着模型变得越来越强大,越狱攻击也变得越来越危险。在这项工作中,我们引入了一个越狱数据集,其中每个示例都可以以单轮或多轮格式输入 ...

0 0 0 0 2024/12/23 arXiv:2409.00137v1 dm616703

大型语言模型(LLM)利用其丰富的隐性知识和强大的推理能力,在与人类互动和解决复杂问题方面表现出了出色的表现。然而,此类模型很容易受到越狱攻击,从而导致有害响应的产生。尽管最近对单轮越狱策略进行了研究以促进防御机制的发展,但在多轮设置下揭示漏洞的挑战仍然相对未得到充分探索 ...

0 0 0 0 2024/12/23 arXiv:2410.11459v1 dm616703

随着大型语言模型(LLM)的快速进步,许多下游 NLP 任务在适当的提示下都可以得到很好的解决。尽管模型开发人员和研究人员在对话安全方面努力工作,以避免 LLM 生成有害内容,但引导人工智能生成的内容(AIGC)造福人类仍然具有挑战性。由于强大的 LLM 正在吞噬来自各个领域的现有文本数据(例如, ...

0 0 0 0 2024/12/23 arXiv:2304.05197v3 dm616703

预训练的视觉语言模型 (VLM) 在图像和自然语言理解方面表现出了卓越的性能,例如图像字幕和响应生成。随着视觉语言模型的实际应用变得越来越广泛,其潜在的安全性和鲁棒性问题引起了人们的担忧,即对手可能会逃避系统并导致这些模型通过恶意攻击生成有毒内容。因此,评估开源VLM针对对抗性攻击的鲁棒性已引起越来越多的关注,其中基于传输的攻击作为代表性的黑盒攻击策略 ...

0 0 0 0 2024/12/20 arXiv:2411.15720v1 dm616703

随着像 ChatGPT 这样的大型语言模型 (LLM) 的发展,它们庞大的应用程序和潜在的漏洞都已成为人​​们关注的焦点。尽管开发人员集成了多种安全机制来减少误用,但风险仍然存在,特别是当模型遇到对抗性输入时。这项研究揭示了一种攻击机制,该机制利用人类对话策略从 LLM 中提取有害信息 ...

0 0 0 0 2024/12/20 arXiv:2407.15399v1 dm616703

最近的大型语言模型(LLM)防御极大地提高了模型拒绝有害查询的能力,即使在受到敌对攻击时也是如此。然而,LLM 防御主要针对单轮对话中的自动对抗性攻击进行评估,这对于现实世界的恶意使用来说是一个不足的威胁模型。我们证明,多轮人类越狱可以发现重大漏洞,在 HarmBench 上,针对通过自动单轮攻击报告个位数 ASR 的防御,攻击成功率 (ASR) 超过 70% ...

0 0 0 0 2024/12/20 arXiv:2408.15221v2 dm616703

大型视觉语言模型(LVLM)的最新进展展示了跨多种模式的强大推理能力,在各种实际应用中取得了重大突破。尽管取得了巨大的成功,LVLM 的安全护栏可能无法覆盖视觉模式引入的不可预见的领域。现有的研究主要集中在通过精心设计的基于图像的越狱(旨在绕过对齐防御)来引发 LVLM 产生有害响应 ...

0 0 0 0 2024/12/18 arXiv:2411.11496v3 dm616703

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)