dm616703的文档

dm616703

希望有一篇CCFA

How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

大多数传统的人工智能安全研究都将人工智能模型视为机器，并以安全专家开发的以算法为中心的攻击为中心。随着大型语言模型 (LLM) 变得越来越普遍和强大，非专家用户也可能在日常交互中带来风险。本文介绍了越狱 LLM 作为类人沟通者的新视角，以探索日常语言交互和人工智能安全之间被忽视的交叉点 ...

0 0 0 0 2024/12/26 arXiv:2401.06373v2 dm616703

SERVAL: Synergy Learning between Vertical Models and LLMs towards Oracle-Level Zero-shot Medical Prediction

最近开发的大型语言模型（LLM）在通用和常识问题上表现出了令人印象深刻的零样本熟练程度。然而， LLM 在特定领域垂直问题上的应用仍然滞后，这主要是由于羞辱问题和垂直知识的缺乏。此外，垂直数据注释过程通常需要劳动密集型专家的参与，从而对增强模型的垂直能力提出了额外的挑战 ...

0 0 0 0 2024/12/23 arXiv:2403.01570v2 dm616703

Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles

大型语言模型 (LLM) 显着提高了从智能对话到文本生成等众多应用程序的性能。然而，它们固有的安全漏洞已成为一个日益重大的挑战，特别是在越狱攻击方面。攻击者可以规避这些 LLM 的安全机制，违反安全限制并导致有害输出 ...

0 0 0 0 2024/12/23 arXiv:2408.04686v1 dm616703

Emerging Vulnerabilities in Frontier Models: Multi-Turn Jailbreak Attacks

大型语言模型（LLM）正在以惊人的速度进步。然而，这些模型仍然容易受到越狱攻击，随着模型变得越来越强大，越狱攻击也变得越来越危险。在这项工作中，我们引入了一个越狱数据集，其中每个示例都可以以单轮或多轮格式输入 ...

0 0 0 0 2024/12/23 arXiv:2409.00137v1 dm616703

Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models

大型语言模型（LLM）利用其丰富的隐性知识和强大的推理能力，在与人类互动和解决复杂问题方面表现出了出色的表现。然而，此类模型很容易受到越狱攻击，从而导致有害响应的产生。尽管最近对单轮越狱策略进行了研究以促进防御机制的发展，但在多轮设置下揭示漏洞的挑战仍然相对未得到充分探索 ...

0 0 0 0 2024/12/23 arXiv:2410.11459v1 dm616703

Multi-step Jailbreaking Privacy Attacks on ChatGPT

随着大型语言模型（LLM）的快速进步，许多下游 NLP 任务在适当的提示下都可以得到很好的解决。尽管模型开发人员和研究人员在对话安全方面努力工作，以避免 LLM 生成有害内容，但引导人工智能生成的内容（AIGC）造福人类仍然具有挑战性。由于强大的 LLM 正在吞噬来自各个领域的现有文本数据（例如， ...

0 0 0 0 2024/12/23 arXiv:2304.05197v3 dm616703

Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks

预训练的视觉语言模型 (VLM) 在图像和自然语言理解方面表现出了卓越的性能，例如图像字幕和响应生成。随着视觉语言模型的实际应用变得越来越广泛，其潜在的安全性和鲁棒性问题引起了人们的担忧，即对手可能会逃避系统并导致这些模型通过恶意攻击生成有毒内容。因此，评估开源VLM针对对抗性攻击的鲁棒性已引起越来越多的关注，其中基于传输的攻击作为代表性的黑盒攻击策略 ...

0 0 0 0 2024/12/20 arXiv:2411.15720v1 dm616703

Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models

随着像 ChatGPT 这样的大型语言模型 (LLM) 的发展，它们庞大的应用程序和潜在的漏洞都已成为人们关注的焦点。尽管开发人员集成了多种安全机制来减少误用，但风险仍然存在，特别是当模型遇到对抗性输入时。这项研究揭示了一种攻击机制，该机制利用人类对话策略从 LLM 中提取有害信息 ...

0 0 0 0 2024/12/20 arXiv:2407.15399v1 dm616703

LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet

最近的大型语言模型（LLM）防御极大地提高了模型拒绝有害查询的能力，即使在受到敌对攻击时也是如此。然而，LLM 防御主要针对单轮对话中的自动对抗性攻击进行评估，这对于现实世界的恶意使用来说是一个不足的威胁模型。我们证明，多轮人类越狱可以发现重大漏洞，在 HarmBench 上，针对通过自动单轮攻击报告个位数 ASR 的防御，攻击成功率 (ASR) 超过 70% ...

0 0 0 0 2024/12/20 arXiv:2408.15221v2 dm616703

Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models

大型视觉语言模型（LVLM）的最新进展展示了跨多种模式的强大推理能力，在各种实际应用中取得了重大突破。尽管取得了巨大的成功，LVLM 的安全护栏可能无法覆盖视觉模式引入的不可预见的领域。现有的研究主要集中在通过精心设计的基于图像的越狱（旨在绕过对齐防御）来引发 LVLM 产生有害响应 ...

0 0 0 0 2024/12/18 arXiv:2411.11496v3 dm616703