dm616703的文档

dm616703

希望有一篇CCFA

AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs

在本文中，我们提出了 AutoDAN-Turbo，一种黑盒越狱方法，可以从头开始自动发现尽可能多的越狱策略，无需任何人为干预或预定义范围（例如，指定的候选策略），并将它们用于红色 -团队合作 ...

0 0 0 0 2024/12/16 arXiv:2410.05295v3 dm616703

Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt

在大型视觉语言模型 (LVLM) 领域，越狱攻击是绕过护栏并发现安全隐患的红队方法。现有的越狱主要集中在视觉方式上，仅干扰攻击提示中的视觉输入。然而，当面对同时融合视觉和文本特征进行生成的对齐模型时，它们就显得不足了 ...

0 0 0 0 2024/12/16 arXiv:2406.04031v2 dm616703

Visual Prompting in Multimodal Large Language Models: A Survey

多模态大语言模型 (MLLM) 为预训练的大语言模型 (LLM) 配备了视觉功能。虽然 LLM 中的文本提示已得到广泛研究，但视觉提示已经出现，以提供更细粒度和自由形式的视觉指令。本文首次全面综述了 MLLM 中的视觉提示方法，重点关注视觉提示、提示生成、组合推理和提示学习 ...

0 1 0 0 2024/12/16 arXiv:2409.15310v1 dm616703

Large Scale Transfer Learning for Tabular Data via Language Modeling

表格数据——具有行和列的结构化、异构、电子表格样式的数据——在许多领域的实践中被广泛使用。然而，虽然最近的基础模型减少了在语言建模和计算机视觉等领域开发特定任务数据集和预测器的需求，但这种迁移学习范式在表格领域并没有产生类似的影响。在这项工作中，我们寻求缩小这一差距并提出 TabuLa-8B，一种用于表格预测的语言模型 ...

0 0 0 0 2024/12/15 arXiv:2406.12031v2 dm616703

Jailbreak Large Vision-Language Models Through Multi-Modal Linkage

随着大视觉语言模型（VLM）的显着进步，对其潜在误用和滥用的担忧迅速增加。之前的研究强调了 VLM 容易受到越狱攻击，精心设计的输入可能会导致模型生成违反道德和法律标准的内容。然而，由于有害内容的过度曝光和缺乏隐秘的恶意引导，现有的方法很难对抗 GPT-4o 等最先进的 VLM ...

0 0 0 0 2024/12/12 arXiv:2412.00473v3 dm616703

Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models

越狱方法会导致多模式大型语言模型 (MLLM) 输出有害响应，引发严重的安全问题。在这些方法中，基于梯度的方法（使用梯度生成恶意提示）因其在白盒设置中的高成功率而得到了广泛的研究，在白盒设置中可以完全访问模型。然而，这些方法有明显的局限性：它们需要白盒访问，这并不总是可行，并且涉及高内存使用 ...

0 0 0 0 2024/12/12 arXiv:2411.07559v1 dm616703

Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts

大视觉语言模型 (VLM) 扩展并增强了大语言模型 (LLM) 的感知能力。尽管为 LLM 申请提供了新的可能性，但这些进步引起了重大的安全和道德问题，特别是在有害内容的生成方面。虽然 LLM 在红队框架的帮助下进行了广泛的安全评估，但 VLM 目前缺乏成熟的安全评估 ...

0 0 0 0 2024/12/12 arXiv:2407.15050v1 dm616703

Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks

最近发布的GPT-4o因其强大的通用能力而受到广泛关注。虽然其令人印象深刻的性能得到广泛认可，但其安全方面尚未得到充分探讨。鉴于 GPT-4o 等先进生成人工智能生成的风险内容的潜在社会影响，严格评估其安全性至关重要 ...

0 0 0 0 2024/12/12 arXiv:2406.06302v2 dm616703

From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking

大型语言模型（LLM）和多模态大型语言模型（MLLM）的快速发展暴露了各种对抗性攻击的漏洞。本文全面概述了针对 LLM 和 MLLM 的越狱研究，重点介绍了评估基准、攻击技术和防御策略方面的最新进展。与更先进的单模式越狱相比，多模式领域仍未得到充分探索 ...

0 0 0 0 2024/12/12 arXiv:2406.14859v1 dm616703

White-box Multimodal Jailbreaks Against Large Vision-Language Models

大视觉语言模型（VLM）的最新进展强调了它们在各种多模态任务中的优越性。然而，VLM 的对抗鲁棒性尚未得到充分探索。现有方法主要通过扰乱图像的单模式对抗性攻击来评估鲁棒性，同时假设对基于文本的攻击具有固有的弹性 ...

0 0 0 0 2024/12/12 arXiv:2405.17894v2 dm616703