大型语言模型的安全一致行为(例如拒绝有害查询)可以用激活空间中的线性方向表示。先前的研究将安全行为模拟了一个方向,将机械理解限制在孤立的安全特征上。在这项工作中,我们发现与安全符合的行为由多维方向共同控制 ...

0 0 0 0 2025/06/09 arXiv:2502.09674v4 dm616703

当对齐大语言模型(LLMS)时,安全,保障和合规性是必不可少的要求。但是,许多看似结盟的LLM很快被证明容易受到越狱攻击的影响。这些攻击旨在通过将越狱提示引入恶意查询来规避模型的安全护栏和安全机制 ...

0 0 0 0 2025/06/05 arXiv:2405.20099v2 dm616703

大型视觉语言模型 (LVLM) 在各种多模式任务中表现出了出色的性能。然而,它们遇到了一个称为语言先验的问题,即仅根据文本模式生成响应,而忽略图像信息。优先解决语言问题至关重要,因为在处理超出训练分布的图像时,它可能会导致不良的偏见或幻觉 ...

0 0 0 0 2025/06/05 arXiv:2406.08702v4 dm616703

反事实推理是人类智力的关键表现,是指基于既定事实并推断潜在结果的预设。现有的多模式大型语言模型(MLLM)表现出了令人印象深刻的认知和推理能力,这些功能已在广泛的视觉答案(VQA)基准中进行了检查。但是,面对反事实问题时,现有的MLLM将如何表现?要回答这个问题,我们首先策划了一个小说\ textbf {c} ounter \ textbf {f}实际\ textbf {m} ulti \ textbf {m} odal推理基准,以\ textbf {cfmm}的形式进行了缩写,以系统地评估complactactual capcabiolity cabsabiolity cabsabiolity capbabiolity capbabiolity capbabions smllmsmms smlms ...

0 0 0 0 2025/06/05 arXiv:2404.12966v5 dm616703

尽管人工智能对齐取得了进步,但大型语言模型 (LLM) 仍然容易受到对抗性攻击或越狱,其中对手可以修改提示以引发不良行为。虽然已经提出了一些防御措施,但它们尚未适应新提出的攻击和更具挑战性的威胁模型。为了解决这个问题,我们提出了一个基于优化的目标来保护 LLM 免受越狱攻击,并提出了一种算法,即稳健提示优化(RPO)来创建稳健的系统级防御 ...

0 0 0 0 2025/06/05 arXiv:2401.17263v5 dm616703

知识编辑已越来越多地采用,以纠正大语言模型(LLMS)中的错误或过时的知识。同时,一个关键但不足的问题是:可以使用知识编辑将危害注入LLMS?在本文中,我们建议将知识编辑重新制定为对LLM的新型安全威胁,即编辑攻击,并与新建的数据集Editattack进行系统调查。具体而言,我们专注于两个典型的编辑攻击的典型安全风险,包括误导性注射和偏置注射 ...

0 0 0 0 2025/06/05 arXiv:2407.20224v3 dm616703

基础模型(FMS)提供社会福利,但也会放大风险。政府,公司和研究人员提出了监管框架,可接受的使用政策和安全基准。但是,现有的公共基准通常基于以前的文献,直觉或常识来定义安全类别,从而导致近期法规和政策规定的风险脱节类别集,这使得在这些基准测试中评估和比较FMS方面具有挑战性 ...

0 0 0 0 2025/06/05 arXiv:2407.17436v2 dm616703

大型视觉模型具有固有的功能来处理各种视觉感知任务。在本文中,我们介绍了VisionReasoner,这是一个统一的框架,能够在共享模型中推理和解决多个视觉感知任务。具体而言,通过设计新颖的多对象认知学习策略和系统的任务重新重新制定,VisionReasoner增强了其推理能力以分析视觉投入,并在统一框架中解决了各种知觉任务 ...

0 0 0 0 2025/06/03 arXiv:2505.12081v3 dm616703

视觉语言模型(VLM)在各种计算机视觉任务中都取得了令人印象深刻的性能。但是,在现有模型中尚未完全探索多模式推理能力。在本文中,我们提出了一种焦点链(COF)方法,该方法允许VLM基于获得的视觉提示和给定的问题对关键图像区域进行自适应焦点和放大,从而实现有效的多模式推理 ...

0 0 0 0 2025/06/03 arXiv:2505.15436v1 dm616703

大型语言模型(LLM)的现有培训时间安全对准技术仍然容易受到越狱攻击的影响。直接偏好优化(DPO)是一种广泛部署的对齐方法,在实验和理论环境中都表现出局限性,因为其损失函数证明是拒绝学习的次优。通过基于梯度的分析,我们确定了这些缺点,并提出了改进的安全对准,将DPO目标分解为两个组成部分:(1)强大的拒绝训练,即使产生了部分不安全的世代,也鼓励拒绝拒绝,(2)有针对性的有害知识的靶向不学习 ...

0 0 0 0 2025/06/03 arXiv:2503.03710v1 dm616703

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)