当前的视觉大语言模型(VLLM)表现出卓越的功能,但很容易生成有害内容,甚至很容易受到最简单的越狱攻击。我们的初步分析发现,这是由于视觉语言指令微调期间存在有害数据,并且 VLLM 微调可能会导致忘记基础 LLM 先前学到的安全对齐。为了解决这个问题,我们首先策划一个涵盖各种有害类别的视觉语言安全指令跟踪数据集 VLGuard ...
0 0 0 2025/01/13 arXiv:2402.02207v2 liukai
大型语言模型 (LLM) 的最新进展展示了跨不同领域的各种任务的卓越能力。然而, LLM 中偏见的出现和产生有害内容的可能性,特别是在恶意输入的情况下,带来了重大挑战。当前的缓解策略虽然有效,但在对抗性攻击下缺乏弹性 ...
0 0 0 2025/01/13 arXiv:2403.13031v2 liukai
我们考虑基础模型与人类偏好的多目标孤独问题,这是迈向有用且无害的人工智能系统的关键一步。然而,使用强化学习(RL)大型基础模型通常会成本高昂且不稳定,而人类偏好的多维性、异质性和冲突性质进一步使杂交过程变得复杂。在本文中,我们引入了心血管研究(RiC),它在其提示上下文中调节基础模型对多项奖励的响应,并应用模具来进行监督调整... ...
0 0 0 2025/01/13 arXiv:2402.10207v6 liukai
自然语言处理中的对抗性攻击会在字符或标记级别施加扰动。 Token 级攻击因其使用基于梯度的方法而受到关注,很容易改变句子语义,从而导致无效的对抗性示例。虽然字符级攻击很容易维护语义,但它们受到的关注较少,因为它们不能轻易采用流行的基于梯度的方法,并且被认为很容易防御 ...
0 0 0 2025/01/13 arXiv:2405.04346v2 liukai
语言模型经常表现出不良行为,例如生成有毒或性别偏见的文本 ...
0 0 0 2025/01/13 arXiv:2402.09631v6 liukai
思想链(CoT)推理对于解释语言模型输出具有很大的希望,但最近的研究强调了其在可解释性的实际应用中面临的重大挑战。我们建议通过两个关键组件使 CoT 对预测具有因果关系来解决这个问题:通过中间 CoT 文本分解下一个 Token 预测,以及训练 CoT 以独立于其他上下文来预测未来 Token 。这导致了“马尔可夫”语言模型,其中 CoT 充当未来 Token 预测的固定大小状态 ...
0 0 0 2025/01/13 arXiv:2404.18988v4 rookie
作为文本到图像生成任务的主导力量,扩散概率模型(DPM)在可控性方面面临着严峻的挑战,难以严格遵守复杂的多方面指令。在这项工作中,我们的目标是解决条件生成任务的对齐挑战。首先,我们提供了最先进的 DPM 的另一种观点,作为反转高级视觉语言模型 (VLM) 的一种方式 ...
0 0 0 2025/01/13 arXiv:2402.16305v1 liukai
强化学习中的过度拟合已成为强化学习(RL)应用的主要障碍之一。现有的方法没有为特征提取器提供显式的语义约束,阻碍了智能体学习统一的跨域表示,并导致在看不见的域上的性能下降。此外,还需要来自多个领域的丰富数据 ...
0 0 0 2025/01/13 arXiv:2406.03250v1 liukai

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)