基于强化学习的大语言模型 (LLM) 根据人类偏好进行的微调已被证明可以增强其能力和安全行为。然而,在与安全相关的情况下,如果没有对人类注释者进行精确的指示,收集的数据可能会导致模型变得过于谨慎,或者以不良的方式做出响应,例如判断性的。此外,随着模型功能和使用模式的发展,可能需要添加或重新标记数据来修改安全行为,成本高昂 ...
随着大型语言模型(LLM)的发展,这些模型的序列长度不断增加,引起了人们对长上下文语言模型的极大关注。然而,对这些模型的评估主要局限于它们的能力,缺乏针对它们安全性的研究。现有的工作,例如 ManyShotJailbreak,在一定程度上证明了长上下文语言模型可能会出现安全问题 ...
逻辑推理是大型语言模型 (LLM) 的一项关键任务,使它们能够解决复杂的问题。在推理任务中,多步推理提出了特殊的挑战。基于形式逻辑理论,我们开发了一种用于演绎推理数据的自动化方法,多步演绎(MuseD) ...
大型语言模型 (LLM) 的偏好调整依赖于高质量的人类偏好数据,而收集这些数据通常既昂贵又耗时。虽然现有方法可以使用经过训练的奖励模型或专有模型作为偏好注释的判断者,但它们具有显着的缺点:训练奖励模型仍然依赖于初始人类数据,并且使用专有模型会施加许可限制,从而抑制商业使用。在本文中,我们介绍了定制密度比(CDR),这是一种无需训练且高效的方法,利用现成的 LLM 进行偏好数据注释 ...
自对准是一个快速发展的研究领域,模型可以在没有人工注释的情况下学习自我改进。然而,由于难以分配正确的奖励,现有技术往往无法改善复杂的推理任务。已知可以提高正确性的正交方法是自一致性,这是一种在基于多重采样的推理时应用的方法,以便找到最一致的答案 ...
多智能体强化学习(MARL)领域最近的许多突破都需要使用深度神经网络,这对于人类专家的解释和理解来说是一个挑战。另一方面,现有的可解释强化学习(RL)工作已经显示出从神经网络中提取更多可解释的基于决策树的策略的前景,但仅限于单代理设置。为了填补这一空白,我们提出了第一组算法,从使用 MARL 训练的神经网络中提取可解释的决策树策略 ...
我们探索多智能体领域的深度强化学习方法。我们首先分析传统算法在多智能体情况下的困难:Q-learning 受到环境固有的非平稳性的挑战,而策略梯度则受到随着智能体数量的增长而增加的方差的影响。然后,我们提出了一种演员批评家方法的改编,该方法考虑其他智能体的行动策略,并且能够成功学习需要复杂多智能体协调的策略 ...
理解和推理空间关系是视觉问答 (VQA) 和机器人技术的基本能力。虽然视觉语言模型 (VLM) 在某些 VQA 基准测试中表现出了出色的性能,但它们仍然缺乏 3D 空间推理功能,例如识别物理对象的定量关系(例如距离或大小差异)。我们假设 VLM 的空间推理能力有限是由于训练数据中缺乏 3D 空间知识,并旨在通过使用互联网规模的空间推理数据训练 VLM 来解决这个问题 ...