大型语言模型 (LLM) 的偏好调整依赖于高质量的人类偏好数据,而收集这些数据通常既昂贵又耗时。虽然现有方法可以使用经过训练的奖励模型或专有模型作为偏好注释的判断者,但它们具有显着的缺点:训练奖励模型仍然依赖于初始人类数据,并且使用专有模型会施加许可限制,从而抑制商业使用。在本文中,我们介绍了定制密度比(CDR),这是一种无需训练且高效的方法,利用现成的 LLM 进行偏好数据注释 ...
自对准是一个快速发展的研究领域,模型可以在没有人工注释的情况下学习自我改进。然而,由于难以分配正确的奖励,现有技术往往无法改善复杂的推理任务。已知可以提高正确性的正交方法是自一致性,这是一种在基于多重采样的推理时应用的方法,以便找到最一致的答案 ...
多智能体强化学习(MARL)领域最近的许多突破都需要使用深度神经网络,这对于人类专家的解释和理解来说是一个挑战。另一方面,现有的可解释强化学习(RL)工作已经显示出从神经网络中提取更多可解释的基于决策树的策略的前景,但仅限于单代理设置。为了填补这一空白,我们提出了第一组算法,从使用 MARL 训练的神经网络中提取可解释的决策树策略 ...
我们探索多智能体领域的深度强化学习方法。我们首先分析传统算法在多智能体情况下的困难:Q-learning 受到环境固有的非平稳性的挑战,而策略梯度则受到随着智能体数量的增长而增加的方差的影响。然后,我们提出了一种演员批评家方法的改编,该方法考虑其他智能体的行动策略,并且能够成功学习需要复杂多智能体协调的策略 ...
理解和推理空间关系是视觉问答 (VQA) 和机器人技术的基本能力。虽然视觉语言模型 (VLM) 在某些 VQA 基准测试中表现出了出色的性能,但它们仍然缺乏 3D 空间推理功能,例如识别物理对象的定量关系(例如距离或大小差异)。我们假设 VLM 的空间推理能力有限是由于训练数据中缺乏 3D 空间知识,并旨在通过使用互联网规模的空间推理数据训练 VLM 来解决这个问题 ...