大型语言模型 (LLM) 的偏好调整依赖于高质量的人类偏好数据,而收集这些数据通常既昂贵又耗时。虽然现有方法可以使用经过训练的奖励模型或专有模型作为偏好注释的判断者,但它们具有显着的缺点:训练奖励模型仍然依赖于初始人类数据,并且使用专有模型会施加许可限制,从而抑制商业使用。在本文中,我们介绍了定制密度比(CDR),这是一种无需训练且高效的方法,利用现成的 LLM 进行偏好数据注释 ...

0 0 0 0 2024/11/15 arXiv:2411.02481v2 cocoyo

自对准是一个快速发展的研究领域,模型可以在没有人工注释的情况下学习自我改进。然而,由于难以分配正确的奖励,现有技术往往无法改善复杂的推理任务。已知可以提高正确性的正交方法是自一致性,这是一种在基于多重采样的推理时应用的方法,以便找到最一致的答案 ...

0 0 0 0 2024/11/15 arXiv:2411.04109v2 cocoyo

多智能体强化学习(MARL)领域最近的许多突破都需要使用深度神经网络,这对于人类专家的解释和理解来说是一个挑战。另一方面,现有的可解释强化学习(RL)工作已经显示出从神经网络中提取更多可解释的基于决策树的策略的前景,但仅限于单代理设置。为了填补这一空白,我们提出了第一组算法,从使用 MARL 训练的神经网络中提取可解释的决策树策略 ...

0 0 0 0 2024/11/14 arXiv:2205.12449v2 cocoyo

我们探索多智能体领域的深度强化学习方法。我们首先分析传统算法在多智能体情况下的困难:Q-learning 受到环境固有的非平稳性的挑战,而策略梯度则受到随着智能体数量的增长而增加的方差的影响。然后,我们提出了一种演员批评家方法的改编,该方法考虑其他智能体的行动策略,并且能够成功学习需要复杂多智能体协调的策略 ...

0 0 0 0 2024/11/14 arXiv:1706.02275v4 cocoyo

理解和推理空间关系是视觉问答 (VQA) 和机器人技术的基本能力。虽然视觉语言模型 (VLM) 在某些 VQA 基准测试中表现出了出色的性能,但它们仍然缺乏 3D 空间推理功能,例如识别物理对象的定量关系(例如距离或大小差异)。我们假设 VLM 的空间推理能力有限是由于训练数据中缺乏 3D 空间知识,并旨在通过使用互联网规模的空间推理数据训练 VLM 来解决这个问题 ...

0 0 0 0 2025/01/05 arXiv:2401.12168v1 cocoyo

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)