人类反馈强化学习 (RLHF) 已成为使大型语言模型与人类偏好保持一致的关键方法,通过近端策略优化 (PPO)、直接偏好优化 (DPO)、REINFORCE 留一法等方法见证了算法的快速演变(RLOO)、ReMax 和组相对策略优化 (GRPO)。我们提出了 REINFORCE++,这是经典 REINFORCE 算法的增强变体,它结合了 PPO 的关键优化技术,同时消除了对批评网络的需要。 REI ...
这份白皮书描述了人造或机器智能的一些设计原理,这些设计原理指导了Noumenal Labs的工作。这些原则是从自然和我们来代表和理解它的手段中得出的。该领域的研发的最终目标应该是设计机器智能,以增强我们对世界的理解并增强我们在不取代我们的情况下采取行动的能力 ...
现有的DeepFake检测技术主要集中在面部操作上,例如面部交换或唇部同步。但是,文本到视频(T2V)和图像到视频(I2V)生成模型的进步现在允许完全基因生成的合成内容和无缝背景更改,具有挑战性的以面部为中心的检测方法以及要求更多的通用方法。 To address this, we introduce the \underline{U}niversal \underline{N}etwork fo ...
现代视觉模型经过非常大的嘈杂数据集的培训。尽管这些模型具有强大的功能,但它们可能不会遵循用户的意图,以在某些方面(例如 ...
在本文中,我们介绍了一个多代理模拟框架CASEVO(认知代理和社会进化模拟器),该框架集成了大型语言模型(LLMS),以模拟复杂的社会现象和决策过程。 Casevo的设计是由具有诸如思想链(COT),检索型生成(RAG)和可自定义的内存机制等特征的代理驱动的离散事件模拟器。 CASEVO启用动态社会建模,可以支持各种情况,例如社交网络分析,舆论动态和复杂社交系统中的行为预测 ...
将对话代理集成到销售领域需要深入了解这些系统如何与具有多样性角色的用户相互作用。这项研究探讨了使用Myers-Briggs类型指标(MBTI)定义的用户角色的影响,对面向销售的对话代理的相互作用质量和性能。通过大规模的测试和分析,我们评估了预先训练的代理商的有效性,适应性和个性化功能,这些功能在广泛定义的用户类型中 ...
llm)的快速发展,人们越来越担心它们可能带来风险或产生负面的社会影响。因此,对人类价值观一致性的评估变得越来越重要。以往的工作主要侧重于评估llm在某些知识和推理能力方面的表现,而忽略了与人类价值观的一致性 ...
事实证明,建立3D结构与分子系统的能量状态之间的关系是学习3D分子表示的一种有希望的方法。但是,现有方法仅限于对经典力学的分子能状态进行建模。这种局限性导致对量子机械效应的显着监督,例如量化(离散的)能级结构,这些结构可提供更准确的分子能量估计,并且可以通过能量光谱实验测量 ...