尽管用于控制扩散过程的创新方法爆发,但在文本到图像生成中有效控制图像样式仍然是一项艰巨的任务。许多基于适配器的方法将图像表示条件施加在降级过程中,以实现图像控制。但是,这些条件与单词嵌入空间不符,导致图像和文本控制条件之间的干扰以及文本提示中语义信息的潜在丢失 ...
基础模型(FM)范式正在转换机器学习力场(MLFF),利用通用表示形式和可扩展的训练以执行各种计算化学任务。尽管MLFF FMS已经开始缩小相对于第一原理方法的准确性差距,但仍然需要更快的推理速度。此外,尽管研究越来越集中于跨化学空间转移的通用模型,但从业人员通常只在给定时间研究一小部分系统 ...
奖励工程长期以来一直是加强学习(RL)研究的挑战,因为它通常需要大量的人类努力和反复试验的迭代过程来设计有效的奖励功能。在本文中,我们提出了RL-VLM-F,这种方法通过利用视觉语言基础模型(VLMS)的反馈来利用反馈,自动使用任务目标和代理的视觉观察的文本描述来自动为代理学习新任务的奖励功能。我们方法的关键是要查询这些模型,以根据任务目标的文本描述对代理的图像观察对偏好,然后从偏好标签中学习奖励 ...
面部反欺骗(FAS)或演示攻击检测是部署在安全至关重要应用程序中的面部识别系统的重要组成部分。现有的FAS方法的普遍性差,无法看到欺骗类型,相机传感器和环境条件。最近,视觉 Transformer (VIT)模型已被证明对FAS任务有效,因为它们能够捕获图像贴片之间的长期依赖性 ...
文本到图像个性化的最新进展已使用户提供的概念能够高质量且可控的图像合成。但是,现有的方法仍然很难平衡身份保存与文本一致性。我们的方法是基于这样一个事实,即生成及时对准的图像需要对提示的精确语义理解,这涉及准确处理剪辑文本编码器中新概念及其周围环境上下文 Token 之间的相互作用 ...
大型语言模型(LLMS)在跨语言的性能上表现出很大的差异,主要使高资源语言受益,同时将代表性不足的语言边缘化。尽管尚不清楚单语,双语和代码增强的数据策略的相对有效性,但持续预处理(CPT)已成为解决这种失衡的一种有希望的方法,尽管尚不清楚。这项研究系统地评估了36个CPT配置,涉及三种多语言基本模型,这些模型涉及30多种语言,分为利他,自私和停滞,涵盖了各种资源水平 ...
尽管大型语言模型(LLMS)在预培训期间获得了广泛的知识,但它们通常缺乏特定领域,新或利基的信息。持续的预训练(CPT)试图解决这一差距,但在低数据表格中遭受了灾难性的遗忘和效率低下的困扰。我们介绍了知识教学,这是一种新颖的方法,可以通过纯粹的指导进行有限的语料库注入知识 ...
偏好学习对于使大语言模型(LLM)与人类价值观保持一致至关重要,但是其成功取决于包括三个核心组成部分的高质量数据集上:prexperion \ textbf {a} nnotations,\ textbf {i} nStructions和\ textbf {textbf {r} spepsess spepse sossess pot。当前的方法将这些组件混为一谈,掩盖了它们的个人影响并阻碍系统的优 ...