面部反欺骗(FAS)或演示攻击检测是部署在安全至关重要应用程序中的面部识别系统的重要组成部分。现有的FAS方法的普遍性差,无法看到欺骗类型,相机传感器和环境条件。最近,视觉 Transformer (VIT)模型已被证明对FAS任务有效,因为它们能够捕获图像贴片之间的长期依赖性 ...
文本到图像个性化的最新进展已使用户提供的概念能够高质量且可控的图像合成。但是,现有的方法仍然很难平衡身份保存与文本一致性。我们的方法是基于这样一个事实,即生成及时对准的图像需要对提示的精确语义理解,这涉及准确处理剪辑文本编码器中新概念及其周围环境上下文 Token 之间的相互作用 ...
大型语言模型(LLMS)在跨语言的性能上表现出很大的差异,主要使高资源语言受益,同时将代表性不足的语言边缘化。尽管尚不清楚单语,双语和代码增强的数据策略的相对有效性,但持续预处理(CPT)已成为解决这种失衡的一种有希望的方法,尽管尚不清楚。这项研究系统地评估了36个CPT配置,涉及三种多语言基本模型,这些模型涉及30多种语言,分为利他,自私和停滞,涵盖了各种资源水平 ...
尽管大型语言模型(LLMS)在预培训期间获得了广泛的知识,但它们通常缺乏特定领域,新或利基的信息。持续的预训练(CPT)试图解决这一差距,但在低数据表格中遭受了灾难性的遗忘和效率低下的困扰。我们介绍了知识教学,这是一种新颖的方法,可以通过纯粹的指导进行有限的语料库注入知识 ...
偏好学习对于使大语言模型(LLM)与人类价值观保持一致至关重要,但是其成功取决于包括三个核心组成部分的高质量数据集上:prexperion \ textbf {a} nnotations,\ textbf {i} nStructions和\ textbf {textbf {r} spepsess spepse sossess pot。当前的方法将这些组件混为一谈,掩盖了它们的个人影响并阻碍系统的优 ...
实时对话AI代理在动态的,户外环境(如自动驾驶直通系统)中表现自然语言理解(NLU)面临挑战。这些设置需要NLU模型来处理背景噪声,不同的口音和多个疑问,同时在边缘设备上严格的延迟和内存约束下操作。另外,上游自动语音识别(ASR)的鲁棒性至关重要,因为这些环境中的ASR输出通常很嘈杂 ...
本文提出了一种使用基于扩散的模型来改进文本指导图像编辑的新方法。文本指导的图像编辑任务提出了精确定位和编辑目标语义的关键挑战,并且以前的方法在这方面落后。我们的方法引入了一种精确的语义定位策略,该策略利用视觉和文本自我注意力来增强交叉意见图,该图可以作为改善编辑性能的区域提示 ...
注入外部知识可以提高预训练语言模型(PLM)在各种下游nlp任务上的性能。然而,需要大量的再培训来为下游任务部署新的知识注入方法或知识库。在这项工作中,我们首次研究如何通过重用现有的下游模型来提高知识注入的灵活性和效率... ...