在这项工作中,我们提出了一个LLM模块的体系结构,该架构可以使用增强的跨注意机制将知识从大型预训练模型转移到较小的模型。在拟议的方案中,QWEN2-1.5B模型被冷冻,其表示形式通过特殊设计的注意层传递给GPT-NEO-125M模型,该模型对有限的计算资源进行了培训 ...
大型语言模型(LLMS)提供了一个透明的大脑,其中包含可访问的参数编码广泛的知识,可以分析,定位和转移。因此,一个关键的研究挑战是超越植根于象征性语言并实现真正的参数知识转移(PKT)的传统知识转移范式。值得注意的是,探索通过参数转移不同尺度的LLM的知识的有效方法提出了一个有趣而有价值的研究方向 ...
运动扩散模型的最新进展已实现了可以在空间控制的文本到动作生成的能力。但是,尽管达到了可接受的控制精度,但这些模型仍遭受了生成速度和忠诚度的限制。为了应对这些挑战,我们提出了ControlMM,这是一种新型方法,将空间控制信号纳入生成性掩盖运动模型中 ...
植入预训练的语言模型(PLM)的后门可以转移到各种下游任务中,这暴露了严重的安全威胁。但是,对PLM的大多数现有后门攻击都是未靶向的,并且特定于任务。很少有针对性和任务不合时宜的方法使用手动预定义的触发器和输出表示,这阻止了攻击更加有效和一般 ...
现代的NLP模型通常在从不同来源绘制的公共数据集上进行培训,从而使它们容易受到数据中毒攻击的影响。这些攻击可以通过攻击者设计的方式操纵模型的行为。一种这样的策略涉及植入后门,这是通过用文本触发器和目标类标签中毒特定训练实例实现的 ...
通过利用大型预训练的文本到图像扩散模型的生成先验,基于扩散的图像压缩具有具有高现实主义的超低比特量编码(每个像素小于0.05位)的显着潜力。但是,当前的方法需要在解码器上进行大量的降级步骤,以在极端比特率约束下产生逼真的结果,从而限制其在实时压缩方案中的应用 ...
随着具有大型语言模型(LLM)的文本推理已经显着提高,人们对增强大型视觉模型(LVLM)的多模式推理能力的兴趣越来越大。但是,现有方法主要以直接的,以文本为中心的方式来处理多模式推理,在这种方式中,推理和答案派生纯粹是通过文本进行的,唯一的区别在于存在多模式输入。结果,这些方法经常在空间推理任务中遇到基本局限性,这些任务需要人类通过心理可视化和操纵实现的精确几何理解和连续的空间跟踪障碍 ...
诗歌与音乐之间的交集为计算创造力提供了一个有趣的案例,但仍然相对尚未探索。本文通过节拍模式的镜头探讨了诗歌和音乐的整合,研究了基于字节的语言模型是否可以生成在诗歌背景下适合特定节拍模式的单词。利用早期的研究,我们开发了一种方法来训练基于字节的 Transformer 模型BYT5,以使诗歌与节拍模式保持一致 ...