大型语言模型(LLM)对齐的主要框架,无论是通过从人类反馈中学习还是直接偏好优化学习,都是从偏好数据中学习。这涉及构建数据集,其中每个元素是由提示组成的四倍,两个独立响应(提示的完成)以及两个独立响应之间的人类偏好,产生了首选和偏爱的响应。这些数据通常很少,收集昂贵 ...
我们提出了多头高斯自适应注意机制(GAAM),一种新型的概率注意力框架和高斯自适应 Transformer (GAT),旨在增强跨多种模态的信息聚集,包括语音,文本和视觉。 GAAM将可学习的平均值和方差整合到其注意机制中,该机制在多头框架中实现,使其能够集体对任何概率分布进行建模,以动态重新校准特征意义的动态。该方法显示出显着的改进,尤其是在高度非平稳的数据中,通过识别特征空间内的关键元素,超过 ...
多面体技术已广泛用于低级编译器和高级进程中的自动代码优化。循环优化是该技术的核心,并且已经提出了几种多面体调度程序 ...
引用遥感图像分割(RRSIS)旨在根据文本描述将目标对象(RS)图像分割。尽管任何模型2(SAM 2)在各种细分任务中都表现出了出色的性能,但其在RRSIS的应用中提出了一些挑战,包括了解文本描述的RS场景并从文本描述中生成有效的提示。为了解决这些问题,我们提出了RS2-SAM 2,这是一个新颖的框架,它通过对齐适应的RS功能和文本功能来适应SAM 2,以适应RRSIS,从而提供基于伪遮罩的密集提 ...
多模式蛋白质语言模型(PLM)整合了序列和基于 Token 的结构信息,是蛋白质建模,生成和设计的强大基础。但是,将3D结构依赖于离散 Token 会导致对细粒结构细节和相关性的忠诚度造成的大幅损失。在本文中,我们系统地阐明了多模式PLM的设计空间以克服其局限性 ...
现有的跨模式检索方法通常依赖于大规模视觉语言对数据。这使得有效地开发出资源不足的感兴趣语言的跨模式检索模型具有挑战性。因此,旨在使视觉和低资源语言(目标语言)保持一致的跨语言跨模式检索(CCR),而无需使用任何人类标记的目标语言数据,但已引起了人们的关注越来越多 ...
构建图形用户界面(GUI)代理是一个有前途的研究方向,它模拟了与计算机或手机的人类互动以执行各种GUI任务。但是,开发广义GUI代理的主要挑战是在各种操作系统和应用程序中缺乏足够的轨迹数据,这主要是由于手动注释的高成本。在本文中,我们提出了TONGUI框架,该框架通过从丰富的多模式Web教程中学习来建立广义的GUI代理 ...
大多数先进的视觉接地方法依靠 Transformer 进行视觉语言特征融合。但是,这些基于 Transformer 的方法遇到了一个重要的缺点:由于 Transformer 编码器中的自我发起机制,尤其是在处理高分辨率图像或长上下文句子时,计算成本正常升级。计算负担的这种二次增加限制了视觉接地对更复杂的场景的适用性,例如基于对话的推理细分,涉及冗长的语言表达式 ...