对比语言音频预处理(拍手)是一种弥合音频和文本域之间差距的广泛使用方法。当前的拍手方法可以用英语进行声音和音乐检索,而忽略了多语言口语内容。为了解决这个问题,我们介绍了通用语言音频预处理(GLAP),该音频预处理(GLAP)通过多语言和多域功能扩展拍手 ...
在本文中,我们解决了通过理论观点确定大语言模型(LLM)的层次稀疏率的挑战。具体来说,我们确定了现有LLMS稀疏方法中的“ $ \ textbf {重建错误爆炸} $'”的关键问题。这是指在整个滥用过程中重建误差的累积效应,在此过程中,早期层中的误差在后续层中传播并放大 ...
自动驾驶,增强现实,机器人技术和体现智能的最新进展需要3D感知算法。但是,当前的3D感知方法,尤其是专业小型模型,在开放方案中表现出较差的概括。另一方面,由于弱的3D本地空间对象感知,基于文本的几何数字输出较差,并且无法处理摄像机焦点变化,因此多模式大语模型(MLLMS)在3D任务中表现不佳,但在3D任务中表现不佳 ...
双曲线空间由于其高容量和树木类的特性,最近在机器学习的背景下获得了动力。但是,双曲几何形状的代表力尚未与欧几里得几何形状相提并论,这主要是因为没有相应的双曲神经网络层。这使得很难在下游任务中使用双曲线嵌入 ...
大型语言模型(LLM)在处理长序列方面表现出了巨大的潜力,但由于预填充阶段的二次计算复杂性以及在解码阶段的KV缓存的较大记忆足迹,因此有效地服务于这些长篇小说模型仍然具有挑战性。为了解决这些问题,我们引入了Lserve,这是一个有效的系统,可通过混合稀疏的注意力加速长期效果LLM。该方法将预填充和解码的注意力统一的不同硬件,结构化的稀疏模式统一到单个框架中,在此框架中,对较小重要的 Token 进 ...
具有不完整方式的多模式学习是实用且具有挑战性的。最近,研究人员专注于通过应用可学习的提示在缺失的模态条件下提高预训练的多模式 Transformer (MMT)的鲁棒性。但是,这些基于及时的方法面临着几个局限性:(1)不完整的模态为特定于任务的推断提供了受限的模态提示,(2)虚拟内容引起的内容引起了信息丢失并引入噪声,并且(3)静态提示是实例 - 势不可挡,为各种缺失条件提供了有限的知识 ...
视觉模型已启用了开放式摄影任务,在这些任务中,可以使用任何文本提示以零拍的方式查询预测。现有的开放式摄取任务集中在对象类上,而对对象属性的研究由于缺乏以可靠的属性为中心的评估基准而受到限制。本文介绍了开放式vocabulary属性检测(OVAD)任务和相应的OVAD基准 ...
视觉转换器在表征学习方面取得了巨大的成功。这主要是由于通过自注意力进行有效的 Token 混合。然而,这与像素数量呈二次方缩放,这对于高分辨率输入来说是不可行的... ...