大型语言模型(LLM)在众多领域取得了巨大的成功。但是,现有修剪和量化方法的高时间复杂性极大地阻碍了其在资源受限的消费者或边缘设备上的有效部署。在这项研究中,我们提出了一种新颖的无Hessian无重量修剪 - 定量化(HWPQ)方法 ...
音频语言模型的出现由神经音频编解码器赋予了能力,后者在连续波形和与语言模型范式兼容的离散 Token 之间建立了关键的映射。从多层残留矢量量化到单层量化器的进化趋势对语言 - 自动回调解码有益。但是,通过单个代码簿处理多域音频信号的功能仍然受到域间分配差异的限制 ...
在本文中,我们提出了大型语言模型辅助检索模型排名(Larmor),这是一种有效的无监督方法,利用LLMS选择在测试语料库(Target)上使用哪种密集的猎犬。密集的检索器选择对于许多依赖于使用公共语料库培训的密集检索器来编码或搜索新的私人目标语料库的应用程序至关重要。这是因为当面对域移动时,下游的语料库,域或目标语料库的任务与域/任务不同,培训了密集的猎犬,其性能通常会下降 ...
SLIM注意力将上下文存储器大小缩小了2倍,对于具有MHA(多头注意力)的 Transformer 模型,该模型可以加快对大上下文窗口的推理高达2倍。纤细的注意力是标准注意机制的确切,数学相同的实现,因此不会损害模型的准确性。换句话说,纤细的注意力无误地将上下文记忆压缩了2倍 ...
密集检索方法可以克服词汇差距并显着改善搜索结果。然而,它们需要大量的训练数据,而这对于大多数领域来说是不可用的。如之前的工作所示( thakur等人... ...
最近的多模式大型语言模型(MLLM)取得了出色的性能,但由于其二次计算复杂性,增长的键值缓存要求以及依赖单独的视觉编码器而面临部署挑战。我们提出了Mmmamba,这是一个框架,用于通过使用中等学术计算资源从现有的MLLM进行逐步蒸馏来开发线性复杂性本地多模式空间模型。我们的方法使只有训练有素的单位MLLM直接转换为线性复杂体系结构,而无需进行预先训练的RNN LLM或视觉编码器 ...
在过去的十年中,深入学习在预测人头构成的单眼图像中取得了令人印象深刻的成功。但是,对于野外投入,研究界主要依赖于单一的训练集,即300W-LP,具有半合成性质,没有许多选择。本文着重于逐步扩展和改进数据,以进一步探索可通过增强和合成策略实现的性能 ...
视觉语言模型(VLM)在多模态推理任务中显示出显着的进步。然而,由于幻觉的图像理解或不完善的推理路径等问题,它们仍然经常产生不准确或不相关的响应。为了应对这些挑战,我们引入了 Critic-V,这是一种受 Actor-Critic 范式启发的新颖框架,旨在提高 VLM 的推理能力 ...