在文本中表示的用户定义/灵活的关键字经常使用昂贵的文本编码器与嵌入式空间中的音频编码器进行联合分析,这可能会遭受异质模态表示(即大错不匹配)和增加的复杂性 ...
像 CLIP 这样的对比训练视觉语言模型 (VLM) 已经成为判别性视觉语言表示学习的事实上的方法。然而,这些模型的语言理解能力有限,经常表现出“词袋”行为。与此同时,将视觉编码器与 LLM 相结合的大型视觉语言模型 (LVLM) 已被证明能够进行详细的视觉语言推理,但其自回归性质使其不太适合判别任务 ...
提出了语言瓶颈模型(LBM),以通过基于文本概念瓶颈对图像进行分类来实现可解释的图像识别。但是,当前的LBM只是将所有概念列为瓶颈层,导致了虚假的提示推理问题,并且无法普遍看不见的类。为了解决这些限制,我们提出了属性形成的语言瓶颈模型(ALBM) ...
本文介绍了我们对以视觉,虚拟或物理形式体现的AI代理的研究,使他们能够与用户及其环境进行交互。这些试剂包括虚拟化身,可穿戴设备和机器人,旨在感知,学习和行动在周围的环境中,这使其与人类的学习方式和与环境相比的方式更为相似。我们建议,世界模型的发展对于体现的AI代理的推理和计划是至关重要的,允许这些代理人理解和预测其环境,了解用户意图和社会环境,从而增强其自动执行复杂任务的能力 ...
音乐编解码器是音频编解码器研究的重要方面,超低含量压缩对于音乐传播和发电至关重要。由于音乐背景的复杂性和人声的丰富性,仅依靠语义或声学信息建模,无法有效地通过人声和背景重建音乐。为了解决这个问题,我们提出了Mucodec,专门针对超低比特率的音乐压缩和重建任务 ...
投机解码是一种有效的方法,可以通过使用小型草稿模型来预测目标模型的输出来加速大型语言模型(LLMS)的推理。但是,当将投机解码适应特定于域的目标模型时,由于域移位,通用草图模型的接受率大大下降。在这项工作中,我们系统地研究了用于培训领域草案模型的知识蒸馏技术,以提高其推测准确性 ...
GPT-4O样大型多模型(LMM)的出现提高了整合文本,视觉和语音方式的探索,以支持更灵活的多模式相互作用。现有的LMM通常是沿序列维度的模态的串联表示,并将其馈入大型语言模型(LLM)骨架。虽然序列维耦合对于模态积分很简单,但它通常很大程度上依赖于大规模数据来学习模态对齐 ...
基于结果监督的现有强化学习策略已被证明有效地增强了代码生成的大型语言模型(LLM)的性能。尽管基于过程监督的加强学习在处理多步推理任务方面表现出了巨大的希望,但其在代码生成中的有效性在很大程度上没有被忽视和不足。主要障碍源于构建高质量的流程监督数据的资源密集型性质,该数据需要大量的人类专业知识和计算资源 ...