尽管MLLM表现出足够的图像理解能力,但他们仍然在像素级的理解力上挣扎,从而限制了其实际应用。当前的评估任务(例如VQA和视觉接地)仍然太粗糙,无法准确评估细粒的像素理解。尽管分割是用于像素级理解的基础,但现有方法通常需要MLLM来生成隐式 Token ,该 Token 通过外部像素解码器解码 ...
修剪模型是压缩大语言模型的有效方法。但是,此过程通常会导致模型能力的重大降解。虽然通常采用培训后技术(例如教学调音)来恢复模型性能,但现有方法通常忽略模型能力的不均匀恶化和造成高计算成本 ...
随着临界领域的机器学习模型越来越多地应对多模式数据,他们面临着处理各种方式的双重挑战,通常由于缺失的元素以及收集的样本的时间不规则性和稀疏性而经常不完整。在克服高质量培训样本的稀缺时,成功利用这些复杂数据是改善这些模型的预测性能的关键。我们介绍了``fusemoe'',这是一种与创新的门控函数合并的专家框架 ...
大型语言模型(LLMS)具有有效利用外部工具来解决用户查询的能力。但是,它们的性能可能会受到涉及用户和多种工具的复杂,多转交互的限制。为了解决这个问题,我们提出了磁铁,这是一个合成高质量训练轨迹的原则性框架,以增强大语模型代理在与人类的多转交流中的功能功能 ...
大型语言模型(LLM)的出现引发了人们对将其出色语言能力扩展到言语的重大兴趣。但是,语音和文本之间的模态对准仍然是一个空旷的问题。当前的解决方案可以分为两种策略 ...
近年来,基于深度学习的源分离取得了令人印象深刻的结果。但是,大多数研究仍在评估合成数据集上的分离模型,而在野外语音数据上的最新技术的性能仍然是一个悬而未决的问题。本文通过两种方式填补了这一空白 ...
本文介绍了 PowerInfer,这是一种在配备单个消费级 GPU 的个人计算机 (PC) 上运行的高速大型语言模型 (LLM) 推理引擎。 PowerInfer 设计的关键是利用 LLM 推理中固有的高度局部性,其特征是神经元激活中的幂律分布。这种分布表明,一小部分神经元(称为热神经元)在输入之间一致激活,而大多数冷神经元则根据特定输入而变化 ...
大型语言模型(LLMS)在代码生成中表现出令人印象深刻的能力,特别是在自然语言中自动实施要求。 LLM有效性通常随其大小而增加:LLM可训练参数的数量越高,其实现代码的能力越好。但是,在部署基于LLM的代码生成器时,较大的LLM构成了与其内存(以及碳)足迹有关的重大挑战 ...