细粒度的视频分类需要了解复杂的时空和语义提示,这些时空和语义提示通常超过单个模态的能力。在本文中,我们提出了一个多模式框架,该框架使用基于GRU的序列编码器和跨模式注意机制融合视频,图像和文本表示。该模型是使用分类或回归损失的组合训练的,具体取决于任务,并通过功能级增强和自动编码技术进一步正规化 ...
最近的研究旨在利用大语言模型(LLM)的一般知识和推理为实现交互式环境中用户指定目标的代理。视觉模型(VLMS)将LLMS扩展到多模式数据,并为代理提供在计算机自动化等领域的新应用所需的视觉推理。但是,代理商任务强调了在LLM等效方面可访问的开放权重VLM的技能 ...
自动语音识别(ASR)在现代世界中的实用性越来越大。有许多ASR模型可用于具有大量培训数据(例如英语)的语言。但是,低资源语言的代表性很差 ...
推荐系统广泛应用于各种在线服务中,基于嵌入的模型由于其在表示复杂信号方面的表现力而特别受欢迎。然而,这些模型通常缺乏可解释性,这使得它们对于用户和开发人员来说不太可靠和透明。随着大型语言模型(LLM)的出现,我们发现它们在语言表达、知识感知推理和指令跟随方面的能力异常强大 ...
我们介绍了SIFT(语音说明微调),这是一个50m示例的数据集,旨在指导语音文本大型语言模型(LLMS)进行微调和预培训。 SIFT-500M是由公开可用的语音Corpora构建的,该语音统称为14,000小时的演讲,并利用LLMS以及现成的专家模型。数据集跨越了五种语言,包括各种语音理解以及可控的语音生成指令 ...
大型语言模型(LLMS)由于灾难性遗忘而持续学习遇到了重大挑战,新信息覆盖了先前获得的知识。这种限制导致了大量的环境和经济浪费。在这项研究中,我们介绍了专家与非对称 Transformer 的PMOE,渐进的混合物,该混合物的旨在通过利用不对称设计,旨在最大程度地减少遗忘,并具有专门用于一般知识和深层层的浅层层,以获取新知识 ...
我们介绍了VideoComp,这是一个基准和学习框架,用于推进视频文本的理解,旨在在细粒度的时间对齐中改善视觉模型(VLMS)。与关注静态图像文本构图或隔离单事件视频的现有基准分析不同,我们的基准测试目标在连续的多事件视频中对齐。利用带有时间本地化事件标题的视频文本数据集(e ...
本文介绍了基于 Transformer 的大语言模型(LLM)推断的限制研究,重点是分布式推理系统中记忆带宽,内存能力和同步开销所施加的基本性能瓶颈。我们开发了一个硬件不足的性能模型,该模型将实现细节抽象化,从而可以分析各种当前和近乎未来的硬件技术。我们的分析涵盖了GPU和TPU等当前使用的HBM3存储器技术到基于高级HBM4和高级3D堆叠DRAM技术的系统 ...