细粒度的视频分类需要了解复杂的时空和语义提示,这些时空和语义提示通常超过单个模态的能力。在本文中,我们提出了一个多模式框架,该框架使用基于GRU的序列编码器和跨模式注意机制融合视频,图像和文本表示。该模型是使用分类或回归损失的组合训练的,具体取决于任务,并通过功能级增强和自动编码技术进一步正规化 ...
0 0 0 2025/07/22 arXiv:2507.03531v1 anjianxiang001
最近的研究旨在利用大语言模型(LLM)的一般知识和推理为实现交互式环境中用户指定目标的代理。视觉模型(VLMS)将LLMS扩展到多模式数据,并为代理提供在计算机自动化等领域的新应用所需的视觉推理。但是,代理商任务强调了在LLM等效方面可访问的开放权重VLM的技能 ...
0 0 0 2025/07/22 arXiv:2505.03181v1 syhhh
自动语音识别(ASR)在现代世界中的实用性越来越大。有许多ASR模型可用于具有大量培训数据(例如英语)的语言。但是,低资源语言的代表性很差 ...
0 0 0 2025/07/22 arXiv:2206.01205v2 Taoning
推荐系统广泛应用于各种在线服务中,基于嵌入的模型由于其在表示复杂信号方面的表现力而特别受欢迎。然而,这些模型通常缺乏可解释性,这使得它们对于用户和开发人员来说不太可靠和透明。随着大型语言模型(LLM)的出现,我们发现它们在语言表达、知识感知推理和指令跟随方面的能力异常强大 ...
0 0 0 2025/07/22 arXiv:2311.10947v2 xuemenglong
我们介绍了SIFT(语音说明微调),这是一个50m示例的数据集,旨在指导语音文本大型语言模型(LLMS)进行微调和预培训。 SIFT-500M是由公开可用的语音Corpora构建的,该语音统称为14,000小时的演讲,并利用LLMS以及现成的专家模型。数据集跨越了五种语言,包括各种语音理解以及可控的语音生成指令 ...
0 0 0 2025/07/22 arXiv:2504.09081v2 2486408244
大型语言模型(LLMS)由于灾难性遗忘而持续学习遇到了重大挑战,新信息覆盖了先前获得的知识。这种限制导致了大量的环境和经济浪费。在这项研究中,我们介绍了专家与非对称 Transformer 的PMOE,渐进的混合物,该混合物的旨在通过利用不对称设计,旨在最大程度地减少遗忘,并具有专门用于一般知识和深层层的浅层层,以获取新知识 ...
0 0 0 2025/07/22 arXiv:2407.21571v1 anjianxiang001
我们介绍了VideoComp,这是一个基准和学习框架,用于推进视频文本的理解,旨在在细粒度的时间对齐中改善视觉模型(VLMS)。与关注静态图像文本构图或隔离单事件视频的现有基准分析不同,我们的基准测试目标在连续的多事件视频中对齐。利用带有时间本地化事件标题的视频文本数据集(e ...
0 0 0 2025/07/22 arXiv:2504.03970v2 anjianxiang001
本文介绍了基于 Transformer 的大语言模型(LLM)推断的限制研究,重点是分布式推理系统中记忆带宽,内存能力和同步开销所施加的基本性能瓶颈。我们开发了一个硬件不足的性能模型,该模型将实现细节抽象化,从而可以分析各种当前和近乎未来的硬件技术。我们的分析涵盖了GPU和TPU等当前使用的HBM3存储器技术到基于高级HBM4和高级3D堆叠DRAM技术的系统 ...
0 0 0 2025/07/22 arXiv:2507.14397v1 jane88

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)