尽管完全监督的视频字幕取得了重大进展,但零射击方法的探索仍然少得多。在本文中,我们提出了一个名为“检索增强测试时间适应性(RETTA)”的新颖零摄像视频字幕字幕框架,该框架利用了现有的预处理的大规模视觉和语言模型,以直接生成测试时间适应的字幕。具体而言,我们使用四个关键模型桥接视频和文本:一般的视频文本检索模型XClip,一般图像文本匹配模型剪辑,文本对齐模型角度和文本生成型GPT-2,由于其源  ...
0 0 0 2025/02/13 arXiv:2405.07046v2 hynj
为了推进大型多模型(LMM)中多模式数学推理的评估,本文介绍了一种新颖的基准MM-MATH。 MM-MATH由5,929个开放式中学数学问题与视觉上下文组成,跨难度,年级和知识点进行了细粒度的分类。与依靠二进制答案比较的现有基准不同,MM-MATH包括结果和过程评估 ...
0 0 0 2025/02/13 arXiv:2404.05091v4 Dreamer
最近在复杂的室内视觉环境中研究了多代理具体任务。多个代理之间的协作可以提高工作效率,并具有显着的实用价值。但是,大多数现有研究都集中于均质的多代理任务 ...
0 0 0 2025/02/13 arXiv:2307.13957v2 陆三七
当今,大型自动语音翻译系统缺乏关键功能,与人与人之间的对话相比,机器介导的沟通感觉无缝。在这项工作中,我们介绍了一个模型系列,该模型可以以流式传播方式端到端表达和多语言翻译。首先,我们贡献了大量多语言和多模式SeamlessM4T模型SeamlessM4T V2的改进版本 ...
0 0 0 2025/02/13 arXiv:2312.05187v1 yangyazhou
通过提示进行思维链 (CoT) 是从大型语言模型 (LLM) 中引出推理能力的事实上的方法。但这种额外的“思考”对于什么类型的任务真正有帮助呢?为了分析这一点,我们使用 CoT 进行了涵盖 100 多篇论文的定量荟萃分析,并对 14 个模型的 20 个数据集进行了我们自己的评估。我们的结果表明,CoT 主要在涉及数学或逻辑的任务上提供强大的性能优势,而在其他类型的任务上则获得较小的收益 ...
0 0 0 2025/02/13 arXiv:2409.12183v2 odenkkk
预处理大语模型(LLM)是资源密集的,即使使用高端GPU群集也需要数月的培训时间。有两种减轻此类计算需求的方法:重用较小的模型训练较大的模型(升级),以及训练计算高效的模型,例如Experts(MOE)。在本文中,我们研究了LLMS对MOE模型的升级,其缩放行为仍然没有被逐渐置换 ...
0 0 0 2025/02/13 arXiv:2502.03009v1 odenkkk
在基于图的学​​习中取得了快速的初步突破之后,图形神经网络(GNN)已在许多科学和工程领域达到了广泛的应用程序,促使需要方法来了解其决策过程。近年来,GNN解释器已经开始出现,具有多种新颖或适应其他领域的方法。为了解决这种多种替代方法,几项研究基于各种解释性指标的不同解释者的表现 ...
0 0 0 2025/02/13 arXiv:2210.15304v3 CG_Z
我们在训练DeepSeek-V2和DeepSeek-V3的训练期间对GPU记忆消耗进行了理论分析。我们的主要目标是阐明与各种分布式培训配置相关的设备级内存要求。具体而言,我们检查了影响记忆使用情况的关键因素,包括微批量大小,激活重新计算策略,3D并行性和零优化 ...
0 0 0 2025/02/13 arXiv:2502.07846v1 liuweitang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)