一译 —— 文档和论文翻译、对照阅读、讨论和社区

Multimodal Alignment with Cross-Attentive GRUs for Fine-Grained Video Understanding

细粒度的视频分类需要了解复杂的时空和语义提示，这些时空和语义提示通常超过单个模态的能力。在本文中，我们提出了一个多模式框架，该框架使用基于GRU的序列编码器和跨模式注意机制融合视频，图像和文本表示。该模型是使用分类或回归损失的组合训练的，具体取决于任务，并通过功能级增强和自动编码技术进一步正规化 ...

0 0 0 2025/07/22 arXiv:2507.03531v1 anjianxiang001

VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making

最近的研究旨在利用大语言模型（LLM）的一般知识和推理为实现交互式环境中用户指定目标的代理。视觉模型（VLMS）将LLMS扩展到多模式数据，并为代理提供在计算机自动化等领域的新应用所需的视觉推理。但是，代理商任务强调了在LLM等效方面可访问的开放权重VLM的技能 ...

0 0 0 2025/07/22 arXiv:2505.03181v1 syhhh

Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages

自动语音识别（ASR）在现代世界中的实用性越来越大。有许多ASR模型可用于具有大量培训数据（例如英语）的语言。但是，低资源语言的代表性很差 ...

0 0 0 2025/07/22 arXiv:2206.01205v2 Taoning

RecExplainer: Aligning Large Language Models for Explaining Recommendation Models

推荐系统广泛应用于各种在线服务中，基于嵌入的模型由于其在表示复杂信号方面的表现力而特别受欢迎。然而，这些模型通常缺乏可解释性，这使得它们对于用户和开发人员来说不太可靠和透明。随着大型语言模型（LLM）的出现，我们发现它们在语言表达、知识感知推理和指令跟随方面的能力异常强大 ...

0 0 0 2025/07/22 arXiv:2311.10947v2 xuemenglong

SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

我们介绍了SIFT（语音说明微调），这是一个50m示例的数据集，旨在指导语音文本大型语言模型（LLMS）进行微调和预培训。 SIFT-500M是由公开可用的语音Corpora构建的，该语音统称为14,000小时的演讲，并利用LLMS以及现成的专家模型。数据集跨越了五种语言，包括各种语音理解以及可控的语音生成指令 ...

0 0 0 2025/07/22 arXiv:2504.09081v2 2486408244

PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning

大型语言模型（LLMS）由于灾难性遗忘而持续学习遇到了重大挑战，新信息覆盖了先前获得的知识。这种限制导致了大量的环境和经济浪费。在这项研究中，我们介绍了专家与非对称 Transformer 的PMOE，渐进的混合物，该混合物的旨在通过利用不对称设计，旨在最大程度地减少遗忘，并具有专门用于一般知识和深层层的浅层层，以获取新知识 ...

0 0 0 2025/07/22 arXiv:2407.21571v1 anjianxiang001

VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models

我们介绍了VideoComp，这是一个基准和学习框架，用于推进视频文本的理解，旨在在细粒度的时间对齐中改善视觉模型（VLMS）。与关注静态图像文本构图或隔离单事件视频的现有基准分析不同，我们的基准测试目标在连续的多事件视频中对齐。利用带有时间本地化事件标题的视频文本数据集（e ...

0 0 0 2025/07/22 arXiv:2504.03970v2 anjianxiang001

Efficient LLM Inference: Bandwidth, Compute, Synchronization, and Capacity are all you need

本文介绍了基于 Transformer 的大语言模型（LLM）推断的限制研究，重点是分布式推理系统中记忆带宽，内存能力和同步开销所施加的基本性能瓶颈。我们开发了一个硬件不足的性能模型，该模型将实现细节抽象化，从而可以分析各种当前和近乎未来的硬件技术。我们的分析涵盖了GPU和TPU等当前使用的HBM3存储器技术到基于高级HBM4和高级3D堆叠DRAM技术的系统 ...

0 0 0 2025/07/22 arXiv:2507.14397v1 jane88

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）