一译 —— 文档和论文翻译、对照阅读、讨论和社区

Multi-Task Dense Prediction via Mixture of Low-Rank Experts

以前基于专家混合（MOE）的多任务密集预测方法已经获得了出色的表现，但他们忽略了明确建模所有任务之间全球关系的重要性。在本文中，我们提出了一种以多任务密集预测为重点的新型方法，称为低级专家（MLORE）。为了建模全局任务关系，MLORE添加了原始MOE结构的通用卷积路径，每个任务功能都可以通过此路径进行显式参数共享 ...

0 0 0 2025/03/21 arXiv:2403.17749v2 jackson118

RNNs, CNNs and Transformers in Human Action Recognition: A Survey and a Hybrid Model

人类行动识别（HAR）涵盖了监测各个领域人类活动的任务，包括但不限于医学，教育，娱乐，视觉监视，视频检索以及识别异常活动。在过去的十年中，HAR领域通过利用卷积神经网络（CNN）有效提取和理解复杂的信息，从而提高了HAR系统的整体性能，从而见证了巨大的进步。最近，计算机视觉的领域见证了视觉 Transformer （VIT）的出现作为有效的解决方案 ...

0 0 0 2025/03/21 arXiv:2407.06162v2 3220220917

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

llm（llm）的成功，llm中以构建视觉语言基础模型最近引起了越来越多的兴趣。然而，llm 的大型多模式模型（例如 ...

0 0 0 2025/03/21 arXiv:2404.05726v2 felixslu

From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions

工具学习使大型语言模型 (LLM) 能够通过调用工具与外部环境进行交互，这是减轻预训练数据固有限制的有效策略。在此过程中，工具文档发挥着至关重要的作用，为 LLM 提供使用说明，从而促进工具的有效利用。本文重点讨论由于现有以人为中心的工具文档固有的不足和不准确而缩小 LLM 和外部工具之间的理解差距的关键挑战 ...

0 0 0 2025/03/21 arXiv:2410.08197v2 ymx

Cube: A Roblox View of 3D Intelligence

经过大量数据培训的基础模型表明，在文本，图像，音频和视频领域中，推理和发电能力都显着。我们在Roblox的目标是为3D Intelligence建立这样的基础模型，该模型可以支持开发人员生产Roblox体验的各个方面，从生成3D对象和场景到操纵字符以进行动画到制作描述对象行为的程序化脚本。我们讨论了这样的3D基础模型的三个关键设计要求，然后介绍我们迈向建立这种模型的第一步 ...

0 0 0 2025/03/21 arXiv:2503.15475v1 attention2

Demystifying Workload Imbalances in Large Transformer Model Training over Variable-length Sequences

为了优化大型 Transformer 模型培训，有效的并行计算和高级数据管理至关重要。但是，当前的方法通常会假设稳定且均匀的训练工作量，从而忽略了可能阻碍性能的数据采样和包装失衡。具体而言，数据采样不平衡来自训练数据的序列长度分布不平，而数据包装不平衡是源于注意机制的线性记忆复杂性和二次时间复杂性之间的差异 ...

0 0 0 2025/03/21 arXiv:2412.07894v1 白日衣衫尽

Survey on Evaluation of LLM-based Agents

基于LLM的代理的出现代表了AI的范式转移，从而使自主系统能够计划，推理，使用工具和维护内存，同时与动态环境进行交互。本文为这些越来越能力的药物提供了首次对评估方法的全面调查。我们系统地分析了四个关键维度的评估基准和框架：（1）基本代理能力，包括计划，工具使用，自我反射和内存； （2）用于网络，软件工程，科学和对话代理的特定应用程序基准； （3）通才代理商的基准； （4）用于评估代理的框架 ...

0 0 0 2025/03/21 arXiv:2503.16416v1 xiximayou

Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

增强大型语言模型 (LLM) 以理解音频（包括非语音和非语言语音）对于 LLM 的各种实际应用至关重要。在本文中，我们提出了 Audio Flamingo，一种新颖的音频语言模型，具有 1）强大的音频理解能力，2）通过上下文学习和检索快速适应未见过的任务的能力，以及 3）强大的多轮对话能力。我们引入了一系列训练技术、架构设计和数据策略来增强我们的模型的这些能力 ...

0 0 0 2025/03/21 arXiv:2402.01831v3 z520520115

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）