一译 —— 文档和论文翻译、对照阅读、讨论和社区

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

我们提出GLM-4.1V思维，这是一种旨在推进通用多种模束推理的视觉模型（VLM）。 In this report, we share our key findings in the development of the reasoning-centric training framework. ...

0 0 0 2025/07/02 arXiv:2507.01006v1 harry128

Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification

在过去的几年中，多模式大型语言模型（MLLM）模型在视频理解方面取得了重大进展。但是，由于高内存和计算成本，处理长期视频输入仍然是一个重大挑战。这使得当前模型很难在长期的视频理解中达到强大的性能和高效率 ...

0 0 0 2025/07/02 arXiv:2506.19225v1 xll0727

Spiking Transformer with Spatial-Temporal Attention

基于Spike的 Transformer 为基于传统的人工神经网络（ANN）的 Transformer 提供了一种引人注目的节能替代品，通过稀疏的二元计算实现了令人印象深刻的结果。但是，现有的基于尖峰的 Transformer 主要集中在空间注意力上，同时忽略了基于尖峰的处理中固有的关键时间依赖性，从而导致次优特征表示和有限的性能。为了解决这一局限性，我们提出了以时空的关注（Statten）提出的 ...

0 0 0 2025/07/02 arXiv:2409.19764v3 yanyu

VP-MEL: Visual Prompts Guided Multimodal Entity Linking

多模式实体链接（MEL）是一项旨在将多模式环境中提及与知识库中相应实体联系起来的任务，由于近年来其广泛的应用，引起了很多关注。但是，现有的MEL方法通常依靠提及单词作为检索提示，这限制了其有效利用图像和文本信息的能力。这种依赖使梅尔在某些情况下与准确检索实体斗争，尤其是当焦点放在图像对象或文本中缺少单词时 ...

0 0 0 2025/07/02 arXiv:2412.06720v4 Alex069

Be.FM: Open Foundation Models for Human Behavior

尽管它们在许多领域取得了成功，但基础模型建模和理解人类行为的潜力仍然在很大程度上尚未探索。我们介绍了此HTTP URL，这是为人类行为建模设计的第一个开放基础模型之一。该HTTP URL建立在开源大型语言模型上，并在各种行为数据上进行了微调，可用于理解和预测人类的决策 ...

0 0 0 2025/07/02 arXiv:2505.23058v1 晚餐杀手

Fast Adaptation with Behavioral Foundation Models

无监督的零射强增强学习（RL）已成为预处理行为基础模型（BFMS）的强大范式，使代理商能够以零拍的方式（即，即没有其他测试时间学习或计划）来解决通过零摄影方式指定的广泛下游任务 ...

0 0 0 2025/07/02 arXiv:2504.07896v1 晚餐杀手

A Survey on Vision-Language-Action Models for Autonomous Driving

多模式大语言模型（MLLM）的快速进步为视觉语言动作（VLA）范式铺平了道路，这些范式将视觉感知，自然语言理解和控制范围整合在单个策略中。自主驾驶的研究人员正在积极将这些方法调整为车辆域。这样的型号承诺可以解释高级说明，有关复杂交通场景的原因并做出自己的决定的自动驾驶汽车 ...

0 0 0 2025/07/02 arXiv:2506.24044v1 jane88

Omnigrasp: Grasping Diverse Objects with Simulated Humanoids

我们提出了一种控制模拟的类人动物以抓住对象并将其移动以遵循对象轨迹的方法。由于在用灵巧的手控制类人动物方面面临的挑战，先前的方法通常使用无形的手，仅考虑垂直升降机或短轨迹。这种有限的范围妨碍了对动画和模拟所需的对象操纵的适用性 ...

0 0 0 2025/07/02 arXiv:2407.11385v2 晚餐杀手

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）