我们提出GLM-4.1V思维,这是一种旨在推进通用多种模束推理的视觉模型(VLM)。 In this report, we share our key findings in the development of the reasoning-centric training framework. ...
在过去的几年中,多模式大型语言模型(MLLM)模型在视频理解方面取得了重大进展。但是,由于高内存和计算成本,处理长期视频输入仍然是一个重大挑战。这使得当前模型很难在长期的视频理解中达到强大的性能和高效率 ...
基于Spike的 Transformer 为基于传统的人工神经网络(ANN)的 Transformer 提供了一种引人注目的节能替代品,通过稀疏的二元计算实现了令人印象深刻的结果。但是,现有的基于尖峰的 Transformer 主要集中在空间注意力上,同时忽略了基于尖峰的处理中固有的关键时间依赖性,从而导致次优特征表示和有限的性能。为了解决这一局限性,我们提出了以时空的关注(Statten)提出的 ...
多模式实体链接(MEL)是一项旨在将多模式环境中提及与知识库中相应实体联系起来的任务,由于近年来其广泛的应用,引起了很多关注。但是,现有的MEL方法通常依靠提及单词作为检索提示,这限制了其有效利用图像和文本信息的能力。这种依赖使梅尔在某些情况下与准确检索实体斗争,尤其是当焦点放在图像对象或文本中缺少单词时 ...
尽管它们在许多领域取得了成功,但基础模型建模和理解人类行为的潜力仍然在很大程度上尚未探索。我们介绍了此HTTP URL,这是为人类行为建模设计的第一个开放基础模型之一。该HTTP URL建立在开源大型语言模型上,并在各种行为数据上进行了微调,可用于理解和预测人类的决策 ...
无监督的零射强增强学习(RL)已成为预处理行为基础模型(BFMS)的强大范式,使代理商能够以零拍的方式(即,即没有其他测试时间学习或计划)来解决通过零摄影方式指定的广泛下游任务 ...
多模式大语言模型(MLLM)的快速进步为视觉语言动作(VLA)范式铺平了道路,这些范式将视觉感知,自然语言理解和控制范围整合在单个策略中。自主驾驶的研究人员正在积极将这些方法调整为车辆域。这样的型号承诺可以解释高级说明,有关复杂交通场景的原因并做出自己的决定的自动驾驶汽车 ...
我们提出了一种控制模拟的类人动物以抓住对象并将其移动以遵循对象轨迹的方法。由于在用灵巧的手控制类人动物方面面临的挑战,先前的方法通常使用无形的手,仅考虑垂直升降机或短轨迹。这种有限的范围妨碍了对动画和模拟所需的对象操纵的适用性 ...