Mamba由于其线性复杂性在对输入长度上建模全局上下文时表现出很大的潜力。但是,现有的基于MAMBA的骨架无法证明与基于卷积或基于 Transformer 的方法相匹配的性能。我们观察到,简单地修改图像域中的扫描路径不利于完全利用视觉mamba的潜力 ...
代码完成是工业环境中的重要实践,可以通过自动在开发过程中自动建议代码片段来提高编程效率。随着大型代码模型(LCM)的出现,该领域见证了重大进步。由于开源和工业代码库之间的自然差异(例如编码模式和独特的内部依赖性),因此开发人员通常在行业中采用LCM时进行域适应性 ...
将大型语言模型(LLM)与人类偏好保持一致,取得了巨大的成功。但是,现有的中国偏好数据集受小规模,狭窄的域覆盖范围以及缺乏严格的数据验证的限制。另外,对人类注释的指导和响应标签的依赖显着限制了人类偏好数据集的可扩展性 ...
随着大型语言模型最近的成功,视觉语言模型(VLM)迅速发展。人们在视觉指令调整方面做出了越来越多的努力,以通过视觉输入扩展 LLM ,但缺乏对视觉语言预训练过程的深入研究,其中模型学习对两种模式进行联合建模。在这项工作中,我们通过逐步可控比较将 LLM 增强到 VLM,从而检查 VLM 预训练的设计选项 ...
安全且可行的轨迹计划对于现实世界自动驾驶系统至关重要。但是,现有的基于学习的计划方法通常依赖于专家演示,不仅缺乏明确的安全意识,而且有可能继承不安全的行为,例如从次优的人类驾驶数据中超越。受大语言模型成功的启发,我们提出了Plan-R1,这是一个新颖的两阶段轨迹计划框架,该框架将轨迹计划制定为一项顺序预测任务,并由明确的计划原则(例如安全,舒适性和交通规则规则)进行指导 ...
左右对称模型的量化和重新规定是本文的主要目的。首先,精确地讨论了带有一个bidoublet和两个三重态的希格斯扇区的树级模型。然后进行规范量化和Faddeev-Popov Lagrangian('T Hooft Gauge) ...
最近,已经提出了用于密集预测任务的各种视觉 Transformer 体系结构,它们表明,空间关注的设计对于他们在这些任务中的成功至关重要。在这项工作中,我们重新审视了空间关注的设计,并证明了精心设计而简单的空间注意机制对最先进的方案有利。结果,我们提出了两种视觉 Transformer 架构,即双胞胎-PCPVT和Twins-Svt ...
我们介绍了CausalVQA,这是一个用于视频问题回答的基准数据集(VQA),该数据集由问答对组成,该数据探测了对物理世界中因果关系的理解。现有的VQA基准倾向于集中于对现实世界视频的表面知觉理解,或者使用模拟环境创建的狭窄物理推理问题。 CausalVQA通过提出基于现实世界情景的挑战性问题来填补一个重要的空白,同时着重于模型通过五种问题类型预测不同行动和事件的可能结果的能力:反事实,假设,预期 ...