随着大型语言模型最近的成功,视觉语言模型(VLM)迅速发展。人们在视觉指令调整方面做出了越来越多的努力,以通过视觉输入扩展 LLM ,但缺乏对视觉语言预训练过程的深入研究,其中模型学习对两种模式进行联合建模。在这项工作中,我们通过逐步可控比较将 LLM 增强到 VLM,从而检查 VLM 预训练的设计选项 ...
安全且可行的轨迹计划对于现实世界自动驾驶系统至关重要。但是,现有的基于学习的计划方法通常依赖于专家演示,不仅缺乏明确的安全意识,而且有可能继承不安全的行为,例如从次优的人类驾驶数据中超越。受大语言模型成功的启发,我们提出了Plan-R1,这是一个新颖的两阶段轨迹计划框架,该框架将轨迹计划制定为一项顺序预测任务,并由明确的计划原则(例如安全,舒适性和交通规则规则)进行指导 ...
左右对称模型的量化和重新规定是本文的主要目的。首先,精确地讨论了带有一个bidoublet和两个三重态的希格斯扇区的树级模型。然后进行规范量化和Faddeev-Popov Lagrangian('T Hooft Gauge) ...
最近,已经提出了用于密集预测任务的各种视觉 Transformer 体系结构,它们表明,空间关注的设计对于他们在这些任务中的成功至关重要。在这项工作中,我们重新审视了空间关注的设计,并证明了精心设计而简单的空间注意机制对最先进的方案有利。结果,我们提出了两种视觉 Transformer 架构,即双胞胎-PCPVT和Twins-Svt ...
我们介绍了CausalVQA,这是一个用于视频问题回答的基准数据集(VQA),该数据集由问答对组成,该数据探测了对物理世界中因果关系的理解。现有的VQA基准倾向于集中于对现实世界视频的表面知觉理解,或者使用模拟环境创建的狭窄物理推理问题。 CausalVQA通过提出基于现实世界情景的挑战性问题来填补一个重要的空白,同时着重于模型通过五种问题类型预测不同行动和事件的可能结果的能力:反事实,假设,预期 ...
Global Channel修剪(GCP)旨在从深层模型中删除不同层的频道(过滤器)的子集(过滤器),而不会伤害性能。以前的作品着重于单个任务模型修剪或简单地将其改编为多任务场景,并且在处理多任务处理时仍然面临以下问题:1)由于任务不匹配,分类任务的良好型主链侧链着重保留过滤器,该任务侧重于保存滤波器,可以提取类别的信息,可在其他任务中提取过滤镜,以使其他任务有用。 2)对于多任务预测,层之间或之 ...
本文将经常性扩展(RE)作为一种新的学习范式介绍,超越了传统的机器学习(ML)和深度学习(DL)。尽管DL专注于从静态数据表示中学习,但RE提出了一个额外的维度:从模型本身不断发展的行为中学习。 RE通过相同的深度体系结构强调了数据的多次映射,并分析了它们的内部表示(i ...
对知识库(KB-QA)回答的问题在处理需要分解为子问题的复杂问题时提出了挑战。在此处解决的一个重要情况是时间问题,需要发现和处理时间关系的线索。我们提出了龙舌兰酒,这是一种可以在任何KB-QA发动机顶部运行的时间质量质量质量质量质量质量标准的方法 ...