最近,城市场景的一代一直在迅速发展。但是,现有方法主要集中于生成静态和单帧场景,忽略了现实世界驾驶环境的固有动态性质。在这项工作中,我们引入了DynamicCity,这是一个新颖的4D占用生成框架,能够通过语义生成大规模的高质量动态4D场景 ...
我们介绍了Complextempqa,这是一个大规模数据集,该数据集由超过1亿个问题解答对组成,旨在应对时间问题回答中的挑战。 complextempqa在规模和范围上显着超过了HotPotQA,Torque和Tequila等现有基准。利用Wikipedia和Wikidata的数据,数据集涵盖了跨越二十年的问题,并提供了无与伦比的主题 ...
虽然经过思考链(COT)推理改善了复杂任务中大语言模型(LLMS)的性能,但它仍然面临两个主要挑战:仅依靠LLMS来产生推理链和自然语言推理链对LLMS推理逻辑的干扰的可靠性低。为了解决这些问题,我们提出了COT-rag,这是一个具有三个关键设计的新颖推理框架:(i)知识图形驱动的COT生成,具有知识图以调节LLM的推理链生成,从而增强了推理信誉; (ii)可学习的知识案例感知的抹布,将检索功能的 ...
对比性语言图像预训练(剪辑)在各种任务中都取得了出色的表现。但是,剪辑的有效性在很大程度上取决于大量的预训练数据,从而导致了显着消耗计算资源。尽管知识蒸馏已被广泛应用于单一模态模型,但如何有效地将知识蒸馏扩展到具有广泛数据的视觉基础模型中 ...
我们提出了一种将视觉生成模型(无论是图像和视频生成)与人类偏好相结合的一般策略。首先,我们构建了VisionReward,这是一种精细的和多维的奖励模型。我们将图像和视频中的人类偏好分解为多个维度,每个维度都由一系列判断问题表示,并将加权加权并求和到可解释和准确的分数 ...
程序活动中的错误检测对于AR辅助和机器人系统的一致和正确结果至关重要。现有方法通常集中于时间排序错误或依靠静态原型来表示正常动作。但是,这些方法通常会忽略常见方案,在这种情况下,按照给定的执行操作序列,多个不同的动作是有效的 ...
视频中的交通事件认知和推理是一项重要的任务,在智能运输,辅助驾驶和自动驾驶汽车中具有广泛的应用。在本文中,我们创建了一个新颖的数据集Sutd-Trafficqa(交通问题答案),该数据集根据收集到的10,080个野外视频和注释的62,535 QA对采取视频质量检查的形式,用于基于为复杂的交通量表中的Causal Tecnerction和事件理解模型的认知能力,以实现复杂交通模型的认知能力。具体来说 ...
在大型视觉模型(VLM)中,迅速学习已成为一种有效且具有数据效率的技术。但是,当将VLM适应专用域(例如遥感和医学成像)时,域及时学习仍然没有被忽略。尽管大规模领域特定的基础模型可以帮助应对这一挑战,但它们的专注于单一视觉水平,使敏捷的视觉和语言方式都具有挑战性 ...