我们演示了一种计算分子振动能级的方法,该方法将分子哈密顿量的离散变量表示(DVR)与变分量子本征解算器(VQE)以及最佳量子门序列的贪婪搜索相结合。我们证明了 DVR 哈密顿量的结构将量子测量复杂度从指数级降低到多项式级,从而无需二次量化即可实现高效的 VQE。然后,我们证明 DVR 哈密顿量还可以产生非常有效的量子模拟,用于通过量子计算机的状态表示分子的旋转振动状态 ...
大型语言模型 (LLM) 能够处理文本、语音、图像和视频等多模式输入和输出,正在改变我们处理信息的方式。除了生成对提示的文本响应之外,它们还可以与不同的软件平台集成,以提供跨不同应用程序的全面解决方案。在本文中,我们介绍了 ChatSUMO,这是一种基于 LLM 的代理,它集成了语言处理技能,可在广泛使用的交通模拟器 - 城市移动模拟 (SUMO) 中生成抽象和真实世界的模拟场景 ...
随着自动驾驶系统(ADS)的复杂性不断增加,确保其安全性和可靠性已成为一项严峻的挑战。当采用人工智能组件来实现感知和/或控制功能时,这些系统的验证和确认(V&V)要求特别高。在 ESA 资助的项目 VIVAS 中,我们开发了一个用于基于系统级仿真的自主系统 V&V 的通用框架 ...
鉴于自动驾驶环境的动态特性和严格的安全要求,单独使用通用 MLLM 与 CLIP 相结合通常很难准确地表示特定的驾驶场景,特别是在复杂的交互和长尾情况下。为了解决这个问题,我们提出了提示提示(HoP)框架,该框架引入了三个关键增强功能:通过加强 Token 明智的连接来强调实例级结构的亲和提示,合并与特定驾驶案例相关的高级信息的语义提示,例如车辆和交通标志之间的复杂交互,以及将视觉特征与查询上下文对齐的问题提示,重点关注与问题相关的区域。这些提示通过 Hint Fusion 模块融合,丰富了视觉表示并增强了自动驾驶 VQA 任务的多模态推理 ...
评估自动驾驶中感知模块的性能是开发复杂智能系统中最关键的任务之一。虽然传统计算机视觉任务采用的模块级单元测试指标在某种程度上是可行的,但以一致和整体的方式衡量感知噪声对自动驾驶汽车驾驶质量的影响的探索还远远不够。在这项工作中,我们提出了一个原则性框架,该框架提供了对感知模块中的错误对实际控制车辆的自主代理规划的影响的连贯和系统的理解 ...
最近的视觉语言(VL)研究通过使用 Transformer 模型从大量图像文本对中学习通用表示,然后对下游 VL 任务进行微调,取得了显着的进展。虽然现有的研究重点是通过大型预训练模型实现高精度,但构建轻量级模型在实践中具有很大价值,但探索较少。在本文中,我们提出了一种更小、更快的 VL 模型 MiniVLM,它可以像其较大的对应任务一样在各种下游任务上进行微调,并具有良好的性能 ...
感知周围环境在人类空间感知中起着至关重要的作用,因为它从观察中提取物体的空间配置以及自由空间。为了促进机器人通过这种周围感知能力进行感知,我们引入了一种称为跨视图语义分割的新颖视觉任务以及一个名为视图解析网络(VPN)的框架来解决它。在跨视图语义分割任务中,代理被训练将第一视图观察结果解析为自上而下的视图语义图,指示像素级所有对象的空间位置 ...
最近,视觉识别是通过对人类注释的图像标签数据进行监督学习或通过网络爬行的图像文本对进行语言图像对比学习来学习的。虽然监督学习可能会产生更具辨别力的表示,但语言图像预训练显示出前所未有的零样本识别能力,这很大程度上是由于数据源和学习目标的不同属性。在这项工作中,我们通过将两个数据源组合到一个公共的图像-文本-标签空间中,引入了一种新的公式 ...
近年来,文本到图像的生成因其在各个行业的广泛和多样化的应用而引起了研究人员和从业者的极大兴趣。尽管视觉和语言研究领域取得了进展,但现有文献仍然相对有限,特别是在该领域的进展和应用方面。本文探讨了多模式应用中的相关研究轨迹,包括文本、视觉、音频等 ...
许多领域都可以从大型语言模型(LLM)的快速发展中受益。随着 LLM 支持越来越多的模式,端到端自动驾驶(e2eAD)是面临新机遇的典型领域之一。在这里,通过利用视觉语言模型(VLM),我们提出了一种称为 SimpleLLM4AD 的 e2eAD 方法 ...