算法以自动回答视觉问题的算法是由人工VQA设置中构建的视觉问题回答(VQA)数据集的动机。我们提出了Vizwiz,这是第一个面向目标的VQA数据集,该数据集是由自然VQA设置产生的。 Vizwiz由31,000多个视觉问题组成,这些问题来自盲人,他们每个人都使用手机拍照,并记录了有关此问题的口语问题,每个视觉问题也有10个众包答案 ...
随着城市运输的迅速增长和自动驾驶的持续进展,出现了强大的基准测试的需求,以自动驾驶算法的强大基准,呼吁准确地建模大规模的城市交通情况,并具有不同的车辆驾驶方式。传统的交通模拟器,例如相扑器,通常取决于手工制作的场景和基于规则的模型,在这种情况下,车辆的操作仅限于速度调整和车道更改,因此很难创建现实的交通环境。近年来,与自动驾驶方面的进步一起开发了现实世界的流量方案数据集,从而促进了数据驱动的模拟器 ...
典型的动态ST数据包括轨迹数据(代表个人级别的移动性)和交通状态数据(代表人口级的移动性)。传统研究通常将轨迹和交通状态数据视为独立的独立方式,每个模式都针对单个模式中的特定任务量身定制。但是,实际应用程序(例如导航应用程序)需要对轨迹和交通状态数据进行联合分析 ...
基础模型彻底改变了人工智能,为性能树立了新的基准,并在各种视野和语言任务中启用了变革能力。然而,尽管关键领域(例如运输,公共卫生和环境监测)中时空数据的普遍性,但时空基础模型(STFM)尚未取得可比的成功。在本文中,我们阐明了对STFM的未来的愿景,概述了它们的基本特征和广泛适用性所需的概括能力 ...
基于决策者的决策代理已经表明了跨多个任务概括的能力。但是,它们的性能依赖于大量数据和计算。我们认为这种低效率源于遗忘现象,在这种现象中,模型在整个训练中都记住了其在参数中的行为 ...
多模式的大型语言模型(MLLM)由于能够理解多模式输入的能力而引起了广泛的关注。但是,它们的较大参数大小和大量的计算要求严重阻碍了其实际部署,而此HTTP URL量化是减少模型大小和推理潜伏期的有效方法,其在MLLMS上的应用仍未得到充分驱动。在本文中,我们提出了Mquant,这是一种训练后量化(PTQ)框架,旨在应对多模式大型语言模型(MLLM)的独特挑战 ...
大型多模型模型的最新进展导致了数字领域中出色的通才能力的出现,但是它们将其转化为机器人等物理代理仍然是一个重大挑战。该报告介绍了一个新的AI模型系列,该模型有目的地设计用于机器人技术,并建立在Gemini 2.0的基础上 ...
对齐大语言模型(LLM)通常旨在反映人类的总体价值和行为,但通常无法捕获单个用户的独特特征和偏好。为了解决这一差距,我们介绍了人格一致性的概念。这种方法量身定制了LLMS的回答和决策,以匹配单个用户或密切相关的组的特定偏好 ...