许多智力活动需要解决数学问题,但这种技能仍然超出了计算机的能力。为了衡量机器学习模型中的这种能力,我们引入了 MATH,这是一个包含 12,500 个具有挑战性的竞赛数学问题的新数据集。 MATH 中的每个问题都有完整的分步解决方案,可用于训练模型生成答案推导和解释。为了促进未来的研究并提高数学的准确性,我们还贡献了一个大型辅助预训练数据集,有助于教授模型数学基础知识。尽管我们能够提高 MATH 的准确性,但我们的结果表明,即使使用巨大的 Transformer 模型,准确性仍然相对较低。此外,我们发现,如果规模化趋势持续下去,仅仅增加预算和模型参数数量对于实现强大的数学推理来说是不切实际的。虽然缩放 Transformer 可以自动解决大多数其他基于文本的任务,但缩放目前并不能解决数学问题。为了在数学问题解决上获得更大的吸引力,我们可能需要更广泛的研究社区的新算法进步 ...
避免碰撞——包括快速检测威胁和快速执行适当的规避机动——是驾驶的一个重要方面。然而,现有的人类避碰行为模型是支离破碎的,侧重于特定场景或仅描述避碰行为的某些方面,例如响应时间。本文通过提出一种基于主动推理的人类避碰行为的新型计算认知模型来解决这些差距。主动推理提供了一种统一的方法来建模人类行为:自由能的最小化。基于之前的主动推理工作,我们的模型结合了现有的认知机制,例如证据积累,以模拟人类在两种不同的防撞场景中的反应:前后引导车辆制动和迎面而来的车辆横向入侵。我们证明我们的模型解释了先前关于人类避碰行为的大量经验发现。具体来说,该模型密切再现了先前文献中报道的荟萃分析的汇总结果,以及在最近的驾驶模拟器研究中观察到的详细的、特定场景的效果,包括响应时间、机动选择和执行。我们的结果凸显了主动推理作为理解和建模复杂现实驾驶任务中人类行为的统一框架的潜力 ...
轨迹预测是自动驾驶中的一项关键功能,可以预测车辆和行人等交通参与者的未来运动路径,这对于驾驶安全至关重要。尽管传统的深度学习方法提高了准确性,但它们仍然受到固有局限性的阻碍,包括缺乏可解释性、严重依赖大规模注释数据以及长尾场景中的泛化能力弱。大型基础模型(LFM)的兴起正在改变轨迹预测的研究范式。这项调查对 LFM 的最新进展进行了系统回顾,特别是用于轨迹预测的大型语言模型 (LLM) 和多模态大型语言模型 (MLLM)。通过集成语言和场景语义,LFM 促进可解释的上下文推理,显着增强复杂环境中的预测安全性和泛化性。本文重点介绍了三种核心方法:轨迹语言映射、多模态融合和基于约束的推理。它涵盖了车辆和行人的预测任务、评估指标和数据集分析。讨论了计算延迟、数据稀缺性和现实世界鲁棒性等关键挑战,以及包括低延迟推理、因果感知建模和运动基础模型在内的未来研究方向 ...
在本文中,使用机器学习算法预测复杂交通场景的概率时空表示。这种表示对于所有主动车辆安全应用都具有重要意义,特别是在复杂交通场景中执行动态操纵时。第一步,使用分层情况分类器来区分不同类型的交通场景。该分类器负责识别道路基础设施的类型以及驾驶环境中与安全相关的交通参与者。每个类别代表相似的交通场景,一组随机森林(RF)经过单独训练来预测概率时空表示,该表示描述了交通参与者的未来行为。这种表示被称为预测占用网格(POG)。 RF 的输入是增强占用网格 (AOG)。为了提高 RF 的学习准确性并执行更好的预测,使用堆叠去噪自动编码器 (SDA) 将 AOG 简化为低维特征。所提出的由 SDA 和 RF 组成的机器学习方法的优异性能在模拟和真实车辆的实验中得到了证明。还介绍了 POG 在估计交通场景的关键性和确定安全轨迹方面的应用 ...
自动驾驶汽车可以减少道路交通事故并提供更安全的交通方式。然而,在将这些车辆投放市场之前,需要解决关键的技术挑战,例如复杂城市环境中的安全导航。远程操作可以帮助平稳地从人工驾驶车辆过渡到全自动驾驶车辆,因为它仍然有人类参与,为驾驶员提供了后备范围。本文提出了一种用于远程操作驾驶的主动安全系统(ASS)方法。所提出的方法可以帮助操作员确保车辆在复杂环境中的安全,即避免与静态或动态障碍物发生碰撞。我们的 ASS 依靠模型预测控制 (MPC) 公式来控制车辆的横向和纵向动力学。通过利用 MPC 框架处理约束的能力,我们的 ASS 限制了控制器干预以横向校正人类操作员命令的权限,避免了人类操作员反直觉的驾驶体验。此外,我们设计了视觉反馈来增强操作员对 ASS 的信任。此外,我们提出了基于 MPC 预测范围数据的新型预测显示,以减轻远程操作系统中大延迟的影响。我们在存在动态障碍和延迟的情况下在高保真车辆模拟器上测试了所提出方法的性能 ...
本文介绍了一种支持人工智能、交互感知的主动安全分析框架,该框架可以解释分组车辆交互。具体来说,该框架采用自行车模型(考虑了道路坡度)来准确捕捉车辆动态。与此同时,开发了基于超图的人工智能模型来预测环境交通的概率轨迹。通过集成这两个组件,该框架将 3D 路面上的车辆内部间距作为随机常微分方程的解得出,从而产生高保真替代安全措施,例如碰撞时间 (TTC)。为了证明其有效性,使用包括四阶龙格-库塔积分和人工智能推理的随机数值方法对该框架进行了分析,生成反映复杂的多智能体操作和行为不确定性的概率加权高保真 TTC (HF-TTC) 分布。通过使用 HF-TTC 与传统的恒速 TTC 和高速公路数据集上的非交互感知方法进行评估,所提出的框架提供了一种用于主动安全分析的系统方法,具有增强复杂交通环境中改善安全感知的潜力 ...
近年来,以GPT-4V为代表的多模态大语言模型(MLLM)成为新的研究热点,它利用强大的大语言模型(LLM)作为大脑来执行多模态任务。 MLLM 令人惊讶的新兴功能,例如基于图像编写故事和无 OCR 的数学推理,在传统的多模态方法中很少见,这表明了通向通用人工智能的潜在途径。为此,学术界和工业界都在努力开发能够与GPT-4V竞争甚至更好的MLLM,以惊人的速度突破了研究的极限。在本文中,我们旨在追踪和总结 MLLM 的最新进展。首先,我们提出了 MLLM 的基本表述并描述了其相关概念,包括架构、训练策略和数据以及评估。然后,我们介绍有关如何扩展 MLLM 以支持更多粒度、模式、语言和场景的研究主题。我们继续研究多模态幻觉和扩展技术,包括多模态 ICL (M-ICL)、多模态 CoT (M-CoT) 和 LLM 辅助视觉推理 (LAVR)。最后,我们讨论了现有的挑战并指出了有前景的研究方向。鉴于MLLM时代才刚刚开始,我们将不断更新这项调查,希望它能激发更多的研究。此 https URL 提供了收集最新论文的关联 GitHub 链接 ...
我们提出了HaoMo视觉语言模型(HMVLM),这是一个端到端驱动框架,它实现了受认知启发的快慢架构的慢分支。快速控制器输出低级转向、油门和制动命令,而慢速规划器(大型视觉语言模型)生成高级意图,例如“让行人让行”或“在卡车后并道”,而不会影响延迟。 HMVLM 引入了三项升级:(1) 具有嵌入式 4s 自我运动学历史的选择性五视图提示,(2) 多阶段思想链 (CoT) 提示,强制执行场景理解 -> 驾驶决策 -> 轨迹推理推理流程,以及 (3) 基于样条的轨迹后处理,消除后期抖动和急转弯。这些升级在 Waymo 开放数据集上进行训练,使 HMVLM 的评分者反馈分数 (RFS) 达到 7.7367,在 2025 年基于 Waymo 视觉的端到端 (E2E) 驾驶挑战赛中获得第二名,超出公共基线 2.77% ...
视觉语言模型 (VLM) 擅长高级场景理解,但在需要精确定位的细粒度感知任务上表现不佳。这种失败源于根本性的不匹配,因为对于以语言为中心的架构来说,生成精确的数字坐标是一项具有挑战性的任务。在本文中,我们介绍了 VLM-FO1,这是一种新颖的框架,它通过将以对象为中心的感知从脆弱的坐标生成问题重新构建为鲁棒的特征检索任务来克服这一限制。我们的方法作为即插即用模块运行,可与任何预先训练的 VLM 集成。它利用具有双视觉编码器的混合细粒度区域编码器(HFRE)来生成富含语义和空间细节的强大区域标记。然后,基于标记的参考系统使 LLM 能够无缝推理这些特定视觉区域中的基础语言。实验表明,VLM-FO1 在各种基准测试中实现了最先进的性能,展示了在对象接地、区域生成理解和视觉区域推理方面的卓越能力。至关重要的是,我们的两阶段训练策略确保在不损害基础模型的一般视觉理解能力的情况下实现这些感知增益。 VLM-FO1 为构建感知感知 VLM 建立了有效且灵活的范例,弥合了高级推理和细粒度视觉基础之间的差距 ...
规划是端到端自动驾驶的关键组成部分。然而,流行的模仿学习方法经常遭受模式崩溃的困扰,无法产生多样化的轨迹假设。与此同时,现有的生成方法很难将关键的安全和物理约束直接纳入生成过程,因此需要额外的优化阶段来完善其输出。为了解决这些限制,我们提出了 CATG,这是一种利用约束流匹配的新颖规划框架。具体来说,CATG 明确地模拟了流量匹配过程,这本质上减轻了模式崩溃,并允许来自各种调节信号的灵活指导。我们的主要贡献是直接在流量匹配过程中直接施加显式约束,确保生成的轨迹遵守重要的安全和运动学规则。其次,CATG 在生成过程中将驾驶攻击性参数化为控制信号,从而能够精确操纵轨迹风格。值得注意的是,在 NavSim v2 挑战赛中,CATG 以 EPDMS 得分 51.31 获得第二名,并荣获创新奖 ...