我们提出了 MM-AU,一个用于多模态事故视频理解的新颖数据集。 MM-AU 包含 11,727 个野外自我视图事故视频,每个视频都具有时间对齐的文本描述。我们注释了超过 223 万个对象框和 58,650 对基于视频的事故原因,涵盖 58 个事故类别。 MM-AU 支持各种事故理解任务,特别是多模态视频扩散,以了解事故因果链以实现安全驾驶。通过 MM-AU,我们提出了用于安全驾驶感知的绑架事故视频理解框架 (AdVersa-SD)。 AdVersa-SD 通过以对象为中心的视频扩散 (OAVD) 方法执行视频扩散,该方法由溯因 CLIP 模型驱动。该模型涉及对比交互损失,以学习正常、接近事故、事故框架与相应文本描述的配对共现,例如事故原因、预防建议和事故类别。 OAVD在视频生成中固定原始帧背景内容的同时强制进行因果区域学习,以找到某些事故的主导因果链。大量实验验证了 AdVersa-SD 的溯因能力以及 OAVD 相对于最先进的扩散模型的优越性。此外,由于 AdVersa-SD 依赖于精确的物体和事故原因信息,我们还为物体检测和事故原因解答提供仔细的基准评估 ...
交通事故给自动驾驶带来了复杂的挑战,通常具有不可预测的场景,阻碍了系统的准确解释和响应。然而,由于缺乏针对事故场景的训练数据,现有的方法在阐明事故原因和提出预防措施方面存在不足。在这项工作中,我们介绍了 AVD2(事故视频描述的事故视频扩散),这是一种新颖的框架,通过生成与详细的自然语言描述和推理相一致的事故视频来增强事故场景的理解,从而形成贡献的 EMM-AU(增强型多模态事故视频理解)数据集。实证结果表明,EMM-AU 数据集的集成在自动化指标和人工评估方面建立了最先进的性能,显着推进了事故分析和预防领域。项目资源可在此 https URL 获取 ...
近年来,视频扩散技术取得了显着进步;然而,由于大多数驾驶数据集中缺乏事故事件,他们很难生成真实的车祸图像。提高交通安全需要真实且可控的事故模拟。为了解决这个问题,我们提出了 Ctrl-Crash,一种可控的车祸视频生成模型,它以边界框、碰撞类型和初始图像帧等信号为条件。我们的方法可以生成反事实场景,其中输入的微小变化可能会导致截然不同的崩溃结果。为了支持推理时的细粒度控制,我们利用无分类器指导,为每个调节信号提供独立可调的尺度。与之前基于扩散的方法相比,Ctrl-Crash 在定量视频质量指标(例如 FVD 和 JEDi)和基于物理真实感和视频质量的人工评估的定性测量方面实现了最先进的性能 ...
大型视觉语言模型 (LVLM) 具有显着先进的图像理解能力。它们的理解和推理能力在自动驾驶场景中具有广阔的应用前景。然而,现有的研究通常集中在前视图和场景内的部分物体,难以实现全面的场景理解。同时,现有的LVLM缺乏2D和3D之间的映射关系,以及3D对象定位和指令理解的集成不足。为了解决这些限制,我们首先引入 NuInteract,这是一个大型数据集,拥有超过 150 万个多视图图像语言对,涵盖密集的场景标题和多样化的交互任务。此外,我们提出了 DriveMonkey,这是一个简单而有效的框架,它使用一系列可学习的查询将 LVLM 与空间处理器无缝集成。空间处理器被设计为即插即用组件,可以使用预先训练的 3D 检测器进行初始化,以改善 3D 感知。我们的实验表明,DriveMonkey 的性能优于一般的 LVLM,特别是在 3D 视觉基础任务上实现了 9.86% 的显着改进。数据集和代码将在此 https URL 发布 ...
深度学习在许多领域取得了显着的成功,包括计算机视觉、自然语言处理和强化学习。这些领域的代表性人工神经网络包括形态神经网络、变形金刚和深度Q网络。基于单模态神经网络,引入了许多多模态模型来解决一系列任务,例如视觉问答、图像字幕和语音识别...... ...
视觉语言动作(VLA)模型将大型视力语言骨架适应图像和说明对机器人动作的映射。但是,盛行的VLA解码器要么以固定的从左到右顺序产生自动策略,要么附加连续扩散或持续的扩散或流动匹配的头部在主干外部,要求进行专门的训练和迭代抽样,从而阻碍统一的可扩展体系结构。我们提出了离散的扩散VLA,这是一种单转化的策略,该策略将离散扩散的动作块分散化,并以与VLM骨架相同的跨渗透目标进行训练 ...
视觉语言动作(VLA)模型的出现标志着从传统的基于策略的控制到广义机器人技术的范式转变,将视觉语言模型(VLM)从被动序列生成器重新构建为在复杂动态环境中进行操纵和决策的主动代理。这项调查深入研究了先进的 VLA 方法,旨在提供清晰的分类法并对现有研究进行系统、全面的回顾。它对不同场景下的 VLA 应用进行了全面分析,并将 VLA 方法分为几种范式:基于自回归、基于扩散、基于强化、混合和专门方法;同时详细检查他们的动机、核心战略和实施情况。此外,还介绍了基础数据集、基准测试和模拟平台。在当前 VLA 格局的基础上,该综述进一步提出了对关键挑战和未来方向的看法,以推进 VLA 模型和通用机器人技术的研究。通过综合最近三百多项研究的见解,本次调查描绘了这个快速发展的领域的轮廓,并强调了将塑造可扩展的通用 VLA 方法的发展的机遇和挑战 ...
大型基础模型已经对视觉和语言中的复杂问题表现出了强大的开放世界泛化能力,但机器人技术尚未达到类似的泛化水平。一个根本挑战是模型表现出有限的零样本能力,这阻碍了它们有效推广到未见过的场景的能力。在这项工作中,我们提出了 GeneralVLA(具有知识引导轨迹规划的通用视觉语言动作模型),这是一种分层视觉语言动作(VLA)模型,可以更有效地利用基础模型的泛化,实现零样本操作并自动生成机器人数据。特别是,我们研究了一类分层 VLA 模型,其中高级 ASM(可供性分割模块)经过微调以感知场景的图像关键点可供性;中级 3DAgent 执行任务理解、技能知识和轨迹规划,以生成指示所需机器人末端执行器轨迹的 3D 路径。然后,中间 3D 路径预测将作为能够精确操纵的低级 3D 感知控制策略的指导。与其他方法相比,我们的方法不需要现实世界的机器人数据收集或人工演示,这使得它更适合不同的任务和观点。根据经验,GeneralVLA 成功生成了 14 项任务的轨迹,明显优于 VoxPoser 等最先进的方法。与使用人类演示或通过 VoxPoser、Scaling-up 和 Code-As-Policies 生成的数据进行训练相比,生成的演示可以训练更强大的行为克隆策略。我们相信 GeneralVLA 可以成为一种可扩展的方法,既可以为机器人生成数据,也可以在零样本环境中解决新任务。代码:此 https URL。网站:此 https URL ...
近年来,汽车制造商和科技公司一直在竞相开发自动驾驶汽车。看来这场比赛的主要参数是谁将拥有第一辆上路的汽车。本文的目标是在方程中添加两个额外的关键参数。第一个是安全保障的标准化——每辆自动驾驶汽车必须满足的最低要求是什么,我们如何验证这些要求。第二个参数是可扩展性——导致成本释放的工程解决方案将无法扩展到数百万辆汽车,这会将这一领域的兴趣推向一个利基的学术角落,并推动整个领域进入“自动驾驶的冬天”。在本文的第一部分中,我们提出了一种用于安全保证的白盒、可解释的数学模型,我们将其称为责任敏感安全(RSS)。在第二部分中,我们描述了一个符合我们的安全保证要求并且可扩展到数百万辆汽车的系统设计 ...
大型语言模型(LLM)的快速发展导致开源社区和行业之间存在巨大的知识差距,这主要是因为后者依赖闭源的高质量数据和培训方法。为了解决这个问题,我们引入了 PCMind-2.1-Kaiyuan-2B,这是一个完全开源的 20 亿参数模型,专注于提高资源限制下的训练效率和效果。我们的方法包括三项关键创新:分位数数据基准方法,用于系统地比较异构开源数据集并提供有关数据混合策略的见解;多阶段范式内的战略选择性重复方案,以有效利用稀疏的高质量数据;以及按质量订购样本的多领域课程培训政策。在高度优化的数据预处理流程和针对 FP16 稳定性的架构修改的支持下,Kaiyuan-2B 实现了与最先进的完全开源模型竞争的性能,展示了针对资源有限的预训练的实用且可扩展的解决方案。我们在 Apache 2.0 许可证下在此 https URL 发布所有资产(包括模型权重、数据和代码) ...