深度神经感知和控制网络已成为自动驾驶汽车的关键组成部分。用户接受可能会受益于易于解释的文本解释,这些解释允许最终用户理解是什么触发了特定行为。解释可以由神经控制器触发,即内省解释,或者由神经控制器的输出通知,即合理化。我们提出了一种新的内省解释方法,该方法由两部分组成。首先,我们使用视觉(空间)注意力模型来训练从图像到车辆控制命令(即加速和改变航向)的端到端卷积网络。控制器的注意力识别可能影响网络输出的图像区域。其次,我们使用基于注意力的视频到文本模型来生成模型动作的文本解释。控制器和解释模型的注意力图是对齐的,以便解释基于对控制器重要的场景部分。我们探索了两种注意力对齐方法:强对齐和弱对齐。最后,我们探索了一个可以产生合理化的模型版本,并与相同视频片段的内省解释进行比较。我们在具有真实人类解释的新颖驾驶数据集(Berkeley DeepDrive eXplanation (BDD-X) 数据集)上评估这些模型。代码可从此 https URL 获取 ...
由于破损、褪色和严重模糊等复合退化,老照片面部修复面临重大挑战。现有的预先训练的扩散引导方法要么依赖于显式的退化先验,要么依赖于全局统计指导,这与局部伪影或面部颜色作斗争。我们提出自监督选择性引导扩散(SSDiff),它利用弱引导下预训练扩散模型生成的伪参考面。这些伪标签表现出结构一致的轮廓和自然颜色,通过分阶段监督实现特定区域的恢复:在整个去噪过程中应用结构指导,并在后续步骤中进行颜色细化,与扩散的从粗到细的性质保持一致。通过结合人脸解析图和划痕掩模,我们的方法有选择地恢复破损区域,同时避免身份不匹配。我们进一步构建了 VintageFace,一个包含不同退化级别的真实老脸照片的 300 张图像基准。 SSDiff 在感知质量、保真度和区域可控性方面优于现有的基于 GAN 和基于扩散的方法。代码链接:这个https URL ...
贝叶斯深度神经网络 (DNN) 可以提供一个数学基础框架来量化图像字幕模型预测的不确定性。我们提出了一种基于策略梯度的贝叶斯变体,用于图像字幕模型的强化学习训练技术,以直接优化不可微的图像字幕质量指标,例如 CIDEr-D。我们通过结合贝叶斯推理,扩展了著名的图像字幕模型自我批判序列训练 (SCST) 方法,并将其称为 B-SCST。 B-SCST 中策略梯度的“基线”是通过对从使用贝叶斯 DNN 模型获得的分布中提取的标题的预测质量度量 (CIDEr-D) 进行平均来生成的。我们使用蒙特卡罗 (MC) dropout 近似变分推断来推断此预测分布。我们表明,与 SCST 方法相比,B-SCST 提高了 Flickr30k、MS COCO 和 VizWiz 图像字幕数据集上的 CIDEr-D 分数。我们还提供了对预测字幕的不确定性量化的研究,并证明它与 CIDEr-D 分数密切相关。据我们所知,这是第一次此类分析,它可以提高图像字幕模型输出的可解释性,这对于实际应用至关重要 ...
端到端自动驾驶在交通行业具有巨大潜力。然而,自动决策过程缺乏透明度和可解释性阻碍了其在实践中的工业采用。早期已经有一些尝试使用注意力图或成本量来获得更好的模型可解释性,但这对普通乘客来说很难理解。为了弥补这一差距,我们提出了一种基于端到端 Transformer 的架构 ADAPT(动作感知驾驶字幕 Transformer ),它为自主车辆控制和行动的每个决策步骤提供用户友好的自然语言叙述和推理。 ADAPT 通过共享视频表示联合训练驾驶字幕任务和车辆控制预测任务。 BDD-X(Berkeley DeepDrive eXplanation)数据集上的实验证明了 ADAPT 框架在自动指标和人工评估方面的最先进性能。为了说明所提出的框架在实际应用中的可行性,我们构建了一个新颖的可部署系统,该系统以原始汽车视频作为输入并实时输出动作叙述和推理。代码、模型和数据可从此 https URL 获取 ...
我们提出了 MM-AU,一个用于多模态事故视频理解的新颖数据集。 MM-AU 包含 11,727 个野外自我视图事故视频,每个视频都具有时间对齐的文本描述。我们注释了超过 223 万个对象框和 58,650 对基于视频的事故原因,涵盖 58 个事故类别。 MM-AU 支持各种事故理解任务,特别是多模态视频扩散,以了解事故因果链以实现安全驾驶。通过 MM-AU,我们提出了用于安全驾驶感知的绑架事故视频理解框架 (AdVersa-SD)。 AdVersa-SD 通过以对象为中心的视频扩散 (OAVD) 方法执行视频扩散,该方法由溯因 CLIP 模型驱动。该模型涉及对比交互损失,以学习正常、接近事故、事故框架与相应文本描述的配对共现,例如事故原因、预防建议和事故类别。 OAVD在视频生成中固定原始帧背景内容的同时强制进行因果区域学习,以找到某些事故的主导因果链。大量实验验证了 AdVersa-SD 的溯因能力以及 OAVD 相对于最先进的扩散模型的优越性。此外,由于 AdVersa-SD 依赖于精确的物体和事故原因信息,我们还为物体检测和事故原因解答提供仔细的基准评估 ...
交通事故给自动驾驶带来了复杂的挑战,通常具有不可预测的场景,阻碍了系统的准确解释和响应。然而,由于缺乏针对事故场景的训练数据,现有的方法在阐明事故原因和提出预防措施方面存在不足。在这项工作中,我们介绍了 AVD2(事故视频描述的事故视频扩散),这是一种新颖的框架,通过生成与详细的自然语言描述和推理相一致的事故视频来增强事故场景的理解,从而形成贡献的 EMM-AU(增强型多模态事故视频理解)数据集。实证结果表明,EMM-AU 数据集的集成在自动化指标和人工评估方面建立了最先进的性能,显着推进了事故分析和预防领域。项目资源可在此 https URL 获取 ...
近年来,视频扩散技术取得了显着进步;然而,由于大多数驾驶数据集中缺乏事故事件,他们很难生成真实的车祸图像。提高交通安全需要真实且可控的事故模拟。为了解决这个问题,我们提出了 Ctrl-Crash,一种可控的车祸视频生成模型,它以边界框、碰撞类型和初始图像帧等信号为条件。我们的方法可以生成反事实场景,其中输入的微小变化可能会导致截然不同的崩溃结果。为了支持推理时的细粒度控制,我们利用无分类器指导,为每个调节信号提供独立可调的尺度。与之前基于扩散的方法相比,Ctrl-Crash 在定量视频质量指标(例如 FVD 和 JEDi)和基于物理真实感和视频质量的人工评估的定性测量方面实现了最先进的性能 ...
大型视觉语言模型 (LVLM) 具有显着先进的图像理解能力。它们的理解和推理能力在自动驾驶场景中具有广阔的应用前景。然而,现有的研究通常集中在前视图和场景内的部分物体,难以实现全面的场景理解。同时,现有的LVLM缺乏2D和3D之间的映射关系,以及3D对象定位和指令理解的集成不足。为了解决这些限制,我们首先引入 NuInteract,这是一个大型数据集,拥有超过 150 万个多视图图像语言对,涵盖密集的场景标题和多样化的交互任务。此外,我们提出了 DriveMonkey,这是一个简单而有效的框架,它使用一系列可学习的查询将 LVLM 与空间处理器无缝集成。空间处理器被设计为即插即用组件,可以使用预先训练的 3D 检测器进行初始化,以改善 3D 感知。我们的实验表明,DriveMonkey 的性能优于一般的 LVLM,特别是在 3D 视觉基础任务上实现了 9.86% 的显着改进。数据集和代码将在此 https URL 发布 ...
深度学习在许多领域取得了显着的成功,包括计算机视觉、自然语言处理和强化学习。这些领域的代表性人工神经网络包括形态神经网络、变形金刚和深度Q网络。基于单模态神经网络,引入了许多多模态模型来解决一系列任务,例如视觉问答、图像字幕和语音识别...... ...
视觉语言动作(VLA)模型将大型视力语言骨架适应图像和说明对机器人动作的映射。但是,盛行的VLA解码器要么以固定的从左到右顺序产生自动策略,要么附加连续扩散或持续的扩散或流动匹配的头部在主干外部,要求进行专门的训练和迭代抽样,从而阻碍统一的可扩展体系结构。我们提出了离散的扩散VLA,这是一种单转化的策略,该策略将离散扩散的动作块分散化,并以与VLM骨架相同的跨渗透目标进行训练 ...