chenlei的文档

DADA-2000: Can Driving Accident be Predicted by Driver Attention? Analyzed by A Benchmark

驾驶员注意力预测目前正成为安全驾驶研究界的焦点，例如 DR(eye)VE 项目和新出现的关键情况下的 Berkeley DeepDrive Attention (BDD-A) 数据库。在安全驾驶中，一项重要任务是尽早预测即将发生的事故。由于这种场景很少见，BDD-A 意识到了这个问题，并在实验室中吸引了驾驶员的注意力。然而，BDD-A关注的是没有遇到实际事故的危急情况，只面临驾驶员注意力预测任务，没有对事故预测进行密切的一步。与此相反，我们探索驾驶员眼睛的视角来捕捉多种事故，并构建了一个比以往更加多样化和更大的视频基准，同时包含驾驶员注意力和驾驶事故注释（命名为DADA-2000），其中包含2000个视频片段，约658,476帧，涉及54种事故。这些剪辑是众包的，是在各种场合（高速公路、城市、乡村和隧道）、天气（晴天、雨天和雪天）和光线条件（白天和夜间）下拍摄的。对于驾驶员注意力表示，我们收集注视点、扫视扫描路径和聚焦时间的图。事故按其类别、剪辑中的事故窗口以及碰撞物体的空间位置进行注释。基于分析，我们对本文的问题得出了定量的、肯定的答案 ...

0 0 0 0 2026/01/12 arXiv:1904.12634v1 chenlei

DADA: Driver Attention Prediction in Driving Accident Scenarios

驾驶员注意力预测正在成为类人驾驶系统中的一个重要研究问题。这项工作尝试预测驾驶事故场景（DADA）中驾驶员的注意力。然而，由于动态的交通场景、复杂且不平衡的事故类别，挑战也随之而来。在这项工作中，我们设计了一个语义上下文诱导的注意力融合网络（SCAFNet）。我们首先将RGB视频帧分割成具有不同语义区域的图像（即语义图像），其中每个区域表示场景的一种语义类别（例如道路、树木等），并同时学习两条并行路径中的RGB帧和语义图像的时空特征。然后，通过注意力融合网络融合学习到的特征，以找到驾驶员注意力预测中语义引起的场景变化。贡献是三倍。 1）对于语义图像，我们引入了它们的语义上下文特征，并验证了对帮助驾驶员注意力预测的明显促进效果，其中语义上下文特征是通过语义图像上的图卷积网络（GCN）建模的； 2）我们以注意力策略融合语义图像的语义上下文特征和RGB帧的特征，并通过卷积LSTM模块将融合的细节转移到帧上，以获得每个视频帧的注意力图，同时考虑驾驶情况下的历史场景变化； 3）所提出方法的优越性是在我们之前收集的数据集（名为 DADA-2000）和其他两个具有最先进方法的具有挑战性的数据集上进行评估的。 DADA-2000 可从此 https URL 获取 ...

0 0 0 0 2026/01/12 arXiv:1912.12148v2 chenlei

Real-time Accident Anticipation for Autonomous Driving Through Monocular Depth-Enhanced 3D Modeling

交通事故预测的主要目标是利用行车记录仪视频实时预测潜在的事故，这一任务对于提高自动驾驶技术的安全性和可靠性至关重要。在这项研究中，我们引入了一个创新框架 AccNet，它通过结合复杂的 3D 场景建模的单目深度线索，显着提高了预测能力，超越了当前最先进的 (SOTA) 基于 2D 的方法。为了解决交通事故数据集中数据分布不均的普遍挑战，我们提出了早期预测的二元自适应损失（BA-LEA）。这种新颖的损失函数与多任务学习策略一起，将预测模型的焦点转移到事故发生前的关键时刻。 {我们在三个基准数据集（行车记录仪事故数据集 (DAD)、车祸数据集 (CCD)、AnAn 事故检测 (A3D) 和 DADA-2000 数据集）上严格评估了我们的框架的性能，并通过平均精度 (AP) 和平均事故时间 (mTTA) 等关键指标展示了其卓越的预测准确性 ...

0 0 0 0 2026/01/12 arXiv:2409.01256v1 chenlei

LATTE: Lightweight Attention-based Traffic Accident Anticipation Engine

实时准确预测交通事故是自动驾驶的一项关键挑战，特别是在资源有限的环境中。现有的解决方案通常面临较高的计算开销或无法充分解决不断变化的交通场景的不确定性。本文介绍了 LATTE，一种基于注意力的轻量级交通事故预测引擎，它将计算效率与最先进的性能相结合。 LATTE 采用高效多尺度空间聚合 (EMSA) 来捕获跨尺度的空间特征，使用记忆注意力聚合 (MAA) 来增强时间建模，并使用辅助自注意力聚合 (AAA) 来提取扩展序列上的潜在依赖关系。此外，LATTE 还采用了 Flamingo 警报辅助系统 (FAA)，利用视觉语言模型提供实时、可认知的口头危险警报，从而提高乘客的态势感知能力。对基准数据集（DAD、CCD、A3D）的评估证明了 LATTE 卓越的预测能力和计算效率。 LATTE 在 DAD 基准上实现了最先进的 89.74% 平均精度 (AP)，平均事故时间 (mTTA) 比第二好的模型高 5.4%，并在召回率 80% (TTA@R80) (4.04 秒) 时保持有竞争力的 mTTA，同时在不同的驾驶条件下展示了强大的事故预测能力。其轻量级设计使浮点运算 (FLOP) 减少 93.14%，参数计数 (Params) 减少 31.58%，从而能够在资源有限的硬件上进行实时操作，而不会影响性能。消融研究证实了 LATTE 架构组件的有效性，而可视化和故障案例分析则强调了其实际适用性和需要增强的领域 ...

0 0 0 0 2026/01/12 arXiv:2504.04103v2 chenlei

World Model-Based End-to-End Scene Generation for Accident Anticipation in Autonomous Driving

可靠的交通事故预测对于推进自动驾驶系统至关重要。然而，这一目标受到两个基本挑战的限制：缺乏多样化、高质量的训练数据，以及由于环境破坏或传感器缺陷而经常缺乏关键的对象级线索。为了解决这些问题，我们提出了一个将生成场景增强与自适应时间推理相结合的综合框架。具体来说，我们开发了一个视频生成管道，利用由领域通知提示引导的世界模型来创建高分辨率、统计上一致的驾驶场景，特别是丰富了边缘情况和复杂交互的覆盖范围。同时，我们构建了一个动态预测模型，通过强化图卷积和扩张时间算子对时空关系进行编码，有效解决数据不完整性和瞬态视觉噪声问题。此外，我们发布了一个新的基准数据集，旨在更好地捕获各种现实世界的驾驶风险。对公共和新发布的数据集进行的大量实验证实，我们的框架提高了事故预测的准确性和提前时间，为安全关键型自动驾驶应用中的当前数据和建模限制提供了强大的解决方案 ...

0 0 0 0 2026/01/09 arXiv:2507.12762v1 chenlei

Car-STAGE: Automated framework for large-scale high-dimensional simulated time-series data generation based on user-defined criteria

Generating large-scale sensing datasets through photo-realistic simulation is an important aspect of many robotics applications such as autonomous driving. In this paper, we consider the problem of synchronous data collection from the open-source CARLA simulator using multiple sensors attached to vehicle based on user-defined criteria. We propose a novel, one-step framework that we refer to as Car-STAGE, based on CARLA simulator, to generate data using a graphical user interface (GUI) defining configuration parameters to data collection without any user intervention. This framework can utilize the user-defined configuration parameters such as choice of maps, number and configurations of sensors, environmental and lighting conditions etc. to run the simulation in the background, collecting high-dimensional sensor data from diverse sensors such as RGB Camera, LiDAR, Radar, Depth Camera, IMU Sensor, GNSS Sensor, Semantic Segmentation Camera, Instance Segmentation Camera, and Optical Flow Camera along with the ground-truths of the individual actors and storing the sensor data as well as ground-truth labels在本地或基于云的数据库中。 The framework uses multiple threads where a main thread runs the server, a worker thread deals with queue and frame number and the rest of the threads processes the sensor data. The other way we derive speed up over the native implementation is by memory mapping the raw binary data into the disk and then converting the data into known formats at the end of data collection. We show that using these techniques, we gain a significant speed up over frames, under an increasing set of sensors and over the number of spawned objects. ...

0 0 0 0 2026/01/08 arXiv:2503.03100v1 chenlei

AccidentGPT: Accident Analysis and Prevention from V2X Environmental Perception with Multi-modal Large Model

交通事故是造成人员伤亡和财产损失的重要原因，长期以来一直是交通安全领域众多学者研究的热点。然而，以往的研究，无论是静态环境评估还是动态驾驶分析，以及事故前预测或事故后规则分析，通常都是孤立进行的。缺乏有效的框架来全面理解和应用交通安全。为了解决这一差距，本文引入了 AccidentGPT，一种综合事故分析和预防的多模态大型模型。 AccidentGPT建立了基于多传感器感知的多模态信息交互框架，从而实现了交通安全领域事故分析和预防的整体方法。具体来说，我们的能力可以分为以下几类：对于自动驾驶车辆，我们提供全面的环境感知和理解来控制车辆并避免碰撞。对于人类驾驶车辆，我们提供主动的远程安全预警和盲点警报，同时通过人机对话和交互提供安全驾驶建议和行为规范。此外，对于交警和管理机构来说，我们的框架通过多车辆和道路测试设备的协作感知，支持对交通安全进行智能实时分析，包括行人、车辆、道路和环境。该系统还能够对车辆碰撞后的事故原因和责任进行全面分析。我们的框架是第一个将全面场景理解融入交通安全研究的大型模型。项目页面：此 https URL ...

0 0 0 0 2026/01/07 arXiv:2312.13156v3 chenlei

Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

物理AI系统需要在物理世界中感知，理解和执行复杂的动作。在本文中，我们介绍了Cosmos-Reason1模型，这些模型可以理解物理世界并产生适当的具体决定（例如 ...

0 0 0 0 2026/01/07 arXiv:2503.15558v3 chenlei

YOLOA: Real-Time Affordance Detection via LLM Adapter

可供性检测旨在通过理解对象是什么、对象位于“何处”以及如何使用它来共同解决嵌入式人工智能中基本的“什么、在哪里、如何”挑战。然而，大多数可供性学习方法仅关注对象“如何”使用，而忽略了“什么”和“在哪里”方面。其他可供性检测方法将对象检测和可供性学习视为两个独立的任务，缺乏有效的交互和实时能力。为了克服这些限制，我们引入了 YOLO Affordance (YOLOA)，这是一种实时可供性检测模型，它通过大型语言模型 (LLM) 适配器联合处理这两个任务。具体来说，YOLOA 采用了一个轻量级检测器，由通过 LLM 适配器细化的对象检测和可供性学习分支组成。在训练期间，LLM 适配器与对象和可供性初步预测进行交互，通过生成更准确的类先验、框偏移和可供性门来细化两个分支。在我们重新标记的 ADG-Det 和 IIT-Heat 基准测试上进行的实验表明，YOLOA 实现了最先进的精度（ADG-Det / IIT-Heat 上的 mAP 为 52.8 / 73.1），同时保持了实时性能（高达 89.77 FPS，轻量级版本高达 846.24 FPS）。这表明YOLOA在准确性和效率之间实现了很好的权衡 ...

0 0 0 0 2025/12/31 arXiv:2512.03418v1 chenlei

Vision Transformers for Dense Prediction

我们引入了密集视觉变换器，这是一种利用视觉变换器代替卷积网络作为密集预测任务骨干的架构。我们将视觉转换器各个阶段的标记组装成各种分辨率的类似图像的表示，并使用卷积解码器逐步将它们组合成全分辨率预测。 Transformer 主干以恒定且相对较高的分辨率处理表示，并且在每个阶段都具有全局感受野。与全卷积网络相比，这些属性使密集视觉变换器能够提供更细粒度和更全局一致的预测。我们的实验表明，这种架构对密集预测任务产生了显着的改进，特别是当有大量训练数据可用时。对于单目深度估计，我们观察到与最先进的全卷积网络相比，相对性能提高了高达 28%。当应用于语义分割时，密集视觉变换器在 ADE20K 上以 49.02% mIoU 创下了新的技术水平。我们进一步表明，该架构可以在较小的数据集（例如 NYUv2、KITTI 和 Pascal Context）上进行微调，同时它也设定了新的技术水平。我们的模型可通过此 https URL 获取 ...

0 0 0 0 2025/12/30 arXiv:2103.13413v1 chenlei