车辆安全评估对于消费者信息和监管至关重要。新车评估计划 (NCAP) 分配标准化安全评级,传统上强调被动安全措施,但现在包括高级驾驶辅助系统 (ADAS) 等主动安全技术。理解这些不同的系统如何从经验上相互作用是至关重要的。本研究探讨了特定的 ADAS 功能(例如前方碰撞警告、车道偏离警告、碰撞紧急制动和盲点检测)以及既定的车辆属性(例如整备质量、车型年份、车辆类型、传动系统)是否能够可靠地预测车辆获得最高(5 星)总体 NCAP 评级的可能性。使用源自 NCAP 报告的公开数据集(包含 2011-2025 年车型的约 5,128 个车辆变型),我们使用 5 倍分层交叉验证方法比较了四种不同的机器学习模型:逻辑回归、随机森林、梯度提升和支持向量分类器 (SVC)。两种性能最佳的算法(随机森林和梯度提升)使用 RandomizedSearchCV 进行超参数优化。特征重要性分析表明,基本车辆特征(特别是整备质量和车型年份)主导了预测能力,贡献了随机森林模型 55% 以上的特征相关性。然而,ADAS 功能的纳入也提供了有意义的预测贡献。优化后的随机森林模型在保留测试集上取得了稳健的结果,准确率为 89.18%,ROC AUC 为 0.9586。这项研究揭示了使用机器学习来分析大规模 NCAP 数据,并强调了既定车辆参数和现代 ADAS 功能的综合预测重要性,以实现最高安全评级 ...

0 0 0 0 2026/01/13 arXiv:2509.01897v1 chenlei

交通安全仍然是全球关注的一个重要问题,及时、准确的事故检测对于减少危险和快速应急响应至关重要。基于基础设施的视觉传感器为连续实时监控提供可扩展且高效的解决方案,有助于直接从捕获的图像自动检测事故。这项研究调查了多模态大语言模型 (MLLM) 的零镜头功能,用于使用基础设施摄像机的图像检测和描述交通事故,从而最大限度地减少对大量标记数据集的依赖。主要贡献包括:(1)使用 CARLA 的模拟 DeepAccident 数据集对 MLLM 进行评估,通过受控模拟明确解决基于基础设施的多样化、现实的事故数据的稀缺问题; (2)Gemini 1.5和2.0、Gemma 3和Pixtral模型在未经事先微调的事故识别和描述能力方面的性能对比分析; (3) 将高级视觉分析(特别是用于对象检测的 YOLO、用于多对象跟踪的 Deep SORT 和用于实例分割的 Segment Anything (SAM))集成到增强提示中,以提高模型的准确性和可解释性。关键数值结果显示,Pixtral 表现最佳,F1 得分为 0.71,召回率达 83%,而 Gemini 模型通过增强提示提高了精确度(例如,Gemini 1.5 升至 90%),但 F1 和召回率损失显着。 Gemma 3 提供了最平衡的性能和最小的指标波动。这些发现证明了将 MLLM 与先进的可视化分析技术集成的巨大潜力,增强了它们在现实世界自动交通监控系统中的适用性 ...

0 0 0 0 2026/01/13 arXiv:2509.19096v2 chenlei

道路交通事故是全球死亡的主要原因,由于人口增长、城市化和机动化,事故发生率不断上升。事故率上升引发了人们对交通监控有效性的担忧。用于事故检测的传统计算机视觉方法面临时空理解有限和跨领域泛化能力差的问题。 Transformer 架构的最新进展擅长对全局时空依赖性和并行计算进行建模。然而,将这些模型应用于自动交通事故检测受到小型、非多样化数据集的限制,阻碍了稳健、通用系统的开发。为了解决这一差距,我们策划了一个全面且平衡的数据集,该数据集捕获了广泛的交通环境、事故类型和背景变化。利用精选的数据集,我们提出了一种基于使用预先提取的空间视频特征的 Transformer 架构的事故检测模型。该架构采用卷积层来提取帧内不同模式之间的局部相关性,同时利用转换器来捕获检索到的特征之间的顺序时间依赖性。此外,大多数现有研究都忽略了运动线索的整合,而这对于理解动态场景(尤其是在事故期间)至关重要。这些方法通常依赖于静态特征或粗略的时间信息。在这项研究中,评估了多种结合运动线索的方法,以确定最有效的策略。在测试的输入方法中,将 RGB 特征与光流连接起来达到了 88.3% 的最高准确率。结果进一步与 GPT、Gemini 和 LLaVA-NeXT-Video 等视觉语言模型 (VLM) 进行比较,以评估所提方法的有效性 ...

0 0 0 0 2026/01/13 arXiv:2512.11350v1 chenlei

在动态的城市景观中,车辆和行人的相互作用决定了生活节奏,集成先进技术以确保安全和效率变得越来越重要。这项研究深入探讨了尖端技术方法在智慧城市中的应用,重点是通过改进交通事故检测来增强公共安全。动作识别在解释视觉数据和跟踪对象运动(例如视频序列中的人体姿势估计)方面发挥着关键作用。动作识别的挑战包括快速动作的可变性、有限的数据集以及环境因素,例如(天气、照明和遮挡)。在本文中,我们提出了一个用于交通事故检测的新颖的综合数据集。该数据集专门设计用于支持计算机视觉和动作识别系统预测和检测道路交通事故。我们集成了来自全球各种数据源、道路网络、天气状况和地区的数据集。这种方法以实证研究为基础,旨在促进关于技术如何提高人口稠密地区的生活质量的讨论。这项研究旨在通过引入基准数据集来弥补现有的研究差距,这些基准数据集利用专为智慧城市交通事故检测量身定制的最先进算法。这些数据集预计将推进学术研究,并增强实时事故检测应用,为智能城市环境的发展做出重大贡献。我们的研究标志着迈向更安全、更高效的智慧城市的关键一步,利用人工智能和机器学习的力量来改变城市生活 ...

0 0 0 0 2026/01/13 arXiv:2401.03587v1 chenlei

道路交通的动态性和不可预测性需要有效的事故检测方法,以提高智慧城市的安全性并简化交通管理。本文对流行的事故检测技术进行了全面的探索研究,阐明了其他最先进方法的细微差别,同时详细概述了不同的交通事故类型,如追尾碰撞、T 骨碰撞和正面碰撞事故。我们的新颖方法引入了 I3D-CONVLSTM2D 模型架构,这是一种通过将 RGB 帧与光流信息集成来专门为智能城市交通监控系统中的事故检测而定制的轻量级解决方案。我们的实验研究的实证分析强调了我们方法的有效性,I3D-CONVLSTM2D RGB + 光流(可训练)模型优于同类模型,实现了令人印象深刻的 87% 平均精度 (MAP)。我们的研究结果进一步阐述了数据不平衡带来的挑战,特别是在处理有限数量的数据集、道路结构和交通场景时。最终,我们的研究阐明了通往复杂的基于视觉的事故检测系统的道路,该系统旨在实时集成到智能城市基础设施中的边缘物联网设备中 ...

0 0 0 0 2026/01/13 arXiv:2310.10038v1 chenlei

事故检测和交通分析是智慧城市和自主交通系统的重要组成部分,可以降低事故频率、严重程度并改善整体交通管理。本文利用美国国家公路交通安全管理局 (NHTSA) 碰撞报告采样系统 (CRSS) 的数据对美国不同地区的交通事故进行了综合分析。为了解决事故检测和交通分析的挑战,本文提出了一种使用交通监控摄像头和动作识别系统来自发检测和响应交通事故的框架。将所提出的框架与紧急服务相集成,将利用交通摄像头和机器学习算法的力量,创建一个有效的解决方案来响应交通事故并减少人为错误。先进的智能技术,例如拟议的智慧城市事故检测系统,将改善交通管理和交通事故严重程度。总体而言,这项研究提供了有关美国交通事故的宝贵见解,并提出了提高交通系统安全性和效率的实用解决方案 ...

0 0 0 0 2026/01/13 arXiv:2307.12128v1 chenlei

我们对多模态大型语言模型 (MLLM) 在自动驾驶中的应用进行了冷静的审视,挑战了有关其解释动态驾驶场景能力的常见假设。尽管 GPT-4o 等模型取得了进步,但它们在复杂驾驶环境中的性能在很大程度上仍未得到探索。我们的实验研究使用车载摄像头视角评估各种 MLLM 作为世界模型,并揭示虽然这些模型擅长解释单个图像,但它们难以合成跨帧的连贯叙述,导致在理解(i)自我车辆动力学、(ii)与其他道路参与者的交互、(iii)轨迹规划和(iv)开放场景推理方面存在相当大的不准确性。我们引入了 Eval-LLM-Drive 数据集和 DriveSim 模拟器来增强我们的评估,强调当前 MLLM 功能的差距以及动态现实环境中改进模型的需求 ...

0 0 0 0 2026/01/12 arXiv:2405.05956v2 chenlei

Recognizing abnormal events such as traffic violations and accidents in natural driving scenes is essential for successful autonomous driving and advanced driver assistance systems. However, most work on video anomaly detection suffers from two crucial drawbacks. First, they assume cameras are fixed and videos have static backgrounds, which is reasonable for surveillance applications but not for vehicle-mounted cameras. Second, they pose the problem as one-class classification, relying on arduously hand-labeled training datasets that limit recognition to anomaly categories that have been explicitly trained. This paper proposes an unsupervised approach for traffic accident detection in first-person (dashboard-mounted camera) videos. Our major novelty is to detect anomalies by predicting the future locations of traffic participants and then monitoring the prediction accuracy and consistency metrics with three different strategies. We evaluate our approach using a new dataset of diverse traffic accidents, AnAn Accident Detection (A3D), as well as another publicly-available dataset. Experimental results show that our approach outperforms the state-of-the-art.

0 0 0 0 2026/01/12 arXiv:1903.00618v4 chenlei

本文解决了预测交通事故的问题,旨在在潜在事故发生之前对其进行预测。实时预测对于安全自动驾驶至关重要,但大多数方法依赖于光流和中间特征提取器等计算量大的模块,这使得现实世界的部署具有挑战性。因此,在本文中,我们介绍了 RARE(带有重用嵌入的实时事故预测),这是一种轻量级框架,它利用单个预训练对象检测器的中间特征。通过消除额外的特征提取管道,RARE 显着减少了延迟。此外,我们引入了一种新颖的注意力分数排名损失,它优先考虑对与事故相关的对象比不相关的对象给予更高的关注。这种损失增强了准确性和可解释性。 RARE 在 DAD 和 CCD 基准测试中展示了比现有方法提高 4-8 倍的速度,在 RTX 6000 上实现了每帧 13.6 毫秒 (73.3 FPS) 的延迟。此外,尽管其复杂性降低,但它实现了最先进的平均精度,并可靠地实时预测即将发生的碰撞。这些结果凸显了 RARE 在安全关键型应用中的潜力,在这些应用中,及时且可解释的预测至关重要 ...

0 0 0 0 2026/01/12 arXiv:2505.17449v1 chenlei

In this work we aim to predict the driver's focus of attention. The goal is to estimate what a person would pay attention to while driving, and which part of the scene around the vehicle is more critical for the task. To this end we propose a new computer vision model based on a multi-branch deep architecture that integrates three sources of information: raw video, motion and scene semantics. We also introduce DR(eye)VE, the largest dataset of driving scenes for which eye-tracking annotations are available. This dataset features more than 500,000 registered frames, matching ego-centric views (from glasses worn by drivers) and car-centric views (from roof-mounted camera), further enriched by other sensors measurements. Results highlight that several attention patterns are shared across drivers and can be reproduced to some extent. The indication of which elements in the scene are likely to capture the driver's attention may benefit several applications in the context of human-vehicle interaction and driver attention analysis.

0 0 0 0 2026/01/12 arXiv:1705.03854v3 chenlei