道路交通的动态性和不可预测性需要有效的事故检测方法,以提高智慧城市的安全性并简化交通管理。本文对流行的事故检测技术进行了全面的探索研究,阐明了其他最先进方法的细微差别,同时详细概述了不同的交通事故类型,如追尾碰撞、T 骨碰撞和正面碰撞事故。我们的新颖方法引入了 I3D-CONVLSTM2D 模型架构,这是一种通过将 RGB 帧与光流信息集成来专门为智能城市交通监控系统中的事故检测而定制的轻量级解决方案。我们的实验研究的实证分析强调了我们方法的有效性,I3D-CONVLSTM2D RGB + 光流(可训练)模型优于同类模型,实现了令人印象深刻的 87% 平均精度 (MAP)。我们的研究结果进一步阐述了数据不平衡带来的挑战,特别是在处理有限数量的数据集、道路结构和交通场景时。最终,我们的研究阐明了通往复杂的基于视觉的事故检测系统的道路,该系统旨在实时集成到智能城市基础设施中的边缘物联网设备中 ...

0 0 0 0 2026/01/13 arXiv:2310.10038v1 chenlei

事故检测和交通分析是智慧城市和自主交通系统的重要组成部分,可以降低事故频率、严重程度并改善整体交通管理。本文利用美国国家公路交通安全管理局 (NHTSA) 碰撞报告采样系统 (CRSS) 的数据对美国不同地区的交通事故进行了综合分析。为了解决事故检测和交通分析的挑战,本文提出了一种使用交通监控摄像头和动作识别系统来自发检测和响应交通事故的框架。将所提出的框架与紧急服务相集成,将利用交通摄像头和机器学习算法的力量,创建一个有效的解决方案来响应交通事故并减少人为错误。先进的智能技术,例如拟议的智慧城市事故检测系统,将改善交通管理和交通事故严重程度。总体而言,这项研究提供了有关美国交通事故的宝贵见解,并提出了提高交通系统安全性和效率的实用解决方案 ...

0 0 0 0 2026/01/13 arXiv:2307.12128v1 chenlei

我们对多模态大型语言模型 (MLLM) 在自动驾驶中的应用进行了冷静的审视,挑战了有关其解释动态驾驶场景能力的常见假设。尽管 GPT-4o 等模型取得了进步,但它们在复杂驾驶环境中的性能在很大程度上仍未得到探索。我们的实验研究使用车载摄像头视角评估各种 MLLM 作为世界模型,并揭示虽然这些模型擅长解释单个图像,但它们难以合成跨帧的连贯叙述,导致在理解(i)自我车辆动力学、(ii)与其他道路参与者的交互、(iii)轨迹规划和(iv)开放场景推理方面存在相当大的不准确性。我们引入了 Eval-LLM-Drive 数据集和 DriveSim 模拟器来增强我们的评估,强调当前 MLLM 功能的差距以及动态现实环境中改进模型的需求 ...

0 0 0 0 2026/01/12 arXiv:2405.05956v2 chenlei

Recognizing abnormal events such as traffic violations and accidents in natural driving scenes is essential for successful autonomous driving and advanced driver assistance systems. However, most work on video anomaly detection suffers from two crucial drawbacks. First, they assume cameras are fixed and videos have static backgrounds, which is reasonable for surveillance applications but not for vehicle-mounted cameras. Second, they pose the problem as one-class classification, relying on arduously hand-labeled training datasets that limit recognition to anomaly categories that have been explicitly trained. This paper proposes an unsupervised approach for traffic accident detection in first-person (dashboard-mounted camera) videos. Our major novelty is to detect anomalies by predicting the future locations of traffic participants and then monitoring the prediction accuracy and consistency metrics with three different strategies. We evaluate our approach using a new dataset of diverse traffic accidents, AnAn Accident Detection (A3D), as well as another publicly-available dataset. Experimental results show that our approach outperforms the state-of-the-art.

0 0 0 0 2026/01/12 arXiv:1903.00618v4 chenlei

本文解决了预测交通事故的问题,旨在在潜在事故发生之前对其进行预测。实时预测对于安全自动驾驶至关重要,但大多数方法依赖于光流和中间特征提取器等计算量大的模块,这使得现实世界的部署具有挑战性。因此,在本文中,我们介绍了 RARE(带有重用嵌入的实时事故预测),这是一种轻量级框架,它利用单个预训练对象检测器的中间特征。通过消除额外的特征提取管道,RARE 显着减少了延迟。此外,我们引入了一种新颖的注意力分数排名损失,它优先考虑对与事故相关的对象比不相关的对象给予更高的关注。这种损失增强了准确性和可解释性。 RARE 在 DAD 和 CCD 基准测试中展示了比现有方法提高 4-8 倍的速度,在 RTX 6000 上实现了每帧 13.6 毫秒 (73.3 FPS) 的延迟。此外,尽管其复杂性降低,但它实现了最先进的平均精度,并可靠地实时预测即将发生的碰撞。这些结果凸显了 RARE 在安全关键型应用中的潜力,在这些应用中,及时且可解释的预测至关重要 ...

0 0 0 0 2026/01/12 arXiv:2505.17449v1 chenlei

In this work we aim to predict the driver's focus of attention. The goal is to estimate what a person would pay attention to while driving, and which part of the scene around the vehicle is more critical for the task. To this end we propose a new computer vision model based on a multi-branch deep architecture that integrates three sources of information: raw video, motion and scene semantics. We also introduce DR(eye)VE, the largest dataset of driving scenes for which eye-tracking annotations are available. This dataset features more than 500,000 registered frames, matching ego-centric views (from glasses worn by drivers) and car-centric views (from roof-mounted camera), further enriched by other sensors measurements. Results highlight that several attention patterns are shared across drivers and can be reproduced to some extent. The indication of which elements in the scene are likely to capture the driver's attention may benefit several applications in the context of human-vehicle interaction and driver attention analysis.

0 0 0 0 2026/01/12 arXiv:1705.03854v3 chenlei

本文探讨了视觉语言模型(VLM)作为空间领域操作代理的应用,重点关注软件和硬件操作范例。基于大型语言模型 (LLM) 及其多模式扩展的进步,我们研究了 VLM 如何增强太空任务中的自主控制和决策。在软件方面,我们在 Kerbal Space Program Differential Games (KSPDG) 模拟环境中使用 VLM,使代理能够解释图形用户界面的视觉屏幕截图,以执行复杂的轨道机动。在硬件方面,我们将 VLM 与配备摄像头的机器人系统集成,以检查和诊断物理空间物体,例如卫星。我们的结果表明,VLM 可以有效地处理视觉和文本数据,以生成适合上下文的操作,在模拟任务中与传统方法和非多模态 LLM 竞争,并在实际应用中显示出前景 ...

0 0 0 0 2026/01/12 arXiv:2501.07802v1 chenlei

驾驶员注意力预测目前正成为安全驾驶研究界的焦点,例如 DR(eye)VE 项目和新出现的关键情况下的 Berkeley DeepDrive Attention (BDD-A) 数据库。在安全驾驶中,一项重要任务是尽早预测即将发生的事故。由于这种场景很少见,BDD-A 意识到了这个问题,并在实验室中吸引了驾驶员的注意力。然而,BDD-A关注的是没有遇到实际事故的危急情况,只面临驾驶员注意力预测任务,没有对事故预测进行密切的一步。与此相反,我们探索驾驶员眼睛的视角来捕捉多种事故,并构建了一个比以往更加多样化和更大的视频基准,同时包含驾驶员注意力和驾驶事故注释(命名为DADA-2000),其中包含2000个视频片段,约658,476帧,涉及54种事故。这些剪辑是众包的,是在各种场合(高速公路、城市、乡村和隧道)、天气(晴天、雨天和雪天)和光线条件(白天和夜间)下拍摄的。对于驾驶员注意力表示,我们收集注视点、扫视扫描路径和聚焦时间的图。事故按其类别、剪辑中的事故窗口以及碰撞物体的空间位置进行注释。基于分析,我们对本文的问题得出了定量的、肯定的答案 ...

0 0 0 0 2026/01/12 arXiv:1904.12634v1 chenlei

驾驶员注意力预测正在成为类人驾驶系统中的一个重要研究问题。这项工作尝试预测驾驶事故场景(DADA)中驾驶员的注意力。然而,由于动态的交通场景、复杂且不平衡的事故类别,挑战也随之而来。在这项工作中,我们设计了一个语义上下文诱导的注意力融合网络(SCAFNet)。我们首先将RGB视频帧分割成具有不同语义区域的图像(即语义图像),其中每个区域表示场景的一种语义类别(例如道路、树木等),并同时学习两条并行路径中的RGB帧和语义图像的时空特征。然后,通过注意力融合网络融合学习到的特征,以找到驾驶员注意力预测中语义引起的场景变化。贡献是三倍。 1)对于语义图像,我们引入了它们的语义上下文特征,并验证了对帮助驾驶员注意力预测的明显促进效果,其中语义上下文特征是通过语义图像上的图卷积网络(GCN)建模的; 2)我们以注意力策略融合语义图像的语义上下文特征和RGB帧的特征,并通过卷积LSTM模块将融合的细节转移到帧上,以获得每个视频帧的注意力图,同时考虑驾驶情况下的历史场景变化; 3)所提出方法的优越性是在我们之前收集的数据集(名为 DADA-2000)和其他两个具有最先进方法的具有挑战性的数据集上进行评估的。 DADA-2000 可从此 https URL 获取 ...

0 0 0 0 2026/01/12 arXiv:1912.12148v2 chenlei

交通事故预测的主要目标是利用行车记录仪视频实时预测潜在的事故,这一任务对于提高自动驾驶技术的安全性和可靠性至关重要。在这项研究中,我们引入了一个创新框架 AccNet,它通过结合复杂的 3D 场景建模的单目深度线索,显着提高了预测能力,超越了当前最先进的 (SOTA) 基于 2D 的方法。为了解决交通事故数据集中数据分布不均的普遍挑战,我们提出了早期预测的二元自适应损失(BA-LEA)。这种新颖的损失函数与多任务学习策略一起,将预测模型的焦点转移到事故发生前的关键时刻。 {我们在三个基准数据集(行车记录仪事故数据集 (DAD)、车祸数据集 (CCD)、AnAn 事故检测 (A3D) 和 DADA-2000 数据集)上严格评估了我们的框架的性能,并通过平均精度 (AP) 和平均事故时间 (mTTA) 等关键指标展示了其卓越的预测准确性 ...

0 0 0 0 2026/01/12 arXiv:2409.01256v1 chenlei