可靠的交通事故预测对于推进自动驾驶系统至关重要。然而,这一目标受到两个基本挑战的限制:缺乏多样化、高质量的训练数据,以及由于环境破坏或传感器缺陷而经常缺乏关键的对象级线索。为了解决这些问题,我们提出了一个将生成场景增强与自适应时间推理相结合的综合框架。具体来说,我们开发了一个视频生成管道,利用由领域通知提示引导的世界模型来创建高分辨率、统计上一致的驾驶场景,特别是丰富了边缘情况和复杂交互的覆盖范围。同时,我们构建了一个动态预测模型,通过强化图卷积和扩张时间算子对时空关系进行编码,有效解决数据不完整性和瞬态视觉噪声问题。此外,我们发布了一个新的基准数据集,旨在更好地捕获各种现实世界的驾驶风险。对公共和新发布的数据集进行的大量实验证实,我们的框架提高了事故预测的准确性和提前时间,为安全关键型自动驾驶应用中的当前数据和建模限制提供了强大的解决方案 ...

0 0 0 0 2026/01/09 arXiv:2507.12762v1 chenlei

Generating large-scale sensing datasets through photo-realistic simulation is an important aspect of many robotics applications such as autonomous driving. In this paper, we consider the problem of synchronous data collection from the open-source CARLA simulator using multiple sensors attached to vehicle based on user-defined criteria. We propose a novel, one-step framework that we refer to as Car-STAGE, based on CARLA simulator, to generate data using a graphical user interface (GUI) defining configuration parameters to data collection without any user intervention. This framework can utilize the user-defined configuration parameters such as choice of maps, number and configurations of sensors, environmental and lighting conditions etc. to run the simulation in the background, collecting high-dimensional sensor data from diverse sensors such as RGB Camera, LiDAR, Radar, Depth Camera, IMU Sensor, GNSS Sensor, Semantic Segmentation Camera, Instance Segmentation Camera, and Optical Flow Camera along with the ground-truths of the individual actors and storing the sensor data as well as ground-truth labels在本地或基于云的数据库中。 The framework uses multiple threads where a main thread runs the server, a worker thread deals with queue and frame number and the rest of the threads processes the sensor data. The other way we derive speed up over the native implementation is by memory mapping the raw binary data into the disk and then converting the data into known formats at the end of data collection. We show that using these techniques, we gain a significant speed up over frames, under an increasing set of sensors and over the number of spawned objects. ...

0 0 0 0 2026/01/08 arXiv:2503.03100v1 chenlei

交通事故是造成人员伤亡和财产损失的重要原因,长期以来一直是交通安全领域众多学者研究的热点。然而,以往的研究,无论是静态环境评估还是动态驾驶分析,以及事故前预测或事故后规则分析,通常都是孤立进行的。缺乏有效的框架来全面理解和应用交通安全。为了解决这一差距,本文引入了 AccidentGPT,一种综合事故分析和预防的多模态大型模型。 AccidentGPT建立了基于多传感器感知的多模态信息交互框架,从而实现了交通安全领域事故分析和预防的整体方法。具体来说,我们的能力可以分为以下几类:对于自动驾驶车辆,我们提供全面的环境感知和理解来控制车辆并避免碰撞。对于人类驾驶车辆,我们提供主动的远程安全预警和盲点警报,同时通过人机对话和交互提供安全驾驶建议和行为规范。此外,对于交警和管理机构来说,我们的框架通过多车辆和道路测试设备的协作感知,支持对交通安全进行智能实时分析,包括行人、车辆、道路和环境。该系统还能够对车辆碰撞后的事故原因和责任进行全面分析。我们的框架是第一个将全面场景理解融入交通安全研究的大型模型。项目页面:此 https URL ...

0 0 0 0 2026/01/07 arXiv:2312.13156v3 chenlei

物理AI系统需要在物理世界中感知,理解和执行复杂的动作。在本文中,我们介绍了Cosmos-Reason1模型,这些模型可以理解物理世界并产生适当的具体决定(例如 ...

0 0 0 0 2026/01/07 arXiv:2503.15558v3 chenlei

可供性检测旨在通过理解对象是什么、对象位于“何处”以及如何使用它来共同解决嵌入式人工智能中基本的“什么、在哪里、如何”挑战。然而,大多数可供性学习方法仅关注对象“如何”使用,而忽略了“什么”和“在哪里”方面。其他可供性检测方法将对象检测和可供性学习视为两个独立的任务,缺乏有效的交互和实时能力。为了克服这些限制,我们引入了 YOLO Affordance (YOLOA),这是一种实时可供性检测模型,它通过大型语言模型 (LLM) 适配器联合处理这两个任务。具体来说,YOLOA 采用了一个轻量级检测器,由通过 LLM 适配器细化的对象检测和可供性学习分支组成。在训练期间,LLM 适配器与对象和可供性初步预测进行交互,通过生成更准确的类先验、框偏移和可供性门来细化两个分支。在我们重新标记的 ADG-Det 和 IIT-Heat 基准测试上进行的实验表明,YOLOA 实现了最先进的精度(ADG-Det / IIT-Heat 上的 mAP 为 52.8 / 73.1),同时保持了实时性能(高达 89.77 FPS,轻量级版本高达 846.24 FPS)。这表明YOLOA在准确性和效率之间实现了很好的权衡 ...

0 0 0 0 2025/12/31 arXiv:2512.03418v1 chenlei

我们引入了密集视觉变换器,这是一种利用视觉变换器代替卷积网络作为密集预测任务骨干的架构。我们将视觉转换器各个阶段的标记组装成各种分辨率的类似图像的表示,并使用卷积解码器逐步将它们组合成全分辨率预测。 Transformer 主干以恒定且相对较高的分辨率处理表示,并且在每个阶段都具有全局感受野。与全卷积网络相比,这些属性使密集视觉变换器能够提供更细粒度和更全局一致的预测。我们的实验表明,这种架构对密集预测任务产生了显着的改进,特别是当有大量训练数据可用时。对于单目深度估计,我们观察到与最先进的全卷积网络相比,相对性能提高了高达 28%。当应用于语义分割时,密集视觉变换器在 ADE20K 上以 49.02% mIoU 创下了新的技术水平。我们进一步表明,该架构可以在较小的数据集(例如 NYUv2、KITTI 和 Pascal Context)上进行微调,同时它也设定了新的技术水平。我们的模型可通过此 https URL 获取 ...

0 0 0 0 2025/12/30 arXiv:2103.13413v1 chenlei

与可见光谱相机相比,红外 (IR) 成像由于对照明条件和外观变化的敏感性较低,因此有潜力实现更强大的动作识别系统。虽然从可见光谱成像收集的视频上的动作识别任务受到了广泛关注,但红外视频中的动作识别的探索却明显较少。我们的目标是利用这种模式中的成像数据来执行动作识别任务。在这项工作中,我们通过引入判别码层和相应的判别码损失函数,提出了一种新颖的双流 3D 卷积神经网络 (CNN) 架构。所提出的网络处理红外图像和基于红外的光流场序列。我们在可见光谱 Sports-1M 动作数据集上预训练 3D CNN 模型,并在红外动作识别 (InfAR) 数据集上对其进行微调。据我们所知,这是 3D CNN 首次应用于 IR 领域的动作识别。我们对应用于不同 3D CNN 输出的不同融合方案(加权平均、单层和双层神经网络)进行了详细分析。实验结果表明,我们的方法可以在 InfAR 数据集上实现最先进的平均精度 (AP) 性能:(1) 所提出的双流 3D CNN 实现了最佳报告的 77.5% AP,(2) 我们应用于光流场的 3D CNN 模型实现了最佳报告的单流 75.42% AP ...

0 0 0 0 2025/12/29 arXiv:1705.06709v1 chenlei

在这项工作中,我们提出了一种全景度量深度基础模型,该模型可以概括不同的场景距离。我们从数据构建和框架设计的角度探索数据循环范式。我们通过结合公共数据集、来自 UE5 模拟器和文本到图像模型的高质量合成数据以及来自网络的真实全景图像来收集大规模数据集。为了减少室内/室外和合成/真实数据之间的域差距,我们引入了三阶段伪标签管理管道,为未标记的图像生成可靠的地面事实。对于该模型,我们采用 DINOv3-Large 作为其强大的预训练泛化能力的骨干,并引入即插即用范围掩模头、以清晰度为中心的优化和以几何为中心的优化,以提高对不同距离的鲁棒性并强制跨视图的几何一致性。多个基准(例如,Stanford2D3D、Matterport3D 和 Deep360)上的实验展示了强大的性能和零样本泛化能力,在不同的现实场景中具有特别强大和稳定的度量预测。项目页面可以在以下位置找到:\href{此 https URL} {此 https URL\_website/} ...

0 0 0 0 2025/12/29 arXiv:2512.16913v1 chenlei

从 SAE 3 级自动化开始,驾驶员可以在旅途中从事与驾驶不直接相关的活动。然而,在第 3 级中,对系统功能的误解可能会导致驾驶员从事次要任务,这可能会削弱他们应对挑战性交通状况的能力。预测驾驶员活动可以及早发现危险行为,防止事故发生。为了能够预测驾驶员活动,需要在数据集上训练深度学习网络。然而,事实证明,使用基于模拟的数据集进行训练以及迁移到现实世界数据进行预测并不是最理想的。因此,本文提出了一个现实世界的驾驶员活动数据集,可在 IEEE Dataport 上公开访问,其中包含在各种照明和天气条件下自动驾驶场景中发生的各种活动。训练过程的结果表明,该数据集为实施驾驶员活动识别模型提供了出色的基准 ...

0 0 0 0 2025/12/26 arXiv:2408.09833v2 chenlei

一个人的体重状况会对他们的生活产生深远的影响,从心理健康到长寿,再到经济收入。在社会层面,“肥胖羞辱”和其他形式的“体形歧视”日益受到关注,而肥胖率的上升与医疗费用的不断增加有关。出于这些原因,来自不同背景的研究人员有兴趣从各个角度研究肥胖。传统上,为了获取数据,一个人必须准确地自我报告其体重指数(BMI),或者必须去看医生进行测量。在本文中,我们展示了如何使用计算机视觉从社交媒体图像推断一个人的体重指数。我们希望我们发布的工具有助于推进与体重相关的社会方面的研究 ...

0 0 0 0 2025/12/26 arXiv:1703.03156v1 chenlei