与可见光谱相机相比,红外 (IR) 成像由于对照明条件和外观变化的敏感性较低,因此有潜力实现更强大的动作识别系统。虽然从可见光谱成像收集的视频上的动作识别任务受到了广泛关注,但红外视频中的动作识别的探索却明显较少。我们的目标是利用这种模式中的成像数据来执行动作识别任务。在这项工作中,我们通过引入判别码层和相应的判别码损失函数,提出了一种新颖的双流 3D 卷积神经网络 (CNN) 架构。所提出的网络处理红外图像和基于红外的光流场序列。我们在可见光谱 Sports-1M 动作数据集上预训练 3D CNN 模型,并在红外动作识别 (InfAR) 数据集上对其进行微调。据我们所知,这是 3D CNN 首次应用于 IR 领域的动作识别。我们对应用于不同 3D CNN 输出的不同融合方案(加权平均、单层和双层神经网络)进行了详细分析。实验结果表明,我们的方法可以在 InfAR 数据集上实现最先进的平均精度 (AP) 性能:(1) 所提出的双流 3D CNN 实现了最佳报告的 77.5% AP,(2) 我们应用于光流场的 3D CNN 模型实现了最佳报告的单流 75.42% AP ...
在这项工作中,我们提出了一种全景度量深度基础模型,该模型可以概括不同的场景距离。我们从数据构建和框架设计的角度探索数据循环范式。我们通过结合公共数据集、来自 UE5 模拟器和文本到图像模型的高质量合成数据以及来自网络的真实全景图像来收集大规模数据集。为了减少室内/室外和合成/真实数据之间的域差距,我们引入了三阶段伪标签管理管道,为未标记的图像生成可靠的地面事实。对于该模型,我们采用 DINOv3-Large 作为其强大的预训练泛化能力的骨干,并引入即插即用范围掩模头、以清晰度为中心的优化和以几何为中心的优化,以提高对不同距离的鲁棒性并强制跨视图的几何一致性。多个基准(例如,Stanford2D3D、Matterport3D 和 Deep360)上的实验展示了强大的性能和零样本泛化能力,在不同的现实场景中具有特别强大和稳定的度量预测。项目页面可以在以下位置找到:\href{此 https URL} {此 https URL\_website/} ...
从 SAE 3 级自动化开始,驾驶员可以在旅途中从事与驾驶不直接相关的活动。然而,在第 3 级中,对系统功能的误解可能会导致驾驶员从事次要任务,这可能会削弱他们应对挑战性交通状况的能力。预测驾驶员活动可以及早发现危险行为,防止事故发生。为了能够预测驾驶员活动,需要在数据集上训练深度学习网络。然而,事实证明,使用基于模拟的数据集进行训练以及迁移到现实世界数据进行预测并不是最理想的。因此,本文提出了一个现实世界的驾驶员活动数据集,可在 IEEE Dataport 上公开访问,其中包含在各种照明和天气条件下自动驾驶场景中发生的各种活动。训练过程的结果表明,该数据集为实施驾驶员活动识别模型提供了出色的基准 ...
一个人的体重状况会对他们的生活产生深远的影响,从心理健康到长寿,再到经济收入。在社会层面,“肥胖羞辱”和其他形式的“体形歧视”日益受到关注,而肥胖率的上升与医疗费用的不断增加有关。出于这些原因,来自不同背景的研究人员有兴趣从各个角度研究肥胖。传统上,为了获取数据,一个人必须准确地自我报告其体重指数(BMI),或者必须去看医生进行测量。在本文中,我们展示了如何使用计算机视觉从社交媒体图像推断一个人的体重指数。我们希望我们发布的工具有助于推进与体重相关的社会方面的研究 ...
许多智力活动需要解决数学问题,但这种技能仍然超出了计算机的能力。为了衡量机器学习模型中的这种能力,我们引入了 MATH,这是一个包含 12,500 个具有挑战性的竞赛数学问题的新数据集。 MATH 中的每个问题都有完整的分步解决方案,可用于训练模型生成答案推导和解释。为了促进未来的研究并提高数学的准确性,我们还贡献了一个大型辅助预训练数据集,有助于教授模型数学基础知识。尽管我们能够提高 MATH 的准确性,但我们的结果表明,即使使用巨大的 Transformer 模型,准确性仍然相对较低。此外,我们发现,如果规模化趋势持续下去,仅仅增加预算和模型参数数量对于实现强大的数学推理来说是不切实际的。虽然缩放 Transformer 可以自动解决大多数其他基于文本的任务,但缩放目前并不能解决数学问题。为了在数学问题解决上获得更大的吸引力,我们可能需要更广泛的研究社区的新算法进步 ...
避免碰撞——包括快速检测威胁和快速执行适当的规避机动——是驾驶的一个重要方面。然而,现有的人类避碰行为模型是支离破碎的,侧重于特定场景或仅描述避碰行为的某些方面,例如响应时间。本文通过提出一种基于主动推理的人类避碰行为的新型计算认知模型来解决这些差距。主动推理提供了一种统一的方法来建模人类行为:自由能的最小化。基于之前的主动推理工作,我们的模型结合了现有的认知机制,例如证据积累,以模拟人类在两种不同的防撞场景中的反应:前后引导车辆制动和迎面而来的车辆横向入侵。我们证明我们的模型解释了先前关于人类避碰行为的大量经验发现。具体来说,该模型密切再现了先前文献中报道的荟萃分析的汇总结果,以及在最近的驾驶模拟器研究中观察到的详细的、特定场景的效果,包括响应时间、机动选择和执行。我们的结果凸显了主动推理作为理解和建模复杂现实驾驶任务中人类行为的统一框架的潜力 ...
轨迹预测是自动驾驶中的一项关键功能,可以预测车辆和行人等交通参与者的未来运动路径,这对于驾驶安全至关重要。尽管传统的深度学习方法提高了准确性,但它们仍然受到固有局限性的阻碍,包括缺乏可解释性、严重依赖大规模注释数据以及长尾场景中的泛化能力弱。大型基础模型(LFM)的兴起正在改变轨迹预测的研究范式。这项调查对 LFM 的最新进展进行了系统回顾,特别是用于轨迹预测的大型语言模型 (LLM) 和多模态大型语言模型 (MLLM)。通过集成语言和场景语义,LFM 促进可解释的上下文推理,显着增强复杂环境中的预测安全性和泛化性。本文重点介绍了三种核心方法:轨迹语言映射、多模态融合和基于约束的推理。它涵盖了车辆和行人的预测任务、评估指标和数据集分析。讨论了计算延迟、数据稀缺性和现实世界鲁棒性等关键挑战,以及包括低延迟推理、因果感知建模和运动基础模型在内的未来研究方向 ...
在本文中,使用机器学习算法预测复杂交通场景的概率时空表示。这种表示对于所有主动车辆安全应用都具有重要意义,特别是在复杂交通场景中执行动态操纵时。第一步,使用分层情况分类器来区分不同类型的交通场景。该分类器负责识别道路基础设施的类型以及驾驶环境中与安全相关的交通参与者。每个类别代表相似的交通场景,一组随机森林(RF)经过单独训练来预测概率时空表示,该表示描述了交通参与者的未来行为。这种表示被称为预测占用网格(POG)。 RF 的输入是增强占用网格 (AOG)。为了提高 RF 的学习准确性并执行更好的预测,使用堆叠去噪自动编码器 (SDA) 将 AOG 简化为低维特征。所提出的由 SDA 和 RF 组成的机器学习方法的优异性能在模拟和真实车辆的实验中得到了证明。还介绍了 POG 在估计交通场景的关键性和确定安全轨迹方面的应用 ...
自动驾驶汽车可以减少道路交通事故并提供更安全的交通方式。然而,在将这些车辆投放市场之前,需要解决关键的技术挑战,例如复杂城市环境中的安全导航。远程操作可以帮助平稳地从人工驾驶车辆过渡到全自动驾驶车辆,因为它仍然有人类参与,为驾驶员提供了后备范围。本文提出了一种用于远程操作驾驶的主动安全系统(ASS)方法。所提出的方法可以帮助操作员确保车辆在复杂环境中的安全,即避免与静态或动态障碍物发生碰撞。我们的 ASS 依靠模型预测控制 (MPC) 公式来控制车辆的横向和纵向动力学。通过利用 MPC 框架处理约束的能力,我们的 ASS 限制了控制器干预以横向校正人类操作员命令的权限,避免了人类操作员反直觉的驾驶体验。此外,我们设计了视觉反馈来增强操作员对 ASS 的信任。此外,我们提出了基于 MPC 预测范围数据的新型预测显示,以减轻远程操作系统中大延迟的影响。我们在存在动态障碍和延迟的情况下在高保真车辆模拟器上测试了所提出方法的性能 ...
本文介绍了一种支持人工智能、交互感知的主动安全分析框架,该框架可以解释分组车辆交互。具体来说,该框架采用自行车模型(考虑了道路坡度)来准确捕捉车辆动态。与此同时,开发了基于超图的人工智能模型来预测环境交通的概率轨迹。通过集成这两个组件,该框架将 3D 路面上的车辆内部间距作为随机常微分方程的解得出,从而产生高保真替代安全措施,例如碰撞时间 (TTC)。为了证明其有效性,使用包括四阶龙格-库塔积分和人工智能推理的随机数值方法对该框架进行了分析,生成反映复杂的多智能体操作和行为不确定性的概率加权高保真 TTC (HF-TTC) 分布。通过使用 HF-TTC 与传统的恒速 TTC 和高速公路数据集上的非交互感知方法进行评估,所提出的框架提供了一种用于主动安全分析的系统方法,具有增强复杂交通环境中改善安全感知的潜力 ...