占用和 3D 物体检测是现代自动驾驶系统中的两个标准任务。为了以更好的精度和耗时的权衡将它们部署在一系列边缘芯片上,现代方法要么为单个任务部署独立模型,要么设计具有单独头的多任务范例。然而,它们可能会遇到部署困难(即 ...
以视觉为中心的语义占用预测在自动驾驶中发挥着至关重要的作用,这需要低成本传感器进行准确可靠的预测。尽管与激光雷达的准确度差距显着缩小,但仍然很少有研究工作来探索相机预测语义占用的可靠性。在本文中,我们首次从可靠性角度对现有的语义占用预测模型进行了综合评估 ...
我们提出了 TANGO,一个用于生成协同语音身体手势视频的框架。给定几分钟的单人参考视频和目标语音音频,TANGO 可以生成具有同步身体姿势的高保真视频。 TANGO 基于手势视频重演 (GVR) 构建,它使用有向图结构分割和检索视频剪辑 - 将视频帧表示为节点,将有效过渡表示为边缘 ...
自动化红队对于发现和减少与非法使用大型语言模型(LLM)相关的风险有着巨大的希望,但该领域缺乏严格评估新方法的标准化评估框架。为了解决这个问题,我们引入了 HarmBench,这是一个用于自动化红队的标准化评估框架。我们之前确定了在红队评估中未考虑到的几个理想属性,并系统设计了 HarmBench 来满足这些标准... ...
开放词汇检测 (OVD) 旨在检测超出预定义类别集的对象。 YOLO-World作为将YOLO系列融入OVD的开创性模型,非常适合速度和效率优先的场景。然而,其性能受到颈部特征融合机制的阻碍,导致二次复杂度和有限的引导感受野 ...
虽然基于稀疏图像集的新视图合成(NVS)在3D计算机视觉领域取得了显着的进步,但它依赖于使用运动结构(SfM)对参数参数进行精确的最终估计。例如,最近开发的高斯溅射在高度依赖于 SfM 导出的点和位姿的准确性。然而,SfM 过程非常运行,并且在匹配特征稀缺的稀疏视图场景中通常不可靠,导致累积错误和跨数据集的泛化能力有限... ...
构建一个可以与世界交互的多面手智能体是人工智能系统的有趣目标,从而刺激了对实体导航的研究,其中智能体需要根据指令进行导航或响应查询。尽管取得了重大进展,但以前的工作主要集中在特定于任务的代理上,缺乏对未见过的场景的概括性。最近, LLM 在各个领域展现了卓越的能力,并为体现导航提供了有前途的机会 ...
我们的目标是通过利用大规模视觉模型的先验来解决 3D 场景的稀疏视图重建问题。虽然 3D 高斯分布 (3DGS) 等最新进展在 3D 重建方面取得了显着的成功,但这些方法通常需要数百张输入图像来密集捕获底层场景,这使得它们对于现实世界的应用来说既耗时又不切实际。然而,稀疏视图重建本质上是不适定且约束不足的,通常会导致较差且不完整的结果 ...