预测周围车辆的运动对于在复杂交通中部署的自动驾驶车辆来说是一项关键能力。场景中所有车辆的运动受交通环境控制,即 ...
图级异常检测 (GLAD) 旨在识别与集合中的大多数图相比表现出显着差异的图。然而,当前的工作主要集中于评估图级异常,而未能为预测提供有意义的解释,这在很大程度上限制了其可靠性和应用范围。在本文中,我们研究了一个新的具有挑战性的问题,可解释的 GLAD,其中学习目标是预测每个图样本的异常情况以及相应的解释,即 ...
视觉文本渲染对当代文本到图像生成模型提出了根本性挑战,其核心问题在于文本编码器的缺陷。为了实现准确的文本渲染,我们确定了文本编码器的两个关键要求:字符识别和字形对齐。我们的解决方案涉及通过使用精心策划的配对字形文本数据集微调字符感知 ByT5 编码器来制作一系列定制文本编码器 Glyph-ByT5 ...
与传统的无监督聚类不同,半监督聚类允许用户为数据提供有意义的结构,这有助于聚类算法匹配用户的意图。现有的半监督聚类方法需要专家提供大量反馈来改进聚类。在本文中,我们询问大型语言模型是否可以放大专家的指导,以实现查询高效、少镜头的半监督文本聚类 ...
我们提出了 MM-Vet,这是一种评估基准,用于检查复杂多模态任务上的大型多模态模型(LMM)。最近的 LMM 表现出了各种有趣的能力,例如解决黑板上写的数学问题、推理新闻图像中的事件和名人以及解释视觉笑话。模型的快速进步给评估基准的开发带来了挑战 ...
在本文中,我们设计了一类新型的高效深度联合源信道编码方法,以实现无线信道上的端到端视频传输。所提出的方法利用非线性变换和条件编码架构来自适应地提取跨视频帧的语义特征,并通过深度联合源信道编码在无线信道上传输语义特征域表示。我们的框架被命名为深度视频语义传输(DVST) ...
在这项研究中,我们提出了一种新的 3D 物体检测器,具有值得信赖的深度估计,称为 BEVDepth,用于基于相机的鸟瞰 (BEV) 3D 物体检测。我们的工作基于一个关键的观察——考虑到深度对于相机 3D 检测至关重要这一事实,最近方法中的深度估计令人惊讶地不足。我们的 BEVDepth 通过利用显式深度监督解决了这个问题 ...
当前的 3D 对象检测模型遵循单一数据集特定的训练和测试范例,当直接部署在另一个数据集中时,通常会面临严重的检测精度下降。在本文中,我们研究了从多个数据集训练统一 3D 检测器的任务。我们观察到这似乎是一项具有挑战性的任务,这主要是因为这些数据集呈现出由不同激光雷达类型和数据采集标准引起的巨大数据级别差异和分类级别变化 ...