我们提出了 MM-Vet,这是一种评估基准,用于检查复杂多模态任务上的大型多模态模型(LMM)。最近的 LMM 表现出了各种有趣的能力,例如解决黑板上写的数学问题、推理新闻图像中的事件和名人以及解释视觉笑话。模型的快速进步给评估基准的开发带来了挑战 ...
0 0 0 2024/04/25 arXiv:2308.02490v3 wuweiqun
在本文中,我们设计了一类新型的高效深度联合源信道编码方法,以实现无线信道上的端到端视频传输。所提出的方法利用非线性变换和条件编码架构来自适应地提取跨视频帧的语义特征,并通过深度联合源信道编码在无线信道上传输语义特征域表示。我们的框架被命名为深度视频语义传输(DVST) ...
0 0 0 2024/04/24 arXiv:2205.13129v2 HaoLiu0209
在这项研究中,我们提出了一种新的 3D 物体检测器,具有值得信赖的深度估计,称为 BEVDepth,用于基于相机的鸟瞰 (BEV) 3D 物体检测。我们的工作基于一个关键的观察——考虑到深度对于相机 3D 检测至关重要这一事实,最近方法中的深度估计令人惊讶地不足。我们的 BEVDepth 通过利用显式深度监督解决了这个问题 ...
0 0 0 2024/04/24 arXiv:2206.10092v2 zxddddd
当前的 3D 对象检测模型遵循单一数据集特定的训练和测试范例,当直接部署在另一个数据集中时,通常会面临严重的检测精度下降。在本文中,我们研究了从多个数据集训练统一 3D 检测器的任务。我们观察到这似乎是一项具有挑战性的任务,这主要是因为这些数据集呈现出由不同激光雷达类型和数据采集标准引起的巨大数据级别差异和分类级别变化 ...
0 0 0 2024/04/24 arXiv:2303.06880v2 zxddddd
多边形网格是 3D 几何的有效表示,在计算机图形、机器人和游戏开发中至关重要。现有的基于学习的方法避免了使用 3D 网格的挑战,而是使用与神经架构和训练方法更兼容的替代对象表示。我们提出了一种直接对网格进行建模的方法,使用基于 Transformer 的架构顺序预测网格顶点和面 ...
0 0 0 2024/04/24 arXiv:2002.10880v1 happy
大型视觉语言模型最近取得了显着的进展,表现出对视觉信息的强大感知和推理能力。然而,如何有效评估这些大型视觉语言模型仍然是阻碍未来模型发展的主要障碍。 VQAv2 或 COCO Caption 等传统基准提供了定量的性能测量,但缺乏细粒度的能力评估和不稳健的评估指标 ...
0 0 0 2024/04/24 arXiv:2307.06281v3 wuweiqun
倒数函数 1/x 对于许多实时算法很重要。它被用于从迭代估计到机器学习等领域的各种算法中。许多这些算法本质上是迭代的,需要在线计算倒数 ...
0 0 0 2024/04/24 arXiv:2007.06241v1 dx
事实证明,使用大型语言模型 (LLM) 进行自我评估不仅在基准测试方面很有价值,而且在奖励建模、宪法人工智能和自我完善等方法方面也很有价值。但由于同一个 LLM 同时充当评估者和被评估者,因此引入了新的偏见。其中一种偏见是自我偏好, LLM 评估者对自己的输出评分高于其他人的输出,而人类注释者则认为它们具有相同的质量 ...
0 0 0 2024/04/24 arXiv:2404.13076v1 CuteM

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)