图像字幕一直是视觉研究中的长期挑战。随着LLM的兴起,现代视觉语言模型(VLM)产生了详细而全面的图像描述。但是,基于此类标题的质量仍然无法解决 ...
0 0 0 2025/04/10 arXiv:2503.12329v1 zl1994
同时本地化和映射(SLAM)在机器人技术中是关键的,而感性场景重建是一个关键的挑战。为了解决这个问题,我们引入了实时高斯脱落大满贯(CARTG)的计算对齐,这是一种新颖的方法,可提高实时环境中光真逼真的场景重建的效率和质量。 CARTG利用3D高斯脱落(3DGS),达到了较高的呈现质量和处理速度,这对于场景的光真逼真的重建至关重要 ...
0 0 0 2025/04/10 arXiv:2410.00486v4 wangchenchen
神经声码器对原始音频波形进行建模并合成高质量的音频,但是即使是MB-Melgan和LPCNet等高效的音频,也无法在诸如SmartGlass这样的低端设备上实时运行。纯数字信号处理(DSP)的Vocoder可以通过轻质快速傅立叶变换(FFT)实现,因此,比任何神经声码器都要快。 DSP Vocoder通常会由于消耗了声带的近似表示的过度平滑声学模型预测,因此通常会获得较低的音频质量 ...
0 0 0 2025/04/10 arXiv:2401.10460v1 Nitin525
多模式错误信息,例如误会图像,字幕歪曲图像的起源,上下文或含义在数字时代构成了日益严重的挑战。为了支持事实检查器,研究人员一直专注于创建数据集和开发多模式错误信息检测(MMD)的方法。由于大规模注释的MMD数据集的稀缺性,最近的研究通过神秘的图像映射对或指定的实体操纵来利用合成训练数据;更改名称,日期和位置 ...
0 0 0 2025/04/10 arXiv:2504.06010v1 zhoujiahui
传统的图像注释任务在很大程度上依赖于人类进行对象选择和标签分配的努力,从而使过程耗时并容易降低效率,因为注释者在大量工作后经历了疲劳。本文介绍了一个新颖的框架,该框架利用大型多模型模型(LMMS),尤其是GPT的视觉理解能力来协助注释工作流。在我们提出的方法中,人类注释者专注于通过边界框选择对象,而LMM自动生成相关标签 ...
0 0 0 2025/04/10 arXiv:2503.11096v1 zl1994
将自动预测的人类反馈纳入训练生成模型的过程中引起了极大的兴趣,而推理时间的反馈受到了较少的关注。训练时间的典型反馈,即 ...
0 0 0 2025/04/10 arXiv:2501.04513v1 zl1994
准确的状态估计是自主机器人的基本问题。为了实现局部准确且全球无漂移状态的估计,具有互补特性的多个传感器通常融合在一起。本地传感器(相机,IMU,LIDAR等)在一个小区域内提供精确的姿势,而全球传感器(GPS,磁力计,晴雨表等)提供嘈杂,但在大规模环境中无环形的定位 ...
0 0 0 2025/04/10 arXiv:1901.03642v1 lucian_p
音频模型(ALMS)生成了产生声音事件和场景的语言描述。数据集创建和计算能力的进步导致了该领域的重大进展。本文调查了用于训练施舍的69个数据集,涵盖了2024年9月(此HTTPS URL)的研究 ...
0 0 0 2025/04/10 arXiv:2407.06947v2 z520520115

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)