了解视频中发生的事件的内容及其固有的时间逻辑对于视频检索至关重要。但是,网络爬行的预训练数据集通常缺乏足够的事件信息,并且广泛采用的视频级交叉模式对比度学习也努力捕获详细且复杂的视频文本事件对齐。为了应对这些挑战,我们从数据和模型角度进行了改进 ...
0 0 0 2025/03/19 arXiv:2407.07478v1 hynj
基于摄像机的多视图3D检测已成为一种有吸引力的自动驾驶解决方案,因为其成本低和广泛的适用性。但是,尽管基于PETR的方法在3D感知基准测试中具有很强的性能,但其直接的INT 8量化量导致MAP和36中的急剧精度下降到58.2% ...
0 1 0 2025/03/19 arXiv:2502.15488v2 zhangxinyu
域转移是指一个众所周知的问题,即在一个源域中训练的模型在应用于具有不同统计数据的目标域时的性能很差。 {域概括}(DG)技术试图通过产生通过设计良好地推广到新型测试域的模型来减轻此问题。我们提出了一种用于域概括的新颖{meta学习}方法 ...
0 0 0 2025/03/19 arXiv:1710.03463v1 Harry3790
我们提出了一种通过可视化对预测或视觉解释“重要”的输入区域来使基于卷积神经网络(CNN)模型更透明的技术。我们的方法称为梯度加权类激活映射(GRAD-CAM),使用特定于类的梯度信息来定位重要区域。这些本地化与现有的像素空间可视化结合在一起,以创建一种新型的高分辨率和类别歧视性可视化,称为指导院 ...
0 0 0 2025/03/19 arXiv:1611.07450v2 长空
环境和其中作用的动态代理的精确模型为改进运动规划提供了巨大的潜力。我们提出英里:一种基于模型的模仿学习方法,用于共3D几何作为归纳偏差,并直接从专家演示的高分辨率视频中学习高度紧凑的潜在空间... ...
0 0 2 2025/03/19 arXiv:2210.07729v2 dumbbird
很少有语义细分旨在学习​​仅在几个支持图像的指导下学习看不见的类对象。大多数以前的方法都依赖于支持图像的像素级标签。在本文中,我们专注于更具挑战性的环境,其中只有图像级标签可用 ...
0 0 0 2025/03/19 arXiv:2303.05646v1 长空
在文本中,解码功能磁共振成像(fMRI)信号在神经科学界一直是一个关键挑战,具有提高脑部计算机界面的潜力并发现对脑机制的更深入的见解。但是,现有的方法通常在次优的预测绩效,任务有限的多样性以及对受试者的概括不佳的情况下挣扎。为此,我们提出了Mindllm,该模型是为主题不合时宜的和多功能的fMRI到文本解码而设计的 ...
0 0 0 2025/03/19 arXiv:2502.15786v1 林雨馨
基于大型语言模型(LLM)的成功,诸如GPT-4O之类的最新进步已经通过基于LLM的语音助手实现了实时语音互动,与传统的基于文本的互动相比,用户体验显着改善了。但是,缺乏旨在评估这些语音相互作用功能的基准测试妨碍了基于LLM的语音助手的发展。当前的评估主要集中在自动语音识别(ASR)或一般知识评估上,并以干净的语音评估,忽略了涉及各种说话者特征,环境和内容因素的更复杂的现实世界情景 ...
0 0 1 2025/03/19 arXiv:2410.17196v3 wrui0855

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)