关系语言图像预训练(RLIP)旨在使视觉表示与关系文本保持一致,从而提高计算机视觉任务中关系推理的能力。但是,由于RLIPV1体系结构的缓慢收敛性和现有场景图数据的有限可用性的阻碍,Scaling RlipV1具有挑战性。在本文中,我们提出了RLIPV2,这是一个快速收敛的模型,可以将关系预训练缩放到大规模伪标记的场景图数据 ...
0 0 0 2025/05/08 arXiv:2308.09351v1 yiyi07
我们引入了 GaussianOcc,这是一种系统方法,研究高斯分布的两种用法,以实现环绕视图中完全自监督和高效的 3D 占用估计。首先,传统的自监督 3D 占用估计方法在训练期间仍然需要来自传感器的地面实况 6D 位姿。为了解决这个限制,我们提出了高斯投影投影(GSP)模块,为相邻视图投影的完全自监督训练提供准确的尺度信息 ...
0 0 0 2025/05/08 arXiv:2408.11447v3 oym-eai
解决问题一直是人类进步众多领域的基本驱动力。随着人工智能的进步,大型语言模型(LLM)已成为能够解决各个领域的复杂问题的强大工具。与传统的计算系统不同,LLM将原始计算能力与人类推理的近似结合在一起,使它们能够生成解决方案,推断甚至利用外部计算工具 ...
0 0 0 2025/05/08 arXiv:2505.03418v1 fazai001
视觉模型(VLM)表现出端到端自动驾驶的巨大潜力。但是,充分利用其能力来安全可靠的车辆控制仍然是一项开放的研究挑战。为了系统地检查VLM在驾驶任务中的进步和局限性,我们引入了Lightemma,这是一种轻巧的端到端多模型,用于自动驾驶 ...
0 0 0 2025/05/08 arXiv:2505.00284v1 sodalone
本文通过开发矢量值变化空间(一种新的繁殖内核Banach空间,介绍了一个新型的理论框架,用于分析矢量值的神经网络。这些空间从研究训练网络中使用诸如整流线性单元(RELU)之类的激活中的重量衰减的正则化效应浮出水面。该框架对多输出网络及其功能空间特性提供了更深入的了解 ...
0 0 0 2025/05/08 arXiv:2305.16534v3 cinnne
了解人们在哪里寻找的社会提示。在这项工作中,我们提出了Gaze360,这是一种大规模的注视跟踪数据集,以及无限制图像中强大3D注视估计的方法。我们的数据集由室内和室外环境中的238个受试者组成,并在各种头部姿势和距离内有3D注视 ...
0 0 0 2025/05/08 arXiv:1910.10088v1 sally2016
如果产品在注入成型过程中偏离其所需的特性,则可以通过将输入机设置与输出质量特性相关联的模型来帮助其根本原因分析。在质量预测中测试的机器学习模型主要是黑匣子。因此,没有直接解释其预后,这限制了它们在质量控制中的适用性。先前尝试的解释性方法仅限于基于树的算法,或者不强调某些解释性方法可能导致词根原因识别产品偏离所需属性的事实 ...
0 0 0 2025/05/08 arXiv:2505.01445v1 tonylaobai
车间调度问题(JSSP)在工业应用中扮演着关键的角色,例如信号处理(SP)和钢铁制造,涉及测序机和工作,以最大程度地提高调度效率。之前,使用各种量子算法(VQA)使用手动定义的电路来求解JSSP。找到良好的电路体系结构是特定于任务且耗时的 ...
0 0 0 2025/05/08 arXiv:2401.01158v2 edcyhn

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)