视觉同时定位和映射(VSLAM)在计算机视觉和机器人社区中取得了巨大进展,并已成功用于许多领域,例如自主机器人导航和AR/VR。但是,VSLAM无法在动态和复杂的环境中实现良好的定位。许多出版物报告说,通过与VSLAM结合语义信息,语义VSLAM系统具有近年来解决上述问题的能力 ...
0 0 0 2025/07/11 arXiv:2209.06428v2 yojewong
随着将自动驾驶汽车大规模集成到现代交通系统中的潜力不断增长,确保在动态环境中安全导航对于平稳整合至关重要。为了确保安全和防止碰撞,自动驾驶汽车必须能够准确预测周围交通剂的轨迹。在过去的十年中,学术界和行业的重大努力一直致力于设计解决方案以进行精确的轨迹预测 ...
0 0 0 2025/07/11 arXiv:2503.03262v2 Avins
基于文本的人搜索(TBP)是一个在研究社区中引起了重大兴趣的问题。任务是根据文本描述检索特定个人的一个或多个图像。任务的多模式性质需要学习表示,在共享潜在空间内桥接文本和图像数据 ...
0 0 0 2025/07/11 arXiv:2407.04287v1 13843225286
政策评估中不确定性的存在显着使现实环境中的政策排名和选择过程变得复杂。我们正式将离线政策选择视为鉴于固定的体验数据集的一组政策前景的学习偏好。尽管人们可以根据其策略价值或高信心间隔的点估计来选择或对策略进行排名,但对策略价值的信念,访问完整的分布可以使更灵活的选择算法在更广泛的下游评估指标下 ...
0 0 0 2025/07/11 arXiv:2012.06919v1 wenzheng
当前的行人属性识别(PAR)算法是基于多标签或多任务学习框架开发的,旨在使用特定的分类头来区分属性。但是,这些歧视模型很容易受到数据不平衡或嘈杂样本的影响。受生成模型成功的启发,我们重新考虑了行人属性识别方案,并认为生成模型可以在人类属性之间的建模依赖性和复杂性方面更好地表现 ...
0 0 0 2025/07/11 arXiv:2312.01640v1 13843225286
现代推荐系统旨在通过过去的互动深入了解用户的复杂偏好。尽管使用图形神经网络(GNN)在捕获用户项目关系方面采用了深层协作过滤方法,但在处理稀疏数据或零摄像方案时,其有效性受到限制,这主要是由于基于ID的嵌入功能的限制。为了应对这些挑战,我们提出了一个模型不足的建议指令调节范式,该范式将大型语言模型与协作过滤无缝整合 ...
0 0 0 2025/07/11 arXiv:2412.19302v3 lyq1
大规模数据集的计算负担和固有的冗余性挑战了当代机器学习模型的培训。数据修剪通过选择较小的,信息丰富的子集来提供解决方案,但现有的方法挣扎:基于密度的方法可能是任务不合时宜的,而基于模型的技术可能会引入冗余或证明计算性的效率。我们介绍了自适应删除(Adadedup),这是一种新型混合框架,以集群自适应方式协同将基于密度的修剪与模型信息反馈相结合 ...
0 0 0 2025/07/11 arXiv:2507.00049v1 ktka_kaka_ka
尽管现有的统一模型在视觉理解和文本到图像生成方面表现出色,但他们的模型在探索图像感知和操纵任务方面受到限制,这些任务迫切需要广泛的应用程序。最近,OpenAI发布了其强大的GPT-4O图像模型,以实现全面的图像感知和操纵,实现表达能力并吸引社区利益。通过观察我们精心构造的实验中GPT-4O图像的性能,我们推断出语义编码器而不是VAE提取的GPT-4O图像杠杆功能,而VAE在许多图像操作模型中被认为 ...
0 0 0 2025/07/11 arXiv:2506.03147v4 uu2222

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)