从随意捕获的单眼视频中重建4D动态场景是有价值的,但又具有挑战性,因为从单个角度观察到每个时间戳。我们介绍了Vivid4d,这是一种新颖的方法,通过增强观察观点来增强4D单眼视频综合 - 从单眼输入中合成多视图视频。与仅利用几何学先验的现有方法进行监督或在俯瞰几何学时使用生成先验的方法,我们都集成了两者 ...
0 0 0 2025/04/18 arXiv:2504.11092v1 KingXHJ
关于人类活动的正确推理方法是什么?最有前途的方向是什么?在这项工作中,我们分析了视频中人类活动的当前状态。本文的目的是检查数据集,评估指标,算法和潜在的未来方向。我们查看定义活动的定性属性,例如姿势变异性,简洁和密度 ...
0 0 0 2025/04/18 arXiv:1708.02696v1 yiyi07
跨视频流的功能匹配仍然是计算机视觉中的基石挑战。强大的多模式匹配越来越多地引起了人们对机器人技术,监视,遥感和医学成像的兴趣。尽管传统依靠检测和匹配的空间特征,但面对嘈杂,未对准或跨模式数据时,它们会分解 ...
0 0 0 2025/04/18 arXiv:2504.11949v1 KingXHJ
遥感对象检测(RSOD)在复杂的视觉环境中面临着巨大的挑战。天线和卫星图像固有地受到诸如低空间分辨率,传感器噪声,模糊的物体,低光降解和部分闭塞等局限性。这些降解因子共同损害了检测模型中的特征可区分性,从而导致了三个关键问题:(1)减少对比度,使前景 - 背景分离受阻,(2)边缘表示中的结构性不连续性,以及(3)由微置变化引起的模棱两可的特征响应 ...
0 0 0 2025/04/18 arXiv:2503.14012v1 COO
尽管推理模型(例如,DeepSeek R1)接受了加固学习(RL)的训练,在文本推理方面表现出色,但它们在需要结构化解决问题的场景中挣扎,例如几何推理,简洁的计算或复杂方程式求解 - 求解方案 - 在其中计算工具(例如代码解释者(CI)(CI)表现出不同的优势)表现出不同的优势 ...
0 0 0 2025/04/18 arXiv:2504.11536v2 yang1young
由于技术和项目需求的快速发展,组织需要将其软件项目中的代码基础升级到编程语言的新版本,甚至可以转化为全新的。但是,代码翻译是资源密集型的,需要在源语言和目标语言方面的专业知识。尽管研究人员在自动化遗产和现代语言之间的翻译方面取得了进展,但最近的工作越来越多地转向了预先训练的大型语言模型(LLMS),以有效地翻译 ...
0 0 0 2025/04/18 arXiv:2501.05724v1 bamanzi
在3D对象分类的领域中,一个基本挑战在于解决标记数据的稀缺性,这限制了传统数据密集型学习范式的适用性。在几次学习方案中,这一挑战尤其明显,在这种情况下,目的是从最小注释的样本中实现强大的概括。为了克服这些局限性,至关重要的是要识别和利用3D对象的最显着和歧视性特征,从而提高学习效率并降低对大型标记数据集的依赖 ...
0 0 0 2025/04/18 arXiv:2501.03221v1 Roa
语言模型(LMS)越来越多地用于推荐系统,因为它们的高级语言理解和发电能力。基于生成检索的最新推荐系统利用了LMS的推论能力直接基于用户交互历史记录中的项目序列,直接生成下一个项目的索引 Token 。先前的研究主要集中在仅基于文本语义或协作信息的项目索引上 ...
0 0 0 2025/04/18 arXiv:2408.08686v2 luxiaoti

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)