视频基础模型在网络升级和模型扩展的帮助下取得了重大进步。但是,由于发电质量不满意,它们仍然很难满足应用的要求。为了解决这个问题,我们建议从本文的培训后的角度将视频基础模型与人类的偏好相结合 ...
0 0 0 2025/04/22 arXiv:2502.02088v3 kevinson
当人类四处走动,执行日常任务时,他们能够回忆起将物体放在环境中的位置,即使这些物体目前不在视线之外。在本文中,我们旨在模仿这种空间认知能力。因此,我们制定了看不见的任务,而不是脑海-3D使用通过以自我为中心的相机捕获的观测值跟踪活动对象 ...
0 0 0 2025/04/22 arXiv:2404.05072v2 wangxiaolong
时间动作提案的生成旨在估计未修剪视频中动作的时间间隔,这在视频理解领域中是一项具有挑战性但重要的任务。由于缺乏有效的时间建模和有效的边界环境利用率,目前方法产生的建议仍然遭受用于检索的时间边界和较低置信度。在本文中,我们提出了时间上下文聚合网络(TCANET),以通过“本地和全局”的时间上下文聚合和互补以及渐进的边界改进来生成高质量的行动建议 ...
0 0 0 2025/04/22 arXiv:2103.13141v1 xixiaixixi
从视频中对3D人类运动的估计迅速发展,但当前的方法仍然存在几个关键局限性。首先,大多数方法在相机坐标中估计人类。其次,对全球坐标中人类的先前工作通常会假定平面平面并产生脚部滑动 ...
0 0 0 2025/04/22 arXiv:2312.07531v2 2359175938
近年来,大型语言模型(LLM)集成到推荐系统中,引起了从业人员和研究人员的兴趣。尽管有这种兴趣,但该领域仍在出现,缺乏开源研发平台可能会阻碍基于LLM的建议的探索。本文介绍了OpenP5,这是一个开源平台,旨在促进用于研究目的的基于LLM的生成推荐系统的开发,培训和评估 ...
0 0 0 2025/04/22 arXiv:2306.11134v2 frank642
在大型语言模型时代,参数有效的微调(PEFT)已成为用于微调的主要技术。但是,现有的PEFT方法仍然没有足够的培训效率。首先,对于某些微调任务,在培训过程中使用大规模基础模型的利用过多 ...
0 0 0 2025/04/22 arXiv:2406.03792v1 youkbok
在杂乱的环境中抓住对象仍然是机器人操纵中的一个基本而又具有挑战性的问题。虽然先前的作品已经探索了两指抓手的推动和抓握之间基于学习的协同作用,但很少有人利用灵巧的手利用高度自由度(DOF)来执行有效的唱片,以在杂乱的设置中抓住。在这项工作中,我们介绍了DexsingRasp,这是一种巧妙的对象奇异和抓握的统一政策 ...
0 0 0 2025/04/22 arXiv:2504.04516v1 veux
纵向网络数据对于分析政治,经济和社会制度和过程至关重要。在政治学中,这些数据集通常是通过人类注释或应用于不断发展的语料库的监督机器学习而产生的。但是,随着语义环境随着时间的流逝而变化,在各种实体中推断出的动态互动类型会带来重大挑战,尤其是在保持及时和一致的注释方面 ...
0 0 0 2025/04/22 arXiv:2503.01672v1 woodman

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)