在这项工作中,我们专注于弱监督的负担基础的任务,在该任务中,使用人类对象相互作用图像和不具有致密标签的人类对象相互作用图像和以自我为中心的对象图像来识别对象的负担区域。以前的作品主要建立在类激活图的基础上,该图对于语义分割有效,但可能不适合定位动作和功能。利用最近的高级基础模型,我们开发了基于伪标签的监督培训管道 ...
0 0 0 2025/07/04 arXiv:2505.24103v1 yiyi07
在视频中定位人类对象的相互作用(HOI)动作是多个下游任务的基础,例如人类行为分析和人类机器人技能转移。当前的时间动作定位方法通常依赖于注释的动作和对象类别进行优化,从而导致域偏差和低部署效率。尽管最近的一些作品已经实现了具有大视觉模型(VLM)的零拍动时间动作定位(ZS-TAL),但它们的粗粒估计和开环管道阻碍了时间交互定位(TIL)的进一步性能改善 ...
0 0 0 2025/07/04 arXiv:2506.03662v2 yiyi07
需要视频逼真的样式传输,以生成具有与样式图像相似的影像样式的视频,同时保持时间一致性。但是,现有方法通过执行逐帧的影像风格转移来获得程式化的视频序列,这效率低下,无法确保风格化视频的时间一致性。为了解决这个问题,我们使用基于神经网络的3D查找表(LUTS)进行视频的影片转移,从而在效率和有效性之间取得了平衡 ...
0 0 0 2025/07/04 arXiv:2303.09170v2 howieeyang
近年来,人类对象相互作用(HOI)检测取得了重大进展。但是,现有的作品集中在具有理想图像和自然分布的标准设置上,远非不可避免的分配变化的实际情况。这阻碍了HOI检测的实际适用性 ...
0 0 0 2025/07/04 arXiv:2506.18021v1 yiyi07
矢量化高清(HD)地图对于自动驾驶系统至关重要。最近,最新的地图矢量化方法主要基于类似DITR的框架,以端到端的方式生成HD地图。在本文中,我们提出了相互作用图,该互动示例通过在时间和空间中充分利用局部到全球信息的交互来改善先前的MAP矢量化方法 ...
0 0 0 2025/07/04 arXiv:2503.21659v1 xiaotianyu
混响在音乐制作中起着至关重要的作用,在音乐制作中,它为听众提供了音乐的空间认识,音色和音乐的质感。然而,即使是熟练的工程师,重现参考音乐曲目的音乐混响也是一个挑战。作为回应,我们提出了一个端到端系统,能够切换两个不同混合声带的音乐混响系数 ...
0 0 0 2025/07/04 arXiv:2103.02147v1 wenwen
涉及机器人臂的现实世界操纵数据对于制定通才行动政策至关重要,但是由于现有数据收集方法受到高成本,硬件依赖性和复杂的设置要求的阻碍,因此此类数据仍然很少。在这项工作中,我们介绍了Fastumi,这是通用操纵界面(UMI)系统的实质性重新设计,该系统通过启用快速部署,简化硬件软件集成并在现实世界数据采集中提供了良好的性能来解决这些挑战。与UMI相比,Fastumi具有多个优点:1)它采用了脱钩的硬件设 ...
0 0 0 2025/07/04 arXiv:2409.19499v2 duhuan0419
确保一致性是指使模型按照人类意图行事[1,2],在将大型语言模型(LLM)(LLMS)在现实世界应用中部署之前已成为一项关键任务。例如,Openai在发布之前将六个月用于迭代对准GPT-4 [3]。但是,从业人员面临的主要挑战是缺乏评估LLM输出是否与社会规范,价值观和法规保持一致的明确指南 ...
0 0 0 2025/07/04 arXiv:2308.05374v2 xyz_syx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)