由于它们在长期依赖性建模方面的强大能力,因此最近引起了人们对将 Transformer 引入3D人姿势估计(HPE)的兴趣激增。但是,现有的基于 Transformer 的方法将身体关节视为同等重要的输入,而忽略了自我注意机制中人类骨架拓扑的先验知识。为了解决这个问题,在本文中,我们提出了一个面向姿势的 Transformer (POT),对3D HPE进行了不确定性的指导性 ...
0 0 0 2025/04/05 arXiv:2302.07408v1 yanyu
虽然模仿学习为政策学习提供了一个简单有效的框架,但在机器人执行过程中采取一致的行动仍然是一项艰巨的任务。现有方法主要集中于在数据策展阶段修改动作表示形式,或者更改模型本身,这两者都无法完全解决一致的动作生成的可扩展性。为了克服这一限制,我们介绍了DIFF控制策略,该策略利用基于扩散的模型从状态空间建模的角度来学习动作表示 ...
0 0 0 2025/04/05 arXiv:2404.12539v3 zack_zhangzh
UAV-VLA(视觉语言动作)系统是一种工具,旨在促进与空中机器人通信。通过将卫星图像处理与视觉语言模型(VLM)和GPT的强大功能集成在一起,UAV-VLA使用户能够通过简单的文本请求生成一般的飞行路径和行动计划。该系统利用卫星图像提供的丰富上下文信息,可以增强决策和任务计划 ...
0 0 0 2025/04/05 arXiv:2501.05014v1 darkarc
视频中单眼3D人类姿势估计的最先进的是由2到3D姿势提升的范式主导。虽然提升方法本身相当有效,但真正的计算复杂性取决于每个框架2D姿势估计。在本文中,我们提出了一个基于 Transformer 的姿势提升方案,该方案可以在时间稀疏的2D姿势序列上运行,但仍会产生时间致密的3D姿势估计 ...
0 0 0 2025/04/05 arXiv:2210.06110v3 yanyu
图像差异字幕(IDC)旨在生成图像对之间微妙差异的自然语言描述,既需要精确的视觉变化定位和连贯的语义表达。尽管有最近的进步,但现有数据集通常缺乏广度和深度,从而限制了它们在复杂而动态的环境中的适用性:(1)从广度的角度来看,当前数据集受到特定场景中对象的有限变化的约束,并且从深度的角度来看,先前的基准分析通常提供过于简单的描述。为了应对这些挑战,我们介绍了Omnidiff,这是一个全面的数据集,其 ...
0 0 0 2025/04/05 arXiv:2503.11093v1 17733052961
在线内容的指数增长对工业推荐系统中的基于ID的模型提出了重大挑战,范围从极高的基数和动态增长的ID空间到高度偏斜的参与分布,再到自然ID寿命周期的预测不稳定(例如,由于新ID和旧ID的诞生和旧IDS的诞生)。为了解决这些问题,许多系统依靠随机哈希来处理ID空间并控制相应的模型参数(i ...
0 1 0 2025/04/05 arXiv:2504.02137v1 macianzhi
基于 Transformer 的架构彻底改变了深度学习的景观。在计算机视觉域中,视觉 Transformer 在与卷积神经网络相当甚至超过卷积神经网络方面表现出色。但是,其自我发项机制的二次计算复杂性对经典计算构成了挑战,从而使模型训练具有高维输入数据,e ...
0 0 0 2025/04/05 arXiv:2504.02730v1 oracle
扩散模型已成为流行的文本到图像生成模型,可以产生以文本提示为指导的高质量和内容丰富的图像。但是,当输入提示是简洁的叙述时,在现有模型中的语义理解和常识性推理存在局限性,从而导致图像生成低。为了提高叙事提示的能力,我们提出了一种简单有效的参数有效的微调方法,称为语义理解和推理适配器(Sur-Adapapter),用于预训练的扩散模型 ...
0 0 0 2025/04/05 arXiv:2305.05189v4 xuan

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)