我们提出了HDIFFTG,这是一种新型的3D人姿势估计(3DHPE)方法,该方法将 Transformer ,图形卷积网络(GCN)和扩散模型集成到统一框架中。 HDIFFTG利用这些技术的优势来显着提高姿势估计的精度和鲁棒性,同时保持轻量级设计。 Transformer 捕获全局时空依赖性,GCN模型局部骨骼结构,扩散模型为微调提供了逐步优化,从而实现了全球和局部特征之间的互补平衡 ...
0 0 0 2025/05/15 arXiv:2505.04276v1 LRL
关于语言表示的最新工作将上下文化的功能仔细地集成到语言模型培训中,这使得一系列成功,尤其是在各种机器阅读理解和自然语言推论任务中。但是,现有的语言表示模型在内,包括Elmo,GPT和BERT仅利用纯平上下文敏感的特征,例如字符或单词嵌入。他们很少考虑合并结构化的语义信息,这些信息可以为语言表示提供丰富的语义 ...
0 0 0 2025/05/15 arXiv:1909.02209v3 snowpigppp
我们提出了F5R-TTS,这是一种新颖的文本到语音(TTS)系统,该系统将梯度奖励策略优化(GRPO)集成到基于流程匹配的架构中。通过重新将匹配TT的确定性输出重新定为概率高斯分布,我们的方法可以无缝整合增强学习算法。在预训练期间,我们训练一个基于概率重新匹配的基于流动匹配的模型,该模型源自具有开源数据集的F5-TT ...
0 0 0 2025/05/15 arXiv:2504.02407v3 Du
We present a dedicated automated pipeline to construct spatially resolved emission H$\alpha$+[NII] maps and to derive the spectral energy distributions (SEDs) in 12 optical filters (five broad and sev ...
0 0 0 2025/05/15 arXiv:2502.05830v1 liuyujia
为了成功执行通用数字任务,例如Web导航,代理必须执行各种专业任务,例如搜索产品或计划旅行路线。为了解决这些任务,代理可以通过与网络环境互动在线学习特定于任务的技能来引导自己。在这项工作中,我们证明程序是技能的有效代表 ...
0 0 0 2025/05/15 arXiv:2504.06821v1 chrisxiong
基于 Transformer 的模型通过捕获短语对之间的连接在语义匹配任务中取得了重大步骤。但是,为了评估句子对的相关性,仅检查句子之间的一般相似性是不足的。也必须考虑将它们与彼此区分开来的微小微妙之处 ...
0 0 0 2025/05/15 arXiv:2412.07220v1 snowpigppp
在自然语言处理中,建模语义相关性一直是一项具有挑战性和重要的任务。近年来,随着大量注释数据的出现,训练复杂模型(例如基于神经网络的推理模型)变得可行。这些模型在实际应用中表现出色,并实现了当前的最新性能 ...
0 0 0 2025/05/15 arXiv:2505.06605v1 snowpigppp
多模式漫画分析的重点是通过视觉和文本特征增强漫画理解,这引起了自然语言处理和计算机视觉社区的极大关注。当前,大多数漫画都是手绘,容易出现诸如缺少页面,文本污染和老化等问题,从而导致漫画文本内容缺失并严重阻碍了人类的理解。换句话说,尚未研究多模式漫画补充(M2C)任务,该任务旨在通过为视觉和语言理解提供共同的语义空间来处理上述问题 ...
0 0 0 2025/05/15 arXiv:2310.17130v1 18232448525

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)