收集大规模数据集对于训练深层模型,注释数据至关重要,但是,不可避免地会产生嘈杂的标签,这给深度学习算法带来了挑战。以前的努力倾向于通过识别和删除嘈杂的样本或根据统计属性纠正其标签来减轻此问题(例如 ...
0 0 0 2025/07/16 arXiv:2302.06805v2 cuirun
通过扩散模型,谈话头部发电(THG)的最新进展(THG)取得了令人印象深刻的同步和视觉质量。然而,现有的方法难以在保持演讲者身份的同时产生情感表达的肖像。我们确定了当前情感上的话题的三个临界局限性:对音频固有的情绪提示的利用不足,情绪表征中的身份泄漏以及情绪相关性的孤立学习。为了应对这些挑战,我们提出了一个新颖的框架,称为骰子谈话,遵循将身份解散为情感,然后与具有相似特征的情绪合作的想法 ...
0 0 0 2025/07/16 arXiv:2504.18087v1 yanghedada
为了解决人类对象相互作用(HOI)视频生成的关键局限性 - 特别是对精选运动数据的依赖,对新型对象/场景的概括有限,以及受限的可访问性 - 我们引入了Hunyuanvideo-Homa,这是一个弱条件的多模态驱动框架。 Hunyuanvideo-Homa通过稀疏,脱钩的运动引导可以增强可控性,并降低对精确输入的依赖。它将外观和运动信号编码到多模式扩散 Transformer (MMDIT)的双输入 ...
0 0 0 2025/07/16 arXiv:2506.08797v1 yanghedada
随着对高质量渲染的需求的增长,会说话的产量在各个领域都具有重要的重视。但是,现有方法通常会遭受身份泄漏(IL)和渲染工件(RA)的困扰,尤其是在极端情况下。通过对先前方法的深入分析,我们确定了两个关键见解:(1)IL来自运动特征中嵌入的身份信息,并且(2)可以利用此身份信息来解决RA ...
0 0 0 2025/07/16 arXiv:2507.01390v1 yanghedada
近年来,文本,图像和音频端到端的人类动画具有丰富的多模式条件,近年来取得了显着的进步 ...
0 0 0 2025/07/16 arXiv:2506.09984v1 yanghedada
可控的以人为中心的视频生成的领域见证了非凡的进步,尤其是随着扩散模型的出现。但是,在视频中实现对人类运动的精确和局部控制,例如更换或插入个体的同时保留所需的运动模式,仍然仍然是一个巨大的挑战。在这项工作中,我们介绍了替代品的框架,该框架着重于局部的人类替代品和具有复杂背景的插入 ...
0 0 0 2025/07/16 arXiv:2409.19911v2 yanghedada
多模式大语言模型(MLLM)的体系结构通常将视觉编码器(通常基于剪辑量)连接到大型语言模型。尽管剪辑量可以很好地捕获全局图像特征,但它努力地模拟相邻补丁之间的局部关系,从而导致视觉表示较弱,从而影响MLLM的详细理解能力。为了解决这个问题,我们提出了LLAVA-SP,它仅在原始的视觉 Token 中添加了六个空间视觉 Token ,以增强视觉表示 ...
0 0 0 2025/07/16 arXiv:2507.00505v3 Jht
我们提出了一个基于强大的集合系统,用于多语言多模式推理,该系统为Imageclef 2025考试V挑战而设计。我们的方法集成了Gemini 2.5闪光灯进行视觉描述,双子座1 ...
0 0 0 2025/07/16 arXiv:2507.11114v1 Barca

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)