随着对高质量渲染的需求的增长,会说话的产量在各个领域都具有重要的重视。但是,现有方法通常会遭受身份泄漏(IL)和渲染工件(RA)的困扰,尤其是在极端情况下。通过对先前方法的深入分析,我们确定了两个关键见解:(1)IL来自运动特征中嵌入的身份信息,并且(2)可以利用此身份信息来解决RA ...
0 0 0 2025/07/16 arXiv:2507.01390v1 yanghedada
近年来,文本,图像和音频端到端的人类动画具有丰富的多模式条件,近年来取得了显着的进步 ...
0 0 0 2025/07/16 arXiv:2506.09984v1 yanghedada
可控的以人为中心的视频生成的领域见证了非凡的进步,尤其是随着扩散模型的出现。但是,在视频中实现对人类运动的精确和局部控制,例如更换或插入个体的同时保留所需的运动模式,仍然仍然是一个巨大的挑战。在这项工作中,我们介绍了替代品的框架,该框架着重于局部的人类替代品和具有复杂背景的插入 ...
0 0 0 2025/07/16 arXiv:2409.19911v2 yanghedada
多模式大语言模型(MLLM)的体系结构通常将视觉编码器(通常基于剪辑量)连接到大型语言模型。尽管剪辑量可以很好地捕获全局图像特征,但它努力地模拟相邻补丁之间的局部关系,从而导致视觉表示较弱,从而影响MLLM的详细理解能力。为了解决这个问题,我们提出了LLAVA-SP,它仅在原始的视觉 Token 中添加了六个空间视觉 Token ,以增强视觉表示 ...
0 0 0 2025/07/16 arXiv:2507.00505v3 Jht
我们提出了一个基于强大的集合系统,用于多语言多模式推理,该系统为Imageclef 2025考试V挑战而设计。我们的方法集成了Gemini 2.5闪光灯进行视觉描述,双子座1 ...
0 0 0 2025/07/16 arXiv:2507.11114v1 Barca
大型语言模型 (LLM) 在自然语言任务方面表现出了良好的前景,但在直接应用于金融等复杂领域时却遇到了困难。 LLM 很难推理和整合所有相关信息。我们提出了一种以数据为中心的方法,使 LLM 能够更好地处理财务任务 ...
0 0 0 2025/07/16 arXiv:2310.17784v2 yang1young
最近,人们对具有长期记忆力的对话剂的兴趣越来越大,这导致了使用检索型发电(RAG)的语言模型的快速发展。直到最近,关于抹布的大多数工作都集中在从Wikipedia等大型文本数据库中检索信息,而不是从长篇对话中进行的信息。在本文中,我们认为,与静态数据库检索相比,从长形式的对话数据中有效检索面临两个独特的问题:1)基于时间/事件的查询,该查询要求该模型根据时间或对话事件的顺序检索有关先前对话的信息( ...
0 0 0 2025/07/16 arXiv:2406.00057v2 elonmusk
解决复杂的现实世界问题需要深入的信息寻求和多步推理。代理系统的最新进展以深入的研究为例,强调了自动多步研究的潜力。在这项工作中,我们提出了一个有凝聚力的范式,用于从以数据为中心和培训阶段的角度来构建端到端的代理信息 ...
0 0 0 2025/07/16 arXiv:2505.22648v2 the_highflyer

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)