定制的视频生成旨在制作具有灵活用户定义条件下特定主题的视频,但是现有方法通常会因身份一致性和有限的输入方式而苦苦挣扎。在本文中,我们提出了Hunyuancustom,这是一个多模式定制的视频生成框架,强调主题一致性,同时支持图像,音频,视频和文本条件。我们的模型建立在HunyuanVideo的基础上,首先通过引入基于LLAVA的文本图像融合模块来解决图像文本条件的生成任务,以增强多模式的理解,并利 ...
0 0 0 2025/05/13 arXiv:2505.04512v2 suxuefeng
隐式神经表示已成为一种强大的范式,以表示图像和声音等信号。这种方法旨在利用神经网络来参数信号的隐式函数。但是,当代表隐式函数时,传统的神经网络(例如基于Relu的多层感知)在准确建模信号的高频组件时面临挑战 ...
0 0 0 2025/05/13 arXiv:2406.03873v3 kkkrd
奖励建模对于将大语言模型(LLM)与人类偏好保持一致,尤其是通过增强人类反馈(RLHF)学习。为了提供准确的奖励信号,奖励模型(RM)应在分配分数或判断之前刺激深思熟虑的思维并进行可解释的推理。但是,现有的RMS要么产生不透明的标量分数,要么直接产生了首选答案的预测,从而使他们难以整合自然语言的批评,因此缺乏可解释性 ...
0 0 0 2025/05/13 arXiv:2505.02387v1 leec
多场景多任务学习已广泛应用于工业应用中的许多推荐系统中,其中一种有效且实用的方法是基于Mixture-of-Expert(MoE)架构进行多场景迁移学习。然而,基于MoE的方法旨在将所有信息投影在同一特征空间中,无法有效处理各种场景和任务之间固有的复杂关系,导致性能不理想。为了解决这个问题,我们提出了一种用于多场景和多任务推荐的分层信息提取网络(HiNet),它实现了基于从粗到精的知识转移方案的分 ...
0 0 0 2025/05/13 arXiv:2303.06095v3 Leeyhom
大型语言模型(LLM)的最新进展激发了人们对建立完全自主的代理商的兴趣。但是,完全自主的LLM代理仍然面临重大挑战,包括由于幻觉而导致的可靠性有限,难以处理复杂的任务以及实质性的安全性和道德风险,所有这些都限制了他们在现实应用程序中的可行性和可信度。为了克服这些局限性,基于LLM的人类代理系统(LLM-HAS)将人提供的信息,反馈或控制纳入代理系统中,以增强系统性能,可靠性和安全性 ...
0 0 0 2025/05/13 arXiv:2505.00753v1 leec
在优化顺序推荐任务中的长期用户参与时,强化学习 (RL) 算法受到越来越多的关注。大规模在线推荐系统面临的挑战之一是用户行为模式的持续而复杂的变化,例如交互率和保留倾向。当将其表述为马尔可夫决策过程(MDP)时,推荐系统的动态和奖励函数会不断受到这些变化的影响 ...
0 0 0 2025/05/13 arXiv:2310.03984v3 qf_ml
在本文中,我们介绍了 DiarizationLM,这是一个利用大型语言模型 (LLM) 对说话者二值化系统的输出进行后处理的框架。使用所提出的框架可以实现各种目标,例如提高分类记录的可读性,或降低单词分类错误率(WDER)。在此框架中,自动语音识别(ASR)和说话人分类系统的输出表示为紧凑的文本格式,该格式包含在可选微调的 LLM 的提示中 ...
0 0 0 2025/05/13 arXiv:2401.03506v11 leosurre
虽然最近基于图像的人类动画方法实现了现实的身体和面部运动综合,但临界差距仍保持精细的整体可控性,多尺度适应性和长期的时间连贯性,从而导致其较低的表现力和稳健性。我们提出了一个基于扩散 Transformer (DIT)的框架Dreamactor-M1,并通过混合指导来克服这些限制。为了进行运动引导,我们的混合控制信号集成了隐式面部表示,3D头部球和3D身体骨架,可实现对面部表情和身体运动的强大控制 ...
0 0 0 2025/05/13 arXiv:2504.01724v3 JyEeee

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)