我们介绍了Universe-1,这是一种统一的类似于VEO-3的模型,能够同时生成协调的音频和视频。为了提高培训效率,我们绕过从头开始训练,而是采用专家(SOE)技术的缝制。这种方法深层融合了相应的预训练视频和音乐发电专家模型,从而充分利用了它们的基础能力 ...
嘴唇同步是将扬声器在视频中与相应的语音音频保持一致的任务,这对于创建现实,表现力的视频内容至关重要。但是,现有方法通常依赖于参考框架和掩盖框架插入,这将其鲁棒性限制在身份一致性,姿势变化,面部遮挡和风格化的内容上。此外,由于音频信号比视觉提示提供的调理较弱,因此原始视频中的唇形泄漏会影响唇部同步质量 ...
音频驱动的阿凡达视频的最新进展显着增强了视听现实主义。但是,现有方法仅将指导条件视为由声学或视觉提示驱动的低级跟踪,而无需对指令传达的沟通目的进行建模。这种限制损害了他们的叙事连贯性和性格表现力 ...
长篇小说能力是大型语言模型(LLM)的至关重要能力,因为它减轻了人类为消化长期文本的斗争。该能力使复杂的任务解决方案,例如书籍摘要,代码帮助以及传统上具有人力密集型的更多任务。但是,由于KV缓存的尺寸不断增长以及参与扩展输入的固有复杂性,基于 Transformer 的LLM面临着长篇小说输入的重大挑战。已经提出,已经提出了多个效率驱动的方法(例如KV缓存量化,降低掉落,及时压缩,线性时间序列模型 ...
图形检索仪(GraphRag)通过将零散的知识组织到明确结构的图中,从而有效地增强了复杂推理中的大型语言模型。已经采取了先前的努力来孤立地改善图形构造或图形检索,从而产生次优性能,尤其是在发生域移动时。在本文中,我们提出了一个垂直统一的代理范式Youtu-Graphrag,以将整个框架共同连接为复杂的集成 ...
操作系统调度程序遭受基本语义差距的困扰,内核政策无法理解特定于应用程序的需求,从而导致次优性能。我们介绍了Schedcp,这是一个使完全自主的大型语言模型(LLM)代理可以安全有效地优化Linux调度程序而无需人类参与的框架。我们的核心洞察力是,挑战不仅是应用更好的LLM,而且要构建一个脱钩的控制平面,将AI的语义推理作用(“要优化的内容”)与系统的执行作用(“如何观察和行动”) ...
工具的使用已将大型语言模型(LLMS)变成了强大的代理,可以通过动态利用外部软件组件来执行复杂的多步任务。但是,这些工具必须由人类开发人员提前实施,从而阻碍了LLM代理在要求大量高度专业工具(例如生命科学和医学)的域中的适用性。在科学研究的日益增长的趋势的激励下,我们提出了Toolmaker,这是一个代理框架,该框架将用代码自主将论文转换为LLM兼容的工具 ...
Bird's-eye-View(BEV)感知已成为自动驾驶中的基础范式,使统一的空间表示能够支持强大的多传感器融合和多代理协作。随着自动驾驶汽车从受控环境过渡到现实世界的部署,确保在复杂场景中BEV感知的安全性和可靠性(例如遮挡,不利天气和动态交通)仍然是一个关键的挑战。这项调查从安全性的角度进行了首次对BEV感知的全面审查,系统地分析了三个渐进阶段的最新框架和实施策略:单模式的载体,多模式的载体 ...