一译 —— 文档和论文翻译、对照阅读、讨论和社区

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

我们介绍了Universe-1，这是一种统一的类似于VEO-3的模型，能够同时生成协调的音频和视频。为了提高培训效率，我们绕过从头开始训练，而是采用专家（SOE）技术的缝制。这种方法深层融合了相应的预训练视频和音乐发电专家模型，从而充分利用了它们的基础能力 ...

0 0 0 2025/09/15 arXiv:2509.06155v1 yanghedada

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers

嘴唇同步是将扬声器在视频中与相应的语音音频保持一致的任务，这对于创建现实，表现力的视频内容至关重要。但是，现有方法通常依赖于参考框架和掩盖框架插入，这将其鲁棒性限制在身份一致性，姿势变化，面部遮挡和风格化的内容上。此外，由于音频信号比视觉提示提供的调理较弱，因此原始视频中的唇形泄漏会影响唇部同步质量 ...

0 0 0 2025/09/15 arXiv:2505.21448v1 yanghedada

Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

音频驱动的阿凡达视频的最新进展显着增强了视听现实主义。但是，现有方法仅将指导条件视为由声学或视觉提示驱动的低级跟踪，而无需对指令传达的沟通目的进行建模。这种限制损害了他们的叙事连贯性和性格表现力 ...

0 0 0 2025/09/15 arXiv:2509.09595v1 yanghedada

KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches

长篇小说能力是大型语言模型（LLM）的至关重要能力，因为它减轻了人类为消化长期文本的斗争。该能力使复杂的任务解决方案，例如书籍摘要，代码帮助以及传统上具有人力密集型的更多任务。但是，由于KV缓存的尺寸不断增长以及参与扩展输入的固有复杂性，基于 Transformer 的LLM面临着长篇小说输入的重大挑战。已经提出，已经提出了多个效率驱动的方法（例如KV缓存量化，降低掉落，及时压缩，线性时间序列模型 ...

0 0 0 2025/09/15 arXiv:2407.01527v2 mulanshine

Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning

图形检索仪（GraphRag）通过将零散的知识组织到明确结构的图中，从而有效地增强了复杂推理中的大型语言模型。已经采取了先前的努力来孤立地改善图形构造或图形检索，从而产生次优性能，尤其是在发生域移动时。在本文中，我们提出了一个垂直统一的代理范式Youtu-Graphrag，以将整个框架共同连接为复杂的集成 ...

0 0 0 2025/09/15 arXiv:2508.19855v3 zkq

Towards Agentic OS: An LLM Agent Framework for Linux Schedulers

操作系统调度程序遭受基本语义差距的困扰，内核政策无法理解特定于应用程序的需求，从而导致次优性能。我们介绍了Schedcp，这是一个使完全自主的大型语言模型（LLM）代理可以安全有效地优化Linux调度程序而无需人类参与的框架。我们的核心洞察力是，挑战不仅是应用更好的LLM，而且要构建一个脱钩的控制平面，将AI的语义推理作用（“要优化的内容”）与系统的执行作用（“如何观察和行动”） ...

0 0 0 2025/09/15 arXiv:2509.01245v2 yunfeng

LLM Agents Making Agent Tools

工具的使用已将大型语言模型（LLMS）变成了强大的代理，可以通过动态利用外部软件组件来执行复杂的多步任务。但是，这些工具必须由人类开发人员提前实施，从而阻碍了LLM代理在要求大量高度专业工具（例如生命科学和医学）的域中的适用性。在科学研究的日益增长的趋势的激励下，我们提出了Toolmaker，这是一个代理框架，该框架将用代码自主将论文转换为LLM兼容的工具 ...

0 0 0 2025/09/15 arXiv:2502.11705v2 zhuangxialie

Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey

Bird's-eye-View（BEV）感知已成为自动驾驶中的基础范式，使统一的空间表示能够支持强大的多传感器融合和多代理协作。随着自动驾驶汽车从受控环境过渡到现实世界的部署，确保在复杂场景中BEV感知的安全性和可靠性（例如遮挡，不利天气和动态交通）仍然是一个关键的挑战。这项调查从安全性的角度进行了首次对BEV感知的全面审查，系统地分析了三个渐进阶段的最新框架和实施策略：单模式的载体，多模式的载体 ...

0 0 0 2025/09/15 arXiv:2508.07560v1 xubiao

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）