我们推出了 RoboPhD,这是一个人工智能代理自主进行研究以提高文本到 SQL 性能的系统。 RoboPhD 通过两个协调组件实现闭环演化周期:由数据库分析脚本和 SQL 生成指令组成的 SQL 生成代理,以及根据性能反馈设计新版本的演化代理。该框架的核心是基于 ELO 的选择机制,在处理性能中的非传递性的同时实现适者生存的动态。从简单的 70 行基线开始,RoboPhD 通过迭代异花授粉来发展代理,在文本到 SQL 领域没有任何外部指导的情况下发现有效的技术。我们最好的代理在 18 次迭代中发展到 1500 行,自主发现了诸如大小自适应数据库分析之类的策略,该分析根据模式复杂性和用于列选择、证据解释和聚合的 SQL 生成模式来调整深度。 Evolution 在更便宜的模型上提供了最大的收益:虽然我们比强大的 Claude Opus 4.5 naive 基线提高了 2.3 个点,但我们比较弱的 Claude Haiku 模型提高了 8.9 个点。这使得“跳过一层”部署成为可能:进化的 Haiku 超过了朴素的 Sonnet 的准确性,进化的 Sonnet 超过了朴素的 Opus,两者的成本都较低。整个系统在 BIRD 测试集上达到了 73.67% 的准确率,这表明人工智能可以仅用人类提供的一个微不足道的起点来自主构建强大的代理系统 ...

0 0 0 0 2026/02/15 arXiv:2601.01126v2 jeft

房间脉冲响应(RIR)表征声音在封闭空间中的完整传播过程。本文提出了用于单耳盲 RIR 识别的 Rec-RIR。 Rec-RIR 是基于卷积传递函数 (CTF) 近似开发的,它对短时傅立叶变换 (STFT) 域中窄带滤波器组内的混响效应进行建模。具体来说,我们提出了一种具有跨带和窄带块的深度神经网络(DNN)来估计 CTF 滤波器。 DNN 通过重建无噪声混响语音频谱进行训练。这一目标实现了稳定且直接的监督训练。随后,通过模拟常见的侵入式 RIR 测量过程,采用伪侵入式测量过程将 CTF 滤波器估计转换为时域 RIR。实验结果表明,Rec-RIR 在 RIR 识别和声学参数估计方面均实现了最先进的 (SOTA) 性能。可以通过此 https URL 在线获取开源代码 ...

0 0 0 0 2026/02/15 arXiv:2509.15628v2 wenwen

随着特定于任务的大型语言模型的激增,增量压缩已成为一种通过有效压缩增量模型参数来缓解部署大量此类模型的资源挑战的方法。以前的增量稀疏化方法要么随机删除参数,要么在奇异值分解(SVD)后直接截断奇异向量。然而,这些方法要么完全忽略参数的重要性,要么以太粗的粒度对其进行评估。在这项工作中,我们引入了 ImPart,一种新颖的重要性感知增量稀疏方法。利用 SVD,它根据不同奇异向量的重要性动态调整其稀疏率,即使在高稀疏率下也能有效保留关键的特定任务知识。实验表明,ImPart 实现了最先进的增量稀疏化性能,在相同性能水平下,压缩率比基线高出 2 倍。当与现有方法集成时,ImPart 在增量量化和模型合并方面树立了新的最先进水平 ...

0 0 0 0 2026/02/15 arXiv:2504.13237v1 MTK

创建高保真且可编辑的头部头像是计算机视觉和图形领域的一项关键挑战,推动了许多 AR/VR 应用的发展。虽然最近的进步已经实现了逼真的渲染和合理的动画,但由于几何和全局外观的隐式表示和纠缠建模,头部编辑,尤其是实时外观编辑仍然具有挑战性。为了解决这个问题,我们提出了表面体积高斯头部头像 (SVG-Head),这是一种新颖的混合表示,它使用绑定在 FLAME 网格上的 3D 高斯模型显式地建模几何体,并利用解缠结的纹理图像来捕获全局外观。从技术上讲,它包含两种类型的高斯,其中表面高斯使用可学习的纹理图像显式地模拟头部头像的外观,促进实时纹理编辑,而体积高斯则增强非朗伯区域(例如嘴唇和头发)的重建质量。为了建模 3D 世界和纹理空间之间的对应关系,我们提供了一种网格感知高斯 UV 映射方法,该方法利用 FLAME 网格给出的 UV 坐标来获得清晰的纹理图像和实时渲染速度。进一步设计了分层优化策略,以追求重建质量和编辑灵活性方面的最佳性能。在 NeRSemble 数据集上的实验表明,SVG-Head 不仅可以生成高保真渲染结果,而且是第一个获得高斯头部头像显式纹理图像并支持实时外观编辑的方法 ...

0 0 0 0 2026/02/15 arXiv:2508.09597v2 jiaru19960501

基于视觉语言模型 (VLM) 的 GUI 代理有望实现复杂桌面和移动任务的自动化,但在应用强化学习 (RL) 方面面临着重大挑战:(1) 与用于策略推出的 GUI 环境的多轮交互缓慢,以及 (2) 用于策略学习的高质量代理与环境交互不足。为了应对这些挑战,我们提出了 DART,一种用于 GUI 代理的解耦代理 RL 训练框架,它以高度解耦的方式协调异构模块。 DART 将训练系统分为四个异步模块:环境集群、转出服务、数据管理器和训练器。此设计可实现无阻塞通信、异步训练、rollout-wise 轨迹采样和每个工作线程模型同步,从而显着提高系统效率:rollout 的 GPU 利用率为 1.6*,训练吞吐量为 1.9*,环境利用率为 5.5*。为了促进从丰富的样本中有效学习,我们引入了一种自适应数据管理方案:(1)预先收集具有挑战性的任务的成功轨迹,以补充在线采样中稀疏的成功; (2)根据任务难度动态调整rollout数量和轨迹长度; (3) 有选择地进行高熵步骤的训练,以优先考虑关键决策; (4) 通过截断重要性抽样来稳定学习,以解决政策推出和更新之间的政策不匹配问题。在 OSWorld 基准上,DART-GUI-7B 实现了 42.13% 的任务成功率,比基础模型绝对增益 14.61%,比开源 SOTA 高 7.34%。我们将通过这个 http URL 完全开源我们的训练框架、数据和模型检查点,我们相信这是对代理 RL 训练开源社区的及时贡献 ...

0 0 0 0 2026/02/15 arXiv:2509.23866v1 xiewende

大视觉语言模型的发展推动了对海量多模态数据的管理和应用的需求,使得从视觉图像中提取信息的OCR技术越来越受欢迎。然而,现有的 OCR 方法主要侧重于从图像或扫描文档中识别文本元素(\textbf{以文本为中心的 OCR}),忽略了从视觉信息密集的图像源(\textbf{以视觉为中心的 OCR})中识别视觉元素,例如图表、网页和科学绘图。事实上,这些视觉信息密集的图像在互联网上广泛存在,并且具有重要的现实应用价值,例如数据可视化和网页分析。在这份技术报告中,我们提出了 \textbf{OCRVerse},这是第一个端到端的整体 OCR 方法,可以实现统一的以文本为中心的 OCR 和以视觉为中心的 OCR。为此,我们构建了全面的数据工程,涵盖各种以文本为中心的文档,例如报纸、杂志和书籍,以及以视觉为中心的渲染复合材料,包括图表、网页和科学绘图。此外,我们还提出了一种针对 OCRVerse 的两阶段 SFT-RL 多域训练方法。 SFT直接混合跨领域数据来训练和建立初始领域知识,而RL则侧重于针对每个领域的特点设计个性化的奖励策略。具体来说,由于不同的领域需要不同的输出格式和预期输出,因此我们在 RL 阶段提供足够的灵活性,为每个领域定制灵活的奖励信号,从而提高跨领域融合并避免数据冲突。实验结果证明了 OCRVerse 的有效性,在以文本为中心和以视觉为中心的数据类型上取得了有竞争力的结果,甚至可以与大规模开源和闭源模型相媲美 ...

0 0 0 0 2026/02/15 arXiv:2601.21639v2 moshmode

3D面部动画因其在多媒体领域的广泛应用而受到广泛关注。 Audio-driven 3D facial animation has been widely explored with promising results.然而,由于缺乏多模态 3D 面部动画数据集,多模态 3D 面部动画,特别是文本引导的 3D 面部动画很少被探索。为了填补这一空白,我们首先构建了一个大规模多模态 3D 面部动画数据集 MMHead,它由 49 小时的 3D 面部运动序列、语音音频和丰富的分层文本注释组成。每个文本注释包含抽象的动作和情感描述、细粒度的面部和头部运动(即表情和头部姿势)描述以及可能引起这种情感的三种可能场景。具体来说,我们整合了五个公共 2D 肖像视频数据集,并提出了一个自动管道:1)从单目视频重建 3D 面部运动序列; and 2) obtain hierarchical text annotations with the help of AU detection and ChatGPT.基于 MMHead 数据集,我们为两个新任务建立了基准:文本引发的 3D 头部说话动画和文本到 3D 面部运动生成。此外,提出了一种简单但有效的基于 VQ-VAE 的方法(MM2Face)来统一多模态信息并生成多样化且可信的 3D 面部运动,该方法在两个基准测试中都取得了有竞争力的结果。大量的实验和全面的分析证明了我们的数据集和基准在促进多模态 3D 面部动画发展方面的巨大潜力 ...

0 0 0 0 2026/02/15 arXiv:2410.07757v1 alex666

从自然语言生成动态 3D 面部动画需要理解时间结构语义和细粒度的表情变化。现有的数据集和方法主要关注语音驱动的动画或非结构化表达序列,因此缺乏表达性人类表演生成所需的语义基础和时间结构。在这项工作中,我们介绍了 KeyframeFace,这是一个大型多模态数据集,旨在通过关键帧级监督进行文本到动画研究。 KeyframeFace 提供 2,100 个表达脚本,搭配单目视频、每帧 ARKit 系数、上下文背景、复杂情感、手动定义的关键帧以及通过大语言模型 (LLM) 和多模态大语言模型 (MLLM) 基于 ARKit 系数和图像的多视角注释。除了数据集之外,我们还提出了第一个文本到动画框架,该框架明确利用 LLM 先验来进行可解释的面部运动合成。该设计将 LLM 的语义理解能力与 ARKit 系数的可解释结构结合起来,从而实现高保真表达动画。 KeyframeFace 和我们基于 LLM 的框架共同为可解释、关键帧引导和上下文感知的文本到动画奠定了新的基础。代码和数据可从此 https URL 获取 ...

0 0 0 0 2026/02/15 arXiv:2512.11321v1 alex666

语音驱动的 3D 面部动画旨在产生与语音内容及其情感细微差别同步的逼真面部表情,在各种多媒体领域都有应用。然而,以前的方法经常忽视情绪面部表情或无法有效地将它们与演讲内容分开。为了应对这些挑战,我们提出了 EmoDiffusion,这是一种新颖的方法,可以分解语音中的不同情绪,生成丰富的 3D 情感面部表情。具体来说,我们的方法采用两个变分自动编码器(VAE)分别生成上脸区域和嘴部区域,从而学习面部序列的更精细的表示。与使用扩散模型将面部表情序列与音频输入连接起来的传统方法不同,我们在潜在空间中执行扩散过程。此外,我们引入了情感适配器来准确评估上脸运动。鉴于动画行业中3D情感说话人脸数据的缺乏,我们在动画专家的指导下使用iPhone上的LiveLinkFace捕捉面部表情。这项工作最终创建了一个创新的 3D Blendshape 情感说话面部数据集 (3D-BEF),用于训练我们的网络。大量的实验和感知评估验证了我们方法的有效性,证实了其在生成逼真且情感丰富的面部动画方面的优越性 ...

0 0 0 0 2026/02/15 arXiv:2503.11028v1 alex666

一致性正则化在最近的半监督语义分割方法中得到了广泛的研究,并取得了可喜的性能。在这项工作中,我们提出了一种新的一致性正则化框架,称为相互知识蒸馏(MKD),结合了数据和特征增强。我们引入了两种基于一致性正则化的辅助均值教师模型。更具体地说,我们使用平均教师生成的伪标签来监督学生网络,以实现两个分支之间的相互知识蒸馏。除了使用图像级强增强和弱增强之外,我们还讨论特征增强。这涉及考虑各种知识来源来提炼学生网络。因此,我们可以显着增加训练样本的多样性。公共基准测试表明,我们的框架在各种半监督设置下优于以前最先进的(SOTA)方法。代码可在 semi-mmseg 获取 ...

0 0 0 0 2026/02/14 arXiv:2208.11499v3 mixiu