深度神经网络预测的实例感知嵌入彻底改变了生物医学实例分割,但其资源需求巨大。知识蒸馏提供了一种解决方案,将蒸馏知识从繁重的教师网络转移到轻量级但高性能的学生网络。然而,现有的知识蒸馏方法难以提取用于区分实例的知识,并且忽略了全局关系信息。为了解决这些挑战,我们提出了一种用于高效生物医学实例分割的图关系蒸馏方法,该方法考虑了三种基本类型的知识:实例级特征、实例关系和像素级边界。我们介绍了在图像内级别和图像间级别部署的两种图蒸馏方案:实例图蒸馏(IGD)和亲和图蒸馏(AGD)。 IGD 构造一个表示实例特征和关系的图,通过强制实例图一致性来传递这两类知识。 AGD构建表示像素关系的亲和图来捕获实例边界的结构化知识,通过确保像素亲和一致性来传递边界相关知识。许多生物医学数据集的实验结果验证了我们方法的有效性,使学生模型具有少于 1\%$ 的参数和少于 10\%$ 的推理时间,同时与教师模型相比实现了有希望的性能 ...

0 0 0 0 2026/02/15 arXiv:2401.06370v1 mixiu

知识蒸馏(KD)是一种既定范例,用于将特权知识从繁琐的模型转移到轻量级且高效的模型。近年来,基于 logit 的 KD 方法在性能上迅速赶上基于特征的方法。然而,之前的研究指出,基于logit的方法仍然从根本上受到训练过程中两个主要问题的限制,即教师过度自信和确认偏差。受到跨视图学习在半监督学习等领域成功的启发,在这项工作中,我们将视图内和跨视图正则化引入到基于逻辑的标准蒸馏框架中,以解决上述难题。我们还进行基于置信度的软标签挖掘,以提高从教师那里提取信号的质量,这进一步减轻了确认偏差问题。尽管其表面上很简单,但所提出的基于一致性正则化的 Logit Distillation (CRLD) 显着促进了学生的学习,在各种教师和学生架构的标准 CIFAR-100、Tiny-ImageNet 和 ImageNet 数据集上设置了新的最先进的结果,同时不引入额外的网络参数。与正在进行的基于 Logit 的蒸馏研究正交,我们的方法具有出色的泛化特性,并且无需任何附加功能,就可以显着提高各种现有方法的性能 ...

0 0 0 0 2026/02/15 arXiv:2412.16493v1 mixiu

大量医学图像的自动分割常常受到完全注释数据的有限可用性以及由于对不同患者使用不同采集协议而导致的器官表面特性的多样性的困扰。在本文中,我们介绍了一种更有前途的基于小样本学习的方法,称为区域增强原型变换器(RPT),以减轻大的类内多样性/偏差的影响。首先,引入细分策略,从支撑原型的前台产生区域原型的集合。其次,提出了一种自选择机制,将其合并到偏置 Transformer (BaT)块中,以抑制或消除查询原型和区域支持原型中存在的干扰。通过堆叠 BaT 块,所提出的 RPT 可以迭代优化生成的区域原型,并最终为少样本医学图像分割(FSMS)生成校正且更准确的全局原型。在三个公开可用的医学图像数据集上进行了广泛的实验,获得的结果显示与最先进的 FSMS 方法相比有一致的改进。源代码位于:此 https URL ...

0 0 0 0 2026/02/15 arXiv:2309.04825v1 mixiu

我们推出了 RoboPhD,这是一个人工智能代理自主进行研究以提高文本到 SQL 性能的系统。 RoboPhD 通过两个协调组件实现闭环演化周期:由数据库分析脚本和 SQL 生成指令组成的 SQL 生成代理,以及根据性能反馈设计新版本的演化代理。该框架的核心是基于 ELO 的选择机制,在处理性能中的非传递性的同时实现适者生存的动态。从简单的 70 行基线开始,RoboPhD 通过迭代异花授粉来发展代理,在文本到 SQL 领域没有任何外部指导的情况下发现有效的技术。我们最好的代理在 18 次迭代中发展到 1500 行,自主发现了诸如大小自适应数据库分析之类的策略,该分析根据模式复杂性和用于列选择、证据解释和聚合的 SQL 生成模式来调整深度。 Evolution 在更便宜的模型上提供了最大的收益:虽然我们比强大的 Claude Opus 4.5 naive 基线提高了 2.3 个点,但我们比较弱的 Claude Haiku 模型提高了 8.9 个点。这使得“跳过一层”部署成为可能:进化的 Haiku 超过了朴素的 Sonnet 的准确性,进化的 Sonnet 超过了朴素的 Opus,两者的成本都较低。整个系统在 BIRD 测试集上达到了 73.67% 的准确率,这表明人工智能可以仅用人类提供的一个微不足道的起点来自主构建强大的代理系统 ...

0 0 0 0 2026/02/15 arXiv:2601.01126v2 jeft

房间脉冲响应(RIR)表征声音在封闭空间中的完整传播过程。本文提出了用于单耳盲 RIR 识别的 Rec-RIR。 Rec-RIR 是基于卷积传递函数 (CTF) 近似开发的,它对短时傅立叶变换 (STFT) 域中窄带滤波器组内的混响效应进行建模。具体来说,我们提出了一种具有跨带和窄带块的深度神经网络(DNN)来估计 CTF 滤波器。 DNN 通过重建无噪声混响语音频谱进行训练。这一目标实现了稳定且直接的监督训练。随后,通过模拟常见的侵入式 RIR 测量过程,采用伪侵入式测量过程将 CTF 滤波器估计转换为时域 RIR。实验结果表明,Rec-RIR 在 RIR 识别和声学参数估计方面均实现了最先进的 (SOTA) 性能。可以通过此 https URL 在线获取开源代码 ...

0 0 0 0 2026/02/15 arXiv:2509.15628v2 wenwen

随着特定于任务的大型语言模型的激增,增量压缩已成为一种通过有效压缩增量模型参数来缓解部署大量此类模型的资源挑战的方法。以前的增量稀疏化方法要么随机删除参数,要么在奇异值分解(SVD)后直接截断奇异向量。然而,这些方法要么完全忽略参数的重要性,要么以太粗的粒度对其进行评估。在这项工作中,我们引入了 ImPart,一种新颖的重要性感知增量稀疏方法。利用 SVD,它根据不同奇异向量的重要性动态调整其稀疏率,即使在高稀疏率下也能有效保留关键的特定任务知识。实验表明,ImPart 实现了最先进的增量稀疏化性能,在相同性能水平下,压缩率比基线高出 2 倍。当与现有方法集成时,ImPart 在增量量化和模型合并方面树立了新的最先进水平 ...

0 0 0 0 2026/02/15 arXiv:2504.13237v1 MTK

创建高保真且可编辑的头部头像是计算机视觉和图形领域的一项关键挑战,推动了许多 AR/VR 应用的发展。虽然最近的进步已经实现了逼真的渲染和合理的动画,但由于几何和全局外观的隐式表示和纠缠建模,头部编辑,尤其是实时外观编辑仍然具有挑战性。为了解决这个问题,我们提出了表面体积高斯头部头像 (SVG-Head),这是一种新颖的混合表示,它使用绑定在 FLAME 网格上的 3D 高斯模型显式地建模几何体,并利用解缠结的纹理图像来捕获全局外观。从技术上讲,它包含两种类型的高斯,其中表面高斯使用可学习的纹理图像显式地模拟头部头像的外观,促进实时纹理编辑,而体积高斯则增强非朗伯区域(例如嘴唇和头发)的重建质量。为了建模 3D 世界和纹理空间之间的对应关系,我们提供了一种网格感知高斯 UV 映射方法,该方法利用 FLAME 网格给出的 UV 坐标来获得清晰的纹理图像和实时渲染速度。进一步设计了分层优化策略,以追求重建质量和编辑灵活性方面的最佳性能。在 NeRSemble 数据集上的实验表明,SVG-Head 不仅可以生成高保真渲染结果,而且是第一个获得高斯头部头像显式纹理图像并支持实时外观编辑的方法 ...

0 0 0 0 2026/02/15 arXiv:2508.09597v2 jiaru19960501

基于视觉语言模型 (VLM) 的 GUI 代理有望实现复杂桌面和移动任务的自动化,但在应用强化学习 (RL) 方面面临着重大挑战:(1) 与用于策略推出的 GUI 环境的多轮交互缓慢,以及 (2) 用于策略学习的高质量代理与环境交互不足。为了应对这些挑战,我们提出了 DART,一种用于 GUI 代理的解耦代理 RL 训练框架,它以高度解耦的方式协调异构模块。 DART 将训练系统分为四个异步模块:环境集群、转出服务、数据管理器和训练器。此设计可实现无阻塞通信、异步训练、rollout-wise 轨迹采样和每个工作线程模型同步,从而显着提高系统效率:rollout 的 GPU 利用率为 1.6*,训练吞吐量为 1.9*,环境利用率为 5.5*。为了促进从丰富的样本中有效学习,我们引入了一种自适应数据管理方案:(1)预先收集具有挑战性的任务的成功轨迹,以补充在线采样中稀疏的成功; (2)根据任务难度动态调整rollout数量和轨迹长度; (3) 有选择地进行高熵步骤的训练,以优先考虑关键决策; (4) 通过截断重要性抽样来稳定学习,以解决政策推出和更新之间的政策不匹配问题。在 OSWorld 基准上,DART-GUI-7B 实现了 42.13% 的任务成功率,比基础模型绝对增益 14.61%,比开源 SOTA 高 7.34%。我们将通过这个 http URL 完全开源我们的训练框架、数据和模型检查点,我们相信这是对代理 RL 训练开源社区的及时贡献 ...

0 0 0 0 2026/02/15 arXiv:2509.23866v1 xiewende

大视觉语言模型的发展推动了对海量多模态数据的管理和应用的需求,使得从视觉图像中提取信息的OCR技术越来越受欢迎。然而,现有的 OCR 方法主要侧重于从图像或扫描文档中识别文本元素(\textbf{以文本为中心的 OCR}),忽略了从视觉信息密集的图像源(\textbf{以视觉为中心的 OCR})中识别视觉元素,例如图表、网页和科学绘图。事实上,这些视觉信息密集的图像在互联网上广泛存在,并且具有重要的现实应用价值,例如数据可视化和网页分析。在这份技术报告中,我们提出了 \textbf{OCRVerse},这是第一个端到端的整体 OCR 方法,可以实现统一的以文本为中心的 OCR 和以视觉为中心的 OCR。为此,我们构建了全面的数据工程,涵盖各种以文本为中心的文档,例如报纸、杂志和书籍,以及以视觉为中心的渲染复合材料,包括图表、网页和科学绘图。此外,我们还提出了一种针对 OCRVerse 的两阶段 SFT-RL 多域训练方法。 SFT直接混合跨领域数据来训练和建立初始领域知识,而RL则侧重于针对每个领域的特点设计个性化的奖励策略。具体来说,由于不同的领域需要不同的输出格式和预期输出,因此我们在 RL 阶段提供足够的灵活性,为每个领域定制灵活的奖励信号,从而提高跨领域融合并避免数据冲突。实验结果证明了 OCRVerse 的有效性,在以文本为中心和以视觉为中心的数据类型上取得了有竞争力的结果,甚至可以与大规模开源和闭源模型相媲美 ...

0 0 0 0 2026/02/15 arXiv:2601.21639v2 moshmode

3D面部动画因其在多媒体领域的广泛应用而受到广泛关注。 Audio-driven 3D facial animation has been widely explored with promising results.然而,由于缺乏多模态 3D 面部动画数据集,多模态 3D 面部动画,特别是文本引导的 3D 面部动画很少被探索。为了填补这一空白,我们首先构建了一个大规模多模态 3D 面部动画数据集 MMHead,它由 49 小时的 3D 面部运动序列、语音音频和丰富的分层文本注释组成。每个文本注释包含抽象的动作和情感描述、细粒度的面部和头部运动(即表情和头部姿势)描述以及可能引起这种情感的三种可能场景。具体来说,我们整合了五个公共 2D 肖像视频数据集,并提出了一个自动管道:1)从单目视频重建 3D 面部运动序列; and 2) obtain hierarchical text annotations with the help of AU detection and ChatGPT.基于 MMHead 数据集,我们为两个新任务建立了基准:文本引发的 3D 头部说话动画和文本到 3D 面部运动生成。此外,提出了一种简单但有效的基于 VQ-VAE 的方法(MM2Face)来统一多模态信息并生成多样化且可信的 3D 面部运动,该方法在两个基准测试中都取得了有竞争力的结果。大量的实验和全面的分析证明了我们的数据集和基准在促进多模态 3D 面部动画发展方面的巨大潜力 ...

0 0 0 0 2026/02/15 arXiv:2410.07757v1 alex666