随着AI聊天机器人无处不在,语音互动提出了一种令人信服的方式,可以为语义和社会信号提供快速,高带宽的沟通。这将大型音频模型(LAM)的研究推向了语音本地体验。但是,将LAM开发与用户目标保持一致需要清楚地了解用户需求和偏好以建立可靠的进度指标 ...
连续的测试时间适应(CTTA)试图适应源预先训练的模型,以不断改变,看不见的目标域。尽管现有的CTTA方法假设结构化域随均匀持续时间的变化而变化,但现实世界的环境经常显示动态模式,其中域以不同的频率和持续时间复发。当前的方法是在这种动态条件下对不同领域的相同参数进行调整的方法 - 他们面临着融合问题,并与短暂的域暴露,风险忘记先前学到的知识或将其误用到无关的领域 ...
最近,视觉模型(例如剪辑)在零拍异常检测(ZSAD)中表现出了显着的性能 ...
3D高斯脱落的最新进展显着提高了密集的语义大满贯的效率和质量。但是,以前的方法通常受到有限类别的预训练的分类器和隐性语义表示的限制,这阻碍了其在开放式场景中的性能,并限制了3D对象级场景的理解。为了解决这些问题,我们提出了OpenGS-Slam,这是一个创新的框架,利用3D高斯表示在开放式环境中执行密集的语义大满贯 ...
尽管大规模基础模型的最新进展显示出令人鼓舞的结果,但尚未详细探讨它们在医疗领域的应用。在本文中,我们通过提出Cheff(一种基础级联的潜在扩散模型),进入了医学合成中大规模建模的领域,该模型产生了高度现实的胸部X光片,以1兆像素的量表提供了前所未有的质量。我们进一步提出了Machex,它是公共胸部数据集的统一接口,并构成了最新的胸部X射线最大的开放集合 ...
许多移动应用程序要求选择性执行在资源约束平台上的多个相关的深度学习推理任务。考虑到一组深层神经网络,每个任务都进行了训练,希望执行任意任务组合的计算成本最少。修剪每个网络分别产生由于任务相关性而导致的次优计算成本 ...
我们介绍了Llama-Nemotron系列模型,这是一个开放的异构推理模型家族,可提供出色的推理能力,推理效率和企业使用的开放许可。这个家庭有三种尺寸 - 纳米(8b),Super(49b)和Ultra(253b) - 并与最先进的推理模型(例如DeepSeek-R1)一起竞争,同时提供了出色的推理吞吐量和记忆效率。在本报告中,我们讨论了这些模型的培训程序,这些模型需要使用Llama 3模型的神经 ...
工业应用中的精确光学检查对于最大程度地减少废料率和降低相关成本至关重要。除了仅检测产品是否是异常的外,还要了解独特的缺陷类型,例如弯曲,切割或刮擦至关重要。识别“精确”缺陷类型的能力使现代生产线中异常的自动处理能力 ...