高光谱图像(HSIS)在成像过程中通常会遭受多种和未知的降解,导致严重的光谱和空间扭曲。现有的HSI恢复方法通常依赖于特定的降解假设,从而在复杂的情况下限制了它们的有效性。在本文中,我们提出了MP-HSIR,这是一种新型的多项目框架,可有效整合光谱,文本和视觉提示,以实现跨不同降解类型和强度的通用HSI恢复 ...
在3D Vision中,建模和重新渲染动态3D场景是一项艰巨的任务。先前的方法基于NERF并依赖于隐式表示。这很慢,因为它需要许多MLP评估,从而限制了现实世界的应用程序 ...
随着AI聊天机器人无处不在,语音互动提出了一种令人信服的方式,可以为语义和社会信号提供快速,高带宽的沟通。这将大型音频模型(LAM)的研究推向了语音本地体验。但是,将LAM开发与用户目标保持一致需要清楚地了解用户需求和偏好以建立可靠的进度指标 ...
连续的测试时间适应(CTTA)试图适应源预先训练的模型,以不断改变,看不见的目标域。尽管现有的CTTA方法假设结构化域随均匀持续时间的变化而变化,但现实世界的环境经常显示动态模式,其中域以不同的频率和持续时间复发。当前的方法是在这种动态条件下对不同领域的相同参数进行调整的方法 - 他们面临着融合问题,并与短暂的域暴露,风险忘记先前学到的知识或将其误用到无关的领域 ...
最近,视觉模型(例如剪辑)在零拍异常检测(ZSAD)中表现出了显着的性能 ...
3D高斯脱落的最新进展显着提高了密集的语义大满贯的效率和质量。但是,以前的方法通常受到有限类别的预训练的分类器和隐性语义表示的限制,这阻碍了其在开放式场景中的性能,并限制了3D对象级场景的理解。为了解决这些问题,我们提出了OpenGS-Slam,这是一个创新的框架,利用3D高斯表示在开放式环境中执行密集的语义大满贯 ...
尽管大规模基础模型的最新进展显示出令人鼓舞的结果,但尚未详细探讨它们在医疗领域的应用。在本文中,我们通过提出Cheff(一种基础级联的潜在扩散模型),进入了医学合成中大规模建模的领域,该模型产生了高度现实的胸部X光片,以1兆像素的量表提供了前所未有的质量。我们进一步提出了Machex,它是公共胸部数据集的统一接口,并构成了最新的胸部X射线最大的开放集合 ...
许多移动应用程序要求选择性执行在资源约束平台上的多个相关的深度学习推理任务。考虑到一组深层神经网络,每个任务都进行了训练,希望执行任意任务组合的计算成本最少。修剪每个网络分别产生由于任务相关性而导致的次优计算成本 ...