图像超分辨率(SR)的深度神经网络表现出卓越的性能。但是,大型内存和计算消耗阻碍了他们在资源受限设备上的部署。将浮点重量和激活量化为1位的二元神经网络(BNN)可以大大降低成本 ...
由于现实世界中的相互作用效率低下,培训世界模型中的机器人政策正在趋势。既定的基于图像的世界模型和政策已经表现出了先前的成功,但是缺乏强大的几何信息,这需要对三维世界的空间和物理理解,甚至需要在互联网规模的视频源上进行培训。为此,我们为机器人操纵提出了一个名为高斯世界模型(GWM)的世界模型的新颖分支,该模型通过在机器人行动的效果下推断高斯原语的传播来重建未来状态 ...
最近的研究表明,(生成)扩散模型中的去噪过程可以在模型内部产生有意义的(有区别的)表示,尽管这些表示的质量仍然落后于通过最近的自我监督学习方法学到的质量。我们认为,训练大规模扩散模型的一个主要瓶颈在于有效学习这些表示。此外,通过结合高质量的外部视觉表示,可以使训练变得更容易,而不是仅仅依靠扩散模型来独立学习它们 ...
在密集视图的设置下,3D高斯裂(3DGS)在新型视图合成中表现出了令人印象深刻的性能。然而,在稀疏视图的情况下,尽管训练观点中的效果呈现现实,但3DGS偶尔在新颖的观点中表现出外观伪像。本文调查了稀疏视图3DG中的外观伪像,并发现了当前方法的核心局限性:优化的高斯人相互互相构成,以积极地拟合训练视图,从而忽略了对新型视图中外观的现实外观分布的现实外观分布 ...
在强大的序列建模能力的基础上,生成建议(GR)逐渐在建议任务的应用中占据主导地位(例如,视频和产品建议) ...
我们推出了 TokenFlow,一种新颖的统一图像标记器,它弥合了多模态理解和生成之间长期存在的差距。先前的研究尝试采用单一的以重建为目标的矢量量化(VQ)编码器来统一这两个任务。我们观察到理解和生成需要根本不同的视觉信息粒度 ...
3D高斯脱落(3DG)已成为一种新型视图合成的强大技术。但是,现有的方法难以根据场景特征来适应地优化高斯原语的分布,从而使其在平衡重建质量和效率方面具有挑战性。受到人类感知的启发,我们提出了场景自适应感知致密化(感知GS),这是一个新颖的框架,将感知敏感性整合到3DGS培训过程中以应对这一挑战 ...
准确的睡眠阶段分类对于睡眠健康评估很重要。近年来,已经开发了几种基于机器的睡眠阶段算法,尤其是基于深度学习的算法在与人类注释的情况下达到了性能。尽管性能提高,但最深入学习算法的局限性是它们的黑盒行为,它限制了它们在临床环境中的使用 ...