我们提出了Facelift,这是一种从单个图像中快速,高质量,360度的头部重建的进料方法。我们的管道首先采用多视图潜在扩散模型,该模型从单个面部输入中生成一致的侧面和背面视图。然后,这些生成的视图是GS-LRM重建器的输入,该输入使用高斯夹层产生了全面的3D表示 ...
现代视频大语言模型(VLLM)通常依靠统一的框架采样来理解视频,但是由于框架冗余和视频内容的变化,这种方法经常无法捕获关键信息。我们提出了Maxinfo,这是一种基于最大音量原理的无训练方法,该方法选择并保留了输入视频中最具代表性的帧。通过最大化选定的嵌入形成的几何体积,Maxinfo确保所选框架覆盖嵌入空间的最有用的区域,从而有效地降低了冗余,同时保持多样性 ...
现实世界中部署的语言模型通常需要事后更新,以结合新知识或更正的知识。但是,有效,可靠地编辑此类模型 - 而不必重新培训或忘记以前的信息 - 仍然是一个重大挑战。现有的终身模型编辑方法折衷概括,干扰过去的编辑,或者无法扩展到长期编辑序列 ...
旋转估计在计算机视觉和机器人任务中起着基本作用,并且非常健壮的旋转估计对于安全至关重要的应用非常有用。通常,估计旋转被认为是需要仔细设计的非线性和非凸优化问题。但是,在本文中,我们提供了一些新的观点,即解决旋转估计问题可以重新纠正,因为解决了线性模型拟合问题而不放弃任何约束,而不会引入任何奇异性 ...
尽管LLM工具使用代理的功能激发了该领域最近的一系列研究,但工具使用培训数据的策划仍然是一个开放的问题$ - $ - 尤其是在线RL培训。现有的合成工具使用数据生成的方法往往是非相互作用和/或非组成的。我们介绍了RandomWorld,这是一种用于过程生成交互式工具和组成工具使用数据的管道 ...
分批归一化(BatchNorm)是一种广泛采用的技术,可以更快,更稳定地训练深神经网络(DNNS)。尽管它普遍存在,但BatchNorm有效性的确切原因仍然很少理解。普遍的看法是,这种有效性源于在训练过程中控制层的输入分布的变化,以减少所谓的“内部协变量转移” ...
在传统的定量贸易实践中,导航复杂而动态的金融市场带来了持续的挑战。充分捕获各种市场变量,包括长期信息以及可能导致利润的基本信号仍然是学习算法的艰巨任务。为了应对这一挑战,本文介绍了基于变形金刚的增强神经网络体系结构的QuantFormer,以构建投资因素 ...
最近,去噪扩散模型在图像、音频和文本的生成方面取得了重大突破。然而,如何将其强大的建模能力应用于时间序列建模仍然是一个悬而未决的问题。在本文中,我们提出了,我们提出了 ...