文本到图像的扩散模型已成为在给定文本提示的情况下生成高质量图像的强大框架。他们的成功推动了生产级扩散模型的快速发展,这些模型的尺寸不断增加,并且已经包含数十亿个参数。因此,最先进的文本到图像模型在实践中变得越来越难以获得,尤其是在资源有限的环境中 ...
文本生成的许多应用需要合并不同的约束来控制生成文本的语义或风格。这些限制可能很困难(例如 ...
扩散模型已成为图像生成的\emph{事实上}模型,但繁重的训练开销阻碍了其在研究界的更广泛采用。我们观察到扩散模型通常被训练为从头开始学习所有细粒度的视觉信息。这种范例可能会导致不必要的培训成本,因此需要深入调查 ...
由于其优于其他离散扩散模型的卓越性能,掩模扩散模型(MDM)已成为离散数据生成建模的热门研究主题,并且在语言建模任务方面可与自回归模型(ARM)相媲美。最近在简化掩蔽扩散框架方面所做的努力进一步导致与连续空间扩散模型以及更有原则的训练和采样方法的结合。然而,在本文中,我们揭示了 MDM 的训练和采样理论上都不受时间变量(可以说是扩散模型的关键特征)的影响,而是相当于屏蔽模型 ...
单目深度估计是一项基本的计算机视觉任务。从单个图像中恢复 3D 深度在几何上是不适定的,并且需要场景理解,因此深度学习的兴起带来了突破也就不足为奇了。单目深度估计器令人印象深刻的进步反映了模型容量的增长,从相对适中的 CNN 到大型 Transformer 架构 ...
标准自回归语言模型仅执行多项式时间计算来计算下一个符号的概率。虽然这很有吸引力,但这意味着他们无法对下一个符号概率难以计算的分布进行建模。事实上,他们甚至无法很好地建模来解决工程师可能想要参考语言模型的相关简单决策问题 ...
我们提出了基于八叉树的 Transformer ,名为 OctFormer,用于 3D 点云学习。 OctFormer 不仅可以作为 3D 点云分割和对象检测的通用且有效的骨干网,而且具有线性复杂度,并且可针对大规模点云进行扩展。将 Transformer 应用到点云的关键挑战是降低注意力的二次计算复杂性,从而降低计算复杂性 ...
去噪扩散模型 (DDM) 在 3D 点云合成中显示出有希望的结果。为了推进 3D DDM 并使其对数字艺术家有用,我们需要 (i) 高生成质量,(ii) 操作和应用(例如条件合成和形状插值)的灵活性,以及 (iii) 输出平滑表面或网格的能力。为此,我们引入了用于 3D 形状生成的分层潜点扩散模型 (LION) ...
我们研究神经网络在不同 SGD 噪声样本(例如随机数据顺序和增强)下是否优化到相同的线性连接最小值 ...
我们引入了3DShape2VecSet,这是一种专门为生成扩散模型设计的神经场的新颖形状表示。我们的形状表示可以对作为表面模型或点云给出的3D形状进行编码,把它们表示为神经场神经场的概念之前已与全局潜在预警、潜在预警的规则网格或潜在预警的不规则网格相结合... ...