Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image gene ...
Text-to-image customization, which takes given texts and images depicting given subjects as inputs, aims to synthesize new images that align with both text semantics and subject appearance. This task ...
现有的文本对图像扩散模型难以合成逼真的图像给定的图像,每个文本提示都为特定图像区域提供了详细的描述。为了解决这个问题,我们提出了一种无训练的方法,该方法是一种适应预先训练的文本对图像模型,以处理此类密集字幕,同时提供对场景布局的控制。我们首先分析生成的图像布局与预训练模型的中间注意图之间的关系 ...
图像质量评估(IQA)的深度学习方法由于现有数据集的尺寸较小而受到限制。广泛的数据集需要大量资源来生成可发布的内容和准确注释。我们提出了一种系统且可扩展的方法来创建KONIQ-10K,这是迄今为止最大的IQA数据集,由10,073个质量评分的图像组成 ...
本文介绍了一般机器人操纵的Visuomotor模仿学习政策,该政策会产生精确的,高维的动作,以各种视觉,语言和本体感受的输入为条件。我们利用一致性训练利用流量匹配,以在仅1-2个推理步骤中实现高质量的灵巧动作生成。为了有效地处理各种输入模式,我们提出了DIT-X,这是一种具有自适应交叉注意的扩散 Transformer 体系结构和Adaln-Zero条件,可以在动作 Token 和多模式观察之间进 ...
最近的文本到图像生成模型,例如稳定的扩散V3和Flux,取得了显着的进步 ...
输入空间重建是一个有吸引力的表示范式。尽管重建和产生的解释性可以解释性,但我们确定了通过重建学习与学习学习之间的错位。我们表明,前者将模型的能力分配给数据的子空间,解释了观察到的方差 - 这是一个具有不明智特征的子空间 ...
本报告详细介绍了MERL在ICASSP 2025上提交给生成数据增强研讨会的室内冲动响应(RIR)估计的系统,以增加RIR数据(任务1)和改进扬声器距离估计(任务2)。我们首先在外部大规模数据集上预先培训,由房间几何形状调节的神经声场,其中提供了一对RIR和几何形状。然后,通过使用注册数据将神经声场调整为每个目标室,在这里我们利用所提供的室几何形状或从外部数据集检索到的几何形状,具体取决于可用性 ...