最近的文本到图像扩散模型在产生文本的高分辨率图像方面表现出色,但要精确控制空间组成和对象计数。为了应对这些挑战,一些研究开发了将布局指令纳入文本图模型的布局到图像(L2I)方法。但是,现有的L2I方法通常需要进行微调的预验证参数或训练扩散模型的其他控制模块 ...
算法公平从传统上采用了种族色盲的数学方便观点(即,差异不知道的待遇) ...
四足动物在穿越复杂的地形方面表现出显着的敏捷性和鲁棒性。但是,他们在动态对象相互作用中挣扎,必须精确地感知和控制接触。为了弥合这一差距,我们提出了Limotouch,该系统使四足动物具有触觉感知以解决这一类别中特别具有挑战性的任务:不安全的圆柱体对象的长距离运输,通常需要自定义安装或固定机制以保持稳定性 ...
Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image gene ...
Text-to-image customization, which takes given texts and images depicting given subjects as inputs, aims to synthesize new images that align with both text semantics and subject appearance. This task ...
现有的文本对图像扩散模型难以合成逼真的图像给定的图像,每个文本提示都为特定图像区域提供了详细的描述。为了解决这个问题,我们提出了一种无训练的方法,该方法是一种适应预先训练的文本对图像模型,以处理此类密集字幕,同时提供对场景布局的控制。我们首先分析生成的图像布局与预训练模型的中间注意图之间的关系 ...
图像质量评估(IQA)的深度学习方法由于现有数据集的尺寸较小而受到限制。广泛的数据集需要大量资源来生成可发布的内容和准确注释。我们提出了一种系统且可扩展的方法来创建KONIQ-10K,这是迄今为止最大的IQA数据集,由10,073个质量评分的图像组成 ...
本文介绍了一般机器人操纵的Visuomotor模仿学习政策,该政策会产生精确的,高维的动作,以各种视觉,语言和本体感受的输入为条件。我们利用一致性训练利用流量匹配,以在仅1-2个推理步骤中实现高质量的灵巧动作生成。为了有效地处理各种输入模式,我们提出了DIT-X,这是一种具有自适应交叉注意的扩散 Transformer 体系结构和Adaln-Zero条件,可以在动作 Token 和多模式观察之间进 ...