一译 —— 文档和论文翻译、对照阅读、讨论和社区

Zero-shot spatial layout conditioning for text-to-image diffusion models

Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image gene ...

0 0 0 2025/09/13 arXiv:2306.13754v1 yisinoya

RealCustom++: Representing Images as Real-Word for Real-Time Customization

Text-to-image customization, which takes given texts and images depicting given subjects as inputs, aims to synthesize new images that align with both text semantics and subject appearance. This task  ...

0 0 0 2025/09/13 arXiv:2408.09744v2 yisinoya

Dense Text-to-Image Generation with Attention Modulation

现有的文本对图像扩散模型难以合成逼真的图像给定的图像，每个文本提示都为特定图像区域提供了详细的描述。为了解决这个问题，我们提出了一种无训练的方法，该方法是一种适应预先训练的文本对图像模型，以处理此类密集字幕，同时提供对场景布局的控制。我们首先分析生成的图像布局与预训练模型的中间注意图之间的关系 ...

0 1 0 2025/09/13 arXiv:2308.12964v1 yisinoya

KonIQ-10k: An ecologically valid database for deep learning of blind image quality assessment

图像质量评估（IQA）的深度学习方法由于现有数据集的尺寸较小而受到限制。广泛的数据集需要大量资源来生成可发布的内容和准确注释。我们提出了一种系统且可扩展的方法来创建KONIQ-10K，这是迄今为止最大的IQA数据集，由10,073个质量评分的图像组成 ...

0 0 0 2025/09/13 arXiv:1910.06180v2 ReLU

ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

本文介绍了一般机器人操纵的Visuomotor模仿学习政策，该政策会产生精确的，高维的动作，以各种视觉，语言和本体感受的输入为条件。我们利用一致性训练利用流量匹配，以在仅1-2个推理步骤中实现高质量的灵巧动作生成。为了有效地处理各种输入模式，我们提出了DIT-X，这是一种具有自适应交叉注意的扩散 Transformer 体系结构和Adaln-Zero条件，可以在动作 Token 和多模式观察之间进 ...

0 0 0 2025/09/13 arXiv:2509.01819v1 odenkkk

RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning

最近的文本到图像生成模型，例如稳定的扩散V3和Flux，取得了显着的进步 ...

0 0 0 2025/09/13 arXiv:2502.00848v2 Donutn

Learning by Reconstruction Produces Uninformative Features For Perception

输入空间重建是一个有吸引力的表示范式。尽管重建和产生的解释性可以解释性，但我们确定了通过重建学习与学习学习之间的错位。我们表明，前者将模型的能力分配给数据的子空间，解释了观察到的方差 - 这是一个具有不明智特征的子空间 ...

0 0 0 2025/09/13 arXiv:2402.11337v1 odenkkk

Data Augmentation Using Neural Acoustic Fields With Retrieval-Augmented Pre-training

本报告详细介绍了MERL在ICASSP 2025上提交给生成数据增强研讨会的室内冲动响应（RIR）估计的系统，以增加RIR数据（任务1）和改进扬声器距离估计（任务2）。我们首先在外部大规模数据集上预先培训，由房间几何形状调节的神经声场，其中提供了一对RIR和几何形状。然后，通过使用注册数据将神经声场调整为每个目标室，在这里我们利用所提供的室几何形状或从外部数据集检索到的几何形状，具体取决于可用性  ...

0 0 0 2025/09/13 arXiv:2504.14409v1 wenwen

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）