一译 —— 文档和论文翻译、对照阅读、讨论和社区

Boundary Attention Constrained Zero-Shot Layout-To-Image Generation

最近的文本到图像扩散模型在产生文本的高分辨率图像方面表现出色，但要精确控制空间组成和对象计数。为了应对这些挑战，一些研究开发了将布局指令纳入文本图模型的布局到图像（L2I）方法。但是，现有的L2I方法通常需要进行微调的预验证参数或训练扩散模型的其他控制模块 ...

0 1 0 2025/09/13 arXiv:2411.10495v1 yisinoya

Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs

算法公平从传统上采用了种族色盲的数学方便观点（即，差异不知道的待遇） ...

0 0 0 2025/09/13 arXiv:2502.01926v3 Yieww

LocoTouch: Learning Dynamic Quadrupedal Transport with Tactile Sensing

四足动物在穿越复杂的地形方面表现出显着的敏捷性和鲁棒性。但是，他们在动态对象相互作用中挣扎，必须精确地感知和控制接触。为了弥合这一差距，我们提出了Limotouch，该系统使四足动物具有触觉感知以解决这一类别中特别具有挑战性的任务：不安全的圆柱体对象的长距离运输，通常需要自定义安装或固定机制以保持稳定性 ...

0 0 0 2025/09/13 arXiv:2505.23175v2 lrk

Zero-shot spatial layout conditioning for text-to-image diffusion models

Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image gene ...

0 0 0 2025/09/13 arXiv:2306.13754v1 yisinoya

RealCustom++: Representing Images as Real-Word for Real-Time Customization

Text-to-image customization, which takes given texts and images depicting given subjects as inputs, aims to synthesize new images that align with both text semantics and subject appearance. This task  ...

0 0 0 2025/09/13 arXiv:2408.09744v2 yisinoya

Dense Text-to-Image Generation with Attention Modulation

现有的文本对图像扩散模型难以合成逼真的图像给定的图像，每个文本提示都为特定图像区域提供了详细的描述。为了解决这个问题，我们提出了一种无训练的方法，该方法是一种适应预先训练的文本对图像模型，以处理此类密集字幕，同时提供对场景布局的控制。我们首先分析生成的图像布局与预训练模型的中间注意图之间的关系 ...

0 1 0 2025/09/13 arXiv:2308.12964v1 yisinoya

KonIQ-10k: An ecologically valid database for deep learning of blind image quality assessment

图像质量评估（IQA）的深度学习方法由于现有数据集的尺寸较小而受到限制。广泛的数据集需要大量资源来生成可发布的内容和准确注释。我们提出了一种系统且可扩展的方法来创建KONIQ-10K，这是迄今为止最大的IQA数据集，由10,073个质量评分的图像组成 ...

0 0 0 2025/09/13 arXiv:1910.06180v2 ReLU

ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

本文介绍了一般机器人操纵的Visuomotor模仿学习政策，该政策会产生精确的，高维的动作，以各种视觉，语言和本体感受的输入为条件。我们利用一致性训练利用流量匹配，以在仅1-2个推理步骤中实现高质量的灵巧动作生成。为了有效地处理各种输入模式，我们提出了DIT-X，这是一种具有自适应交叉注意的扩散 Transformer 体系结构和Adaln-Zero条件，可以在动作 Token 和多模式观察之间进 ...

0 0 0 2025/09/13 arXiv:2509.01819v1 odenkkk

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）