arxiv Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation

名称
Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation
首页
https://yiyibooks.cn/arxiv/2406.02485v1/index.html
原始地址
https://arxiv.org/abs/2406.02485
描述
可控文本到图像(T2I)扩散模型在通过结合各种条件生成高质量视觉内容方面表现出了令人印象深刻的性能。然而,当前的方法在以骨架人体姿势为指导时表现出有限的性能,特别是在复杂的姿势条件下,例如人物的侧面或后部视角。为了解决这个问题,我们提出了 Stable-Pose,这是一种新颖的适配器模型,它将从粗到细的注意力屏蔽策略引入视觉 Transformer (ViT) 中,以获得 T2I 模型的准确姿势指导 ...