基本信息 - Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation

arxiv Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation

阅读

Star 0

名称: Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation

首页: https://yiyibooks.cn/arxiv/2406.02485v1/index.html

原始地址: https://arxiv.org/abs/2406.02485

描述

可控文本到图像（T2I）扩散模型在通过结合各种条件生成高质量视觉内容方面表现出了令人印象深刻的性能。然而，当前的方法在以骨架人体姿势为指导时表现出有限的性能，特别是在复杂的姿势条件下，例如人物的侧面或后部视角。为了解决这个问题，我们提出了 Stable-Pose，这是一种新颖的适配器模型，它将从粗到细的注意力屏蔽策略引入视觉 Transformer (ViT) 中，以获得 T2I 模型的准确姿势指导 ...

0%

上传成功 0 个文件