视觉文本渲染对当代文本到图像生成模型提出了根本性挑战,其核心问题在于文本编码器的缺陷。为了实现准确的文本渲染,我们确定了文本编码器的两个关键要求:字符识别和字形对齐。我们的解决方案涉及通过使用精心策划的配对字形文本数据集微调字符感知 ByT5 编码器来制作一系列定制文本编码器 Glyph-ByT5 ...

0 0 0 0 2024/04/25 arXiv:2403.09622v1 cyn

Segment Anything Model (SAM) 是一种在大规模数据集上预训练的深度视觉基础模型,打破了一般分割的界限,并激发了各种下游应用。本文介绍了 Hi-SAM,这是一种利用 SAM 进行分层文本分割的统一模型。 Hi-SAM 擅长跨四个层次的文本分割,包括笔画、单词、文本行和段落,同时还实现布局分析 ...

0 0 0 0 2024/04/18 arXiv:2401.17904v1 cyn

近年来,如何实现精确的图像编辑引起了越来越多的关注,特别是考虑到文本到图像生成模型的巨大成功。为了将各种空间感知图像编辑能力统一到一个框架中,我们采用了设计领域中的图层概念,通过各种操作灵活地操纵对象。关键的见解是将空间感知图像编辑任务转化为两个子任务的组合:多层潜在分解和多层潜在融合 ...

0 0 0 0 2024/04/12 arXiv:2403.14487v1 cyn

为各种设计任务获取所需的字体可能具有挑战性,并且需要专业的印刷知识。虽然以前的字体检索或生成工作已经缓解了其中一些困难,但它们通常缺乏对训练数据域之外的多种语言和语义属性的支持。为了解决这个问题,我们提出了 FontCLIP:一种将大型视觉语言模型的语义理解与印刷知识联系起来的模型 ...

0 0 0 0 2024/03/22 arXiv:2403.06453v1 cyn

近年来,文本-图像联合预训练技术在各种任务中都显示出了可喜的结果。然而,在光学字符识别(OCR)任务中,将文本实例与图像中相应的文本区域对齐是一个挑战,因为它需要文本和 OCR 文本之间的有效对齐(将图像中的文本称为 OCR 文本以区分自然语言的文本)而不是对整体图像内容的整体理解。在本文中,我们提出了一种称为 OCR 文本去风格化建模(ODM)的新预训练方法,该方法可根据文本提示将图像中发现的不同风格的文本转换为统一的风格 ...

0 0 0 0 2024/03/22 arXiv:2403.00303v1 cyn

最近在扩散模型、多模态预训练和高效微调方面的突破导致了文本到图像生成模型的爆炸式增长。鉴于人工评估成本高昂且难以扩展,自动化方法对于评估日益增多的新模型至关重要。然而,当前大多数自动评估指标(例如 FID 或 CLIPScore)仅提供图像质量或图像文本对齐的整体衡量,并且不适合细粒度或实例级分析 ...

0 0 0 0 2024/03/09 arXiv:2310.11513v1 cyn

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)