arxiv Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

名称
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
首页
https://yiyibooks.cn/arxiv/2403.09622v1/index.html
原始地址
https://arxiv.org/abs/2403.09622
描述
视觉文本渲染对当代文本到图像生成模型提出了根本性挑战,其核心问题在于文本编码器的缺陷。为了实现准确的文本渲染,我们确定了文本编码器的两个关键要求:字符识别和字形对齐。我们的解决方案涉及通过使用精心策划的配对字形文本数据集微调字符感知 ByT5 编码器来制作一系列定制文本编码器 Glyph-ByT5 ...