传统观点认为,图像生成的自回归模型通常伴随着矢量量化标记。我们观察到,虽然离散值空间可以促进表示分类分布,但它并不是自回归建模所必需的。在这项工作中,我们建议使用扩散过程对每个标记的概率分布进行建模,这使我们能够在连续值空间中应用自回归模型 ...

0 0 0 0 2024/09/05 arXiv:2406.11838v2 yiweima

使用均方误差损失训练的扩散模型往往会生成不切实际的样本。当前最先进的模型依赖于无分类器的指导来提高样本质量,但其令人惊讶的有效性尚未得到充分理解。在本文中,我们表明,无分类器指导的有效性部分源于它是一种隐式感知指导的形式 ...

0 0 0 0 2024/09/05 arXiv:2401.00110v5 yiweima

生成 Transformer 在合成高保真和高分辨率图像方面在计算机视觉社区中经历了快速流行。然而,迄今为止最好的生成 Transformer 模型仍然将图像天真地视为 Token 序列,并按照光栅扫描顺序(即,按顺序解码图像) ...

0 0 0 0 2024/09/05 arXiv:2202.04200v1 yiweima

近年来,视觉文档理解领域取得了显着的进步,主流架构包括一系列视觉和语言模型。可以在基于 OCR 的方法中使用外部 OCR 模型显式提取文本组件,或者可以在无 OCR 的方法中赋予视觉模型阅读功能。通常,对模型的查询仅输入到语言组件,因此需要视觉特征来涵盖整个文档 ...

0 0 0 0 2024/09/05 arXiv:2407.12594v1 yiweima

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)