tuxiaolv的文档

tuxiaolv

个性签名 ...

Cascaded Diffusion Models for High Fidelity Image Generation

我们证明级联扩散模型能够在类条件 ImageNet 生成基准上生成高保真度图像，而无需辅助图像分类器的任何帮助来提高样本质量。级联扩散模型由一系列多个扩散模型组成，这些模型生成分辨率不断增加的图像，从最低分辨率的标准扩散模型开始，然后是一个或多个超分辨率扩散模型，这些模型连续对图像进行上采样并添加更高分辨率的细节。我们发现级联管道的样本质量主要依赖于条件增强，这是我们提出的超分辨率模型的较低分辨率条件输入的数据增强方法 ...

0 0 0 0 2024/09/02 arXiv:2106.15282v3 tuxiaolv

SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models

单图像超分辨率（SISR）旨在从给定的低分辨率（LR）图像重建高分辨率（HR）图像，这是一个不适定问题，因为一幅 LR 图像对应于多幅 HR 图像。最近，基于学习的 SISR 方法大大优于传统方法，但面向 PSNR、GAN 驱动和基于流的方法分别面临过度平滑、模式崩溃或大模型足迹问题。为了解决这些问题，我们提出了一种新颖的单图像超分辨率扩散概率模型（SRDiff），这是第一个基于扩散的 SISR 模型 ...

0 0 0 0 2024/09/02 arXiv:2104.14951v2 tuxiaolv

Riemannian Diffusion Models

扩散模型是最近最先进的图像生成和似然估计方法。在这项工作中，我们将连续时间扩散模型推广到任意黎曼流形，并推导出似然估计的变分框架。在计算上，我们提出了计算似然估计所需的黎曼散度的新方法 ...

0 0 0 0 2024/09/02 arXiv:2208.07949v1 tuxiaolv

Efficient Diffusion Training via Min-SNR Weighting Strategy

去噪噪声模型一直是图像生成的主流方法，然而，训练这些模型通常会遇到收敛速度慢的问题。在本文中，我们为了发现收敛速度慢的部分原因是时间步长之间的优化冲突方向。解决这个问题，我们将扩散训练视为多任务学习问题，并引入一种简单而有效的方法，称为 Min-SNR-$\gamma$ ... ...

0 0 1 2 2025/01/24 arXiv:2303.09556v3 tuxiaolv

Continuous Graph Neural Networks

本文建立在图神经网络和传统动力系统之间的联系之上。我们提出连续图神经网络（CGNN），它概括了具有离散动力学的现有图神经网络，因为它们可以被视为特定的离散化方案。关键思想是如何表征节点表示的连续动态，即 ...

0 0 0 0 2024/08/30 arXiv:1912.00967v3 tuxiaolv

Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey

随着传感技术的最新进展，智慧城市中已经生成并记录了大量的时空数据。预测时空数据的演化模式是城市计算的一个重要但要求很高的方面，它可以增强各个领域的智能管理决策，包括交通、环境、气候、公，共安全、医疗保健等。传统的统计和深度学习方法难以捕获城市时空数据中的复杂相关性 ... ...

0 0 0 0 2025/03/08 arXiv:2303.14483v3 tuxiaolv

Your Diffusion Model is Secretly a Zero-Shot Classifier

最近的大规模文本到图像扩散模型浪潮极大地提高了我们基于文本的图像生成能力。这些模型可以为各种提示生成逼真的图像，并表现出令人印象深刻的构图概括能力。到目前为止，几乎所有用例都只关注采样；然而，扩散模型还可以提供条件密度估计，这对于图像生成之外的任务很有用 ...

0 0 0 0 2024/08/29 arXiv:2303.16203v3 tuxiaolv

Diffusion Self-Guidance for Controllable Image Generation

大规模生成模型能够根据详细的文本描述生成高质量的图像。然而，图像的许多方面很难或不可能通过文本来传达。我们引入了自引导，这是一种通过引导扩散模型的内部表示来更好地控制生成图像的方法 ...

0 0 0 0 2024/08/29 arXiv:2306.00986v3 tuxiaolv

Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation

大规模文本到图像生成模型是生成人工智能发展的革命性突破，使我们能够合成高度复杂的视觉概念的免疫图像。然而，利用此类模型进行现实世界的创建内容任务的一个关键挑战是为用户提供对生成内容的控制。在文本训练中，我们提出了一个新的框架，将文本到图像的合成引入图像到图像翻译的领域——给出指定指导图像和目标文本提示，我们的方法利用预文本对图像的力量扩散模型生成符合目标文本的新图像，同时保留源图像的语义布局... ...

0 0 0 0 2024/12/29 arXiv:2211.12572v1 tuxiaolv

Imagic: Text-Based Real Image Editing with Diffusion Models

文本条件图像编辑最近引起了相当大的兴趣。然而，大多数方法目前要么仅限于特定的编辑类型（例如 ...

0 0 0 0 2024/08/29 arXiv:2210.09276v3 tuxiaolv