现代潜在扩散模型 (LDM) 通常在低级变分自动编码器 (VAE) 潜在空间中运行,这些空间主要针对像素级重建进行优化。为了统一视觉生成和理解,一个新兴的趋势是采用表示编码器的高维特征作为生成潜伏。然而,我们凭经验确定了该范式中的两个基本障碍:(1)判别性特征空间缺乏紧凑的正则化,使得扩散模型容易出现偏离流形的潜在问题,从而导致对象结构不准确; (2)编码器本质上较弱的像素级重建阻碍了生成器学习精确的细粒度几何和纹理。在本文中,我们提出了一个系统框架,以适应面向理解的编码器特征来执行生成任务。我们引入了语义像素重建目标来规范潜在空间,从而将语义信息和细粒度细节压缩为高度紧凑的表示(96 个通道,16x16 空间下采样)。这种设计确保潜在空间在语义上保持丰富并实现最先进的图像重建,同时保持足够紧凑以进行准确生成。利用这种表示,我们设计了统一的文本到图像(T2I)和图像编辑模型。通过对各种特征空间进行基准测试,我们证明了我们的方法在 T2I 和编辑任务中实现了最先进的重建、更快的收敛和显着的性能提升,验证了表示编码器可以有效地适应强大的生成组件 ...

0 0 0 0 2026/01/12 arXiv:2512.17909v1 zmys

对通用人工智能生成图像(AIGI)检测器的追求通常依赖于聚合来自众多生成器的数据以提高泛化能力。然而,本文指出了一种矛盾现象,我们称之为“先有利益后冲突”的困境,即探测器性能随着源多样性的扩大而停滞并最终下降。我们的系统分析通过识别两个核心问题来诊断这一失败:严重的数据级异质性,导致真实图像和合成图像的特征分布越来越重叠,以及来自固定的、预训练的编码器无法适应不断增加的复杂性的关键模型级瓶颈。为了应对这些挑战,我们提出了生成器感知原型学习(GAPL),这是一个用结构化学习范式约束表示的框架。 GAPL学习一组紧凑的规范伪造原型来创建统一的、低方差的特征空间,有效对抗该http URL的数据,解决了模型瓶颈,它采用低秩适应的两阶段训练方案,增强其判别力,同时保留有价值的预训练知识。这种方法建立了一个更稳健和更通用的决策边界。通过大量实验,我们证明 GAPL 实现了最先进的性能,在各种 GAN 和基于扩散的生成器中显示出卓越的检测精度。代码可在此 https URL 获取 ...

0 0 0 0 2026/01/11 arXiv:2512.12982v1 zmys

最新的生成AI改进使合成的假图像变得容易;由于可以用来造成伤害,因此开发准确的技术以识别它们至关重要。本文介绍了接受单个9x9图像贴片并输出其深泡得分的“本地意识到的深击检测算法”(LADEDA)。图像DeepFake分数是其补丁的汇总分数 ...

0 0 0 0 2025/08/15 arXiv:2406.09398v1 zmys

卷积神经网络(Convnets)具有较大有效的接收场(ERF)仍处于早期阶段,表现出了有希望的有效性,同时受到高参数和掉落成本的限制,并破坏了ERF的渐近高斯分布(AGD)。本文提出了一种替代范式:不仅要使用极大的ERF,还可以通过适当组合较小的核(例如$ 7 \ times {7} $,$ 9 \ times {9} $ 11} $,$ 11 \ $ 11 \ $ 11 \ times {11} $,在维持ERF的同时保持ERF的效率更高,更有效。本文介绍了三层接收场聚合器,并从接受场的角度将层操作员设计为基本操作员 ...

0 1 0 0 2025/08/15 arXiv:2508.09000v1 zmys

面部反欺骗(FAS)或演示攻击检测是部署在安全至关重要应用程序中的面部识别系统的重要组成部分。现有的FAS方法的普遍性差,无法看到欺骗类型,相机传感器和环境条件。最近,视觉 Transformer (VIT)模型已被证明对FAS任务有效,因为它们能够捕获图像贴片之间的长期依赖性 ...

0 0 0 0 2025/04/17 arXiv:2309.16649v1 zmys

广义问题被广泛认为是检测深击的关键挑战。以前的大多数工作都认为,概括差距是由各种伪造方法之间的差异引起的。但是,我们的调查表明,当伪造的因素转移时,仍可能发生概括问题 ...

0 0 0 0 2025/04/07 arXiv:2501.04376v1 zmys