我们审查了一类可根据名称非线性转换编码(NTC)收集的方法,在过去的几年中,这些方法已与图像的最佳线性变换编解码器竞争,并以速率(在既定的感知质量质量指标(例如MS-SSIM))(如MS-SSIM)的速率绩效取代了它们。我们评估了经验率 - 借助于简单的示例来源,NTC的延伸性能是,矢量量化器的最佳性能比自然数据源更容易估计。为此,我们引入了一种新型的熵受限矢量量化的变体 ...
近年来,神经网络驱动的图像压缩(NIC)引起了广泛的关注。一些作品采用深度生成模型(例如 GAN 和扩散模型)来增强感知质量(真实感)。这些生成 NIC 方法的一个关键障碍是每个模型都针对单个比特率进行了优化 ...
大多数神经压缩模型都是在大型图像或视频数据集上进行训练,以便泛化到不可见的数据。这种泛化通常需要具有高解码复杂性的大型且富有表现力的架构。在这里,我们介绍 C3,一种具有强大率失真 (RD) 性能的神经压缩方法,它会分别对每个图像或视频过度拟合一个小模型 ...
JPEG 仍然是最广泛使用的有损图像编码方法之一。然而,JPEG 的不可微性质限制了深度学习管道中的应用。最近提出了几种可微分的 JPEG 近似来解决这个问题 ...
基于热图的方法通过似然热图对输出分布进行建模,在人体姿态估计领域占据主导地位。相比之下,基于回归的方法更有效,但性能较差。在这项工作中,我们探索最大似然估计(MLE)来开发一种高效且有效的基于回归的方法 ...
我们提出了一种新颖的掩模图像建模(MIM)方法,即上下文自动编码器(CAE),用于自监督表示预训练。我们通过在编码表示空间中进行预测来预训练编码器。预训练任务包括两个任务:掩码表示预测 - 预测掩码补丁的表示,以及掩码补丁重建 - 重建掩码补丁 ...