Transformer 最近在各种视觉任务中表现出了卓越的性能。较大的、有时甚至是全局的感受野赋予 Transformer 模型比cnn模型更高的表示能力。然而,简单地扩大感受野也会引起一些担忧... ...
自动白平衡(AWB)在捕获时使用相机硬件应用,以删除场景照明引起的颜色铸件。绝大多数白色平衡算法都假设单一的光源照亮了现场。但是,真实场景通常具有混合的照明条件。本文提出了一种有效的AWB方法来处理此类混合透明场景 ...
该报告介绍了Wan,这是一套全面的视频基础模型,旨在突破视频生成的界限。 WAN建立在主流扩散 Transformer 范式的基础上,通过一系列创新,包括我们的新型VAE,可扩展的预训练策略,大规模数据策划和自动化评估指标,从而在生成能力方面取得了重大进步。这些贡献共同提高了模型的性能和多功能性 ...
空间冗余在视觉识别任务中广泛存在,即图像或视频框架中的判别特征通常仅对应于像素的子集,而其余区域与手头的任务无关 ...
最近,DeepSeek R1表明,加强学习(RL)可以通过简单而有效的设计实质上提高大语言模型(LLM)的推理能力。 R1的核心在于其基于规则的奖励公式,该公式通过确定性的基础真实答案来利用任务,以实现精确稳定的奖励计算。在视觉域中,我们同样观察到,广泛的视觉理解任务固有地配备了定义明确的地面真相注释 ...
细颗粒的图像识别是一个长期存在的计算机视觉挑战,重点是区分同一元类别中属于多个下属类别的对象。由于属于同一元类别的图像通常具有相似的视觉外观,因此采矿歧视性视觉提示是区分细粒类别的关键。尽管常用的图像级数据增强技术在通用图像分类问题中取得了巨大成功,但它们很少被应用于细粒度的场景中,因为它们的随机编辑区域行为容易破坏在微妙地区的歧视性视觉提示 ...
解决问题的任务是修改代码库以生成解决给定问题的补丁程序。但是,现有的基准(例如SWE-Bench)几乎只关注Python,因此不足以评估各种软件生态系统的大型语言模型(LLM)。为了解决这个问题,我们介绍了一个多语言问题解决的基准,称为Multi-Swe-Bench,涵盖Java,Typescript,JavaScript,GO,Rust,C,C和C ++ ...
未配对的医学图像增强(UMIE)旨在将低质量(LQ)的医疗图像转变为高质量(HQ)的一个,而无需依靠配对的图像进行训练。尽管大多数现有方法基于Pix2Pix/Cyclegan,并且在某种程度上是有效的,但它们未能明确使用HQ信息来指导增强过程,这可能导致不希望的伪影和结构扭曲。在本文中,我们提出了一种新型的UMIE方法,该方法通过直接以各种方式将HQ提示直接编码为LQ增强过程,从而避免了上述方法的 ...