增强学习的最新进展显着提高了多模式大型语言模型(MLLM)的推理能力。尽管诸如小组相对政策优化(GRPO)和基于规则的奖励机制之类的方法在文本和图像域中证明了有希望,但它们在视频理解中的应用仍然有限。本文介绍了对视频MLLM的GRPO进行加固微调(RFT)的系统探索,旨在增强时空感知,同时保持一般能力 ...
0 0 0 2025/04/12 arXiv:2504.06958v2 hx5563
 Transformer 最近在各种视觉任务中表现出了卓越的性能。较大的、有时甚至是全局的感受野赋予 Transformer 模型比cnn模型更高的表示能力。然而,简单地扩大感受野也会引起一些担忧... ...
0 0 0 2025/04/12 arXiv:2201.00520v3 zyh12345
自动白平衡(AWB)在捕获时使用相机硬件应用,以删除场景照明引起的颜色铸件。绝大多数白色平衡算法都假设单一的光源照亮了现场。但是,真实场景通常具有混合的照明条件。本文提出了一种有效的AWB方法来处理此类混合透明场景 ...
0 0 0 2025/04/12 arXiv:2109.08750v2 flynnamy
该报告介绍了Wan,这是一套全面的视频基础模型,旨在突破视频生成的界限。 WAN建立在主流扩散 Transformer 范式的基础上,通过一系列创新,包括我们的新型VAE,可扩展的预训练策略,大规模数据策划和自动化评估指标,从而在生成能力方面取得了重大进步。这些贡献共同提高了模型的性能和多功能性 ...
0 0 0 2025/04/12 arXiv:2503.20314v1 waitsop
空间冗余在视觉识别任务中广泛存在,即图像或视频框架中的判别特征通常仅对应于像素的子集,而其余区域与手头的任务无关 ...
0 0 0 2025/04/12 arXiv:2201.03014v2 q774798577
最近,DeepSeek R1表明,加强学习(RL)可以通过简单而有效的设计实质上提高大语言模型(LLM)的推理能力。 R1的核心在于其基于规则的奖励公式,该公式通过确定性的基础真实答案来利用任务,以实现精确稳定的奖励计算。在视觉域中,我们同样观察到,广泛的视觉理解任务固有地配备了定义明确的地面真相注释 ...
0 0 0 2025/04/12 arXiv:2504.07615v1 hx5563
细颗粒的图像识别是一个长期存在的计算机视觉挑战,重点是区分同一元类别中属于多个下属类别的对象。由于属于同一元类别的图像通常具有相似的视觉外观,因此采矿歧视性视觉提示是区分细粒类别的关键。尽管常用的图像级数据增强技术在通用图像分类问题中取得了巨大成功,但它们很少被应用于细粒度的场景中,因为它们的随机编辑区域行为容易破坏在微妙地区的歧视性视觉提示 ...
0 0 0 2025/04/12 arXiv:2309.00399v1 q774798577
解决问题的任务是修改代码库以生成解决给定问题的补丁程序。但是,现有的基准(例如SWE-Bench)几乎只关注Python,因此不足以评估各种软件生态系统的大型语言模型(LLM)。为了解决这个问题,我们介绍了一个多语言问题解决的基准,称为Multi-Swe-Bench,涵盖Java,Typescript,JavaScript,GO,Rust,C,C和C ++ ...
0 0 0 2025/04/12 arXiv:2504.02605v1 WillVV

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)