一译 —— 文档和论文翻译、对照阅读、讨论和社区

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

大型语言模型（LLM）的奖励信号使用方面的最新进展是显着的。但是，将奖励信号转移到多模式领域时，存在重大挑战，包括劳动密集型注释，对一步奖励的过度依赖和评估不足。为了解决这些问题，我们提出了SVIP，这是一种新型的方法，可以自动训练阶梯级多维链链〜（COT）奖励模型 ...

0 0 0 2025/04/21 arXiv:2504.06606v1 iris

Vision-LSTM: xLSTM as Generic Vision Backbone

尽管最初是为了自然语言处理而引入的，但 Transformer 仍被广泛用作计算机视觉中的通用骨干。最近，长短期记忆 (LSTM) 已扩展到可扩展且高性能的架构 - xLSTM - 它通过指数门控和可并行矩阵记忆结构克服了长期存在的 LSTM 限制。在本报告中，我们介绍了 Vision-LSTM (ViL)，它是 xLSTM 构建块对计算机视觉的适应 ...

0 0 0 2025/04/21 arXiv:2406.04303v3 zfk666

Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

人工智能研究的长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智能代理。视觉和语言导航（（VLN））是实现这一目标的基础性跨学科研究课题，并受到自然语言处理、计算机视觉、机器人和机器学习社区越来越多的关注。在本文中，我们回顾了vln这一新兴领域的当代研究 ...

0 0 0 2025/04/21 arXiv:2203.12667v3 17562023920

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

自从Jetsons Cartoon系列想象着一个专心的机器人助手介导的休闲生活之前，可以进行自然语言指导的机器人一直是一个梦想。这是一个顽固的梦想。但是，视觉和语言方法的最新进展在紧密相关的领域取得了令人难以置信的进步 ...

0 0 0 2025/04/21 arXiv:1711.07280v3 WuYP

Cobra: Efficient Line Art COlorization with BRoAder References

漫画生产行业需要具有高精度，效率，上下文一致性和灵活控制的基于参考的系列艺术色彩。漫画页面通常涉及各种字符，对象和背景，这会使着色过程复杂化。尽管在图像生成的扩散模型中取得了进步，但其在线艺术色彩仍然有限，面临着与处理广泛的参考图像，耗时的推断和灵活控制有关的挑战 ...

0 0 0 2025/04/21 arXiv:2504.12240v1 suxuefeng

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

在本文中，我们提出了一种有效的方法来增强视觉推理，并纯粹依赖于自我完善，而没有知识蒸馏。我们的关键见解是，在加强微调（RFT）期间训练数据的困难至关重要。即使数据集很小，也可以适当挑战的样本可以大大提高推理功能 ...

0 0 0 2025/04/21 arXiv:2504.07934v1 aries_young

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

我们推出了cswin Transformer ，这是一种高效且有效的基于 Transformer 的骨干网，用于通用视觉任务。 Transformer 设计中的一个具有挑战性的问题是全局自注意力的计算成本非常昂贵，而局部自注意力通常限制每个 Token 的交互领域。为了解决这个问题，我们开发了十字形窗口自注意力机制，用于并行计算形成十字形窗口的水平和垂直条纹的自注意力，每个条纹是通过将输入特征分割 ...

0 1 0 2025/04/21 arXiv:2107.00652v3 tunan

TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition

最近的研究已将卷积集成到 Transformer 中，以引入感应偏置并提高泛化性能。然而，传统卷积的静态性质使其无法动态适应输入变化，导致卷积和自注意力之间的表示差异，因为自注意力动态计算注意力矩阵。此外，当堆叠由卷积和自注意力组成的 Token 混合器形成深度网络时，卷积的静态性质阻碍了先前由自注意力生成的特征融合到卷积核中 ...

0 0 0 2025/04/21 arXiv:2310.19380v4 hnu

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）