一译 —— 文档和论文翻译、对照阅读、讨论和社区

Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object Detection

在诸如接地派和莱迪诺（Lae-Dino）之类的广泛数据集上预估计的基础模型在跨域几乎没有对象检测（CD-FSOD）任务中表现出色。通过严格的几次训练，我们发现基于图像的数据增强技术和基于网格的子域搜索策略的整合显着增强了这些基础模型的性能。在接地迪诺的基础上，我们采用了几种广泛使用的图像增强方法，并建立了优化目标，以有效地导航宽敞的域空间，以寻找最佳的子域 ...

0 0 0 2025/04/09 arXiv:2504.04517v1 Jht

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

大型语言模型（LLMS）改变了自然语言处理景观，并使多样化的应用栩栩如生。在大量的网络规模数据上进行了预处理为这些模型奠定了基础，但是研究界现在越来越多地转移到训练后技术方面，以实现进一步的突破。虽然预处理提供了广泛的语言基础，但培训后方法使LLMS能够完善其知识，提高推理，提高事实准确性，并更有效地与用户的意图和道德注意事项更有效地保持一致 ...

0 0 0 2025/04/09 arXiv:2502.21321v2 lunarcloud

DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

配备了网络搜索功能的大型语言模型（LLM）表现出了深入研究任务的令人印象深刻的潜力。但是，当前的方法主要依赖于在受控检索仪（基于RAG）环境（基于RAG）环境（基于RAG）中的手动工程提示（基于工程的提示）（及时工程），这些提示（基于RAG）无法捕获现实世界互动的复杂性。在本文中，我们介绍了Deepresearcher，这是通过缩放强化增强学习（RL）在具有正宗的Web搜索交互的现实环境中通过缩放 ...

0 0 0 2025/04/09 arXiv:2504.03160v2 Kane

Multi-modal Time Series Analysis: A Tutorial and Survey

多模式时间序列分析最近已成为数据挖掘的重要研究领域，这是由于来自现实世界来源的文本，图像和结构化表格数据的可用性不断提高。但是，多模式时间序列的有效分析受到数据异质性，模态差距，未对准和固有噪声的阻碍。多模式时间序列方法的最新进步通过基于深度学习方法的跨模式相互作用利用了多模式上下文，从而显着增强了各种下游任务 ...

0 0 0 2025/04/09 arXiv:2503.13709v1 xiaoming513513

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

我们提出了针对推理模型的VAPO，基于价值的增强近端策略优化框架。这是一个针对基于价值范式中推理模型的新颖框架。基于QWEN 32B预培训模型的AIME 2024数据集VAPO的基准测试，达到了$ \ mathbf {60的最先进分数 ...

0 0 0 2025/04/09 arXiv:2504.05118v2 qly6353508

Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding

多模式大型语言模型（MLLM）引入了一个新颖的维度来记录理解，即它们具有视觉理解能力；但是，如何设计合适的图像文本预训练任务，以桥接文档级MLLMS中的视觉和语言模式 ...

0 0 0 2025/04/09 arXiv:2503.14140v1 18802499519

A multimodal LLM for the non-invasive decoding of spoken text from brain recordings

与大脑有关的人工智能研究主题最近越来越受欢迎，尤其是由于多模式体系结构从计算机视觉到自然语言处理可以做什么。这项工作中我们的主要目标是探索来自非侵入性fMRI记录的口语文本中这些体系结构的可能性和局限性。与视觉和文本数据相反，fMRI数据是由于大脑扫描仪的种类而代表了一种复杂的方式，这意味着（i）记录的信号格式的多样性，（ii）原始信号的低分辨率和噪声，以及（iii）可以用作生成学习的基础模型的预 ...

0 1 0 2025/04/09 arXiv:2409.19710v1 冬月

DROID-Splat: Combining end-to-end SLAM with 3D Gaussian Splatting

场景合成的最新进展使独立的大满贯系统纯粹是基于优化的过度启示，并以渲染目标的可能性进行了优化。但是，跟踪性能仍然缺乏传统和端到端的大满贯系统。尚未达到稳健性，速度和准确性之间的最佳权衡，尤其是对于单眼视频 ...

0 0 0 2025/04/09 arXiv:2411.17660v2 wangchenchen

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）