一译 —— 文档和论文翻译、对照阅读、讨论和社区

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

当语言模型（LMS）通过加强学习（RL）培训以生成自然语言“推理链”时，他们的性能会在各种难以回答任务的困难问题上提高。如今，RL用于推理的几乎所有成功应用都使用二进制奖励功能来评估LM输出的正确性。由于这种奖励功能不会惩罚猜测或低信心输出，因此它们通常具有降解校准的意外副作用，并增加了LMS在其他问题域中产生错误的响应（或“幻觉”）的速率 ...

0 0 0 2025/09/22 arXiv:2507.16806v1 lyg

Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models

通过增强学习（RL）的微调大语言模型（LLM）的最新进展显示出了有希望的复杂推理任务的改进，尤其是当与经过多链（COT）提示配对时。但是，这些成功已在具有数十亿个参数的大型模型上得到了很大的证明，在该模型中，强大的基础可确保有效的初始探索。相比之下，RL对于具有10亿个参数或更少参数的微型LLM仍然具有挑战性，因为它们缺乏有效探索的必要预处理强度，通常会导致次优推理模式 ...

0 0 0 2025/09/22 arXiv:2504.02273v1 lyg

Soft Masked Mamba Diffusion Model for CT to MRI Conversion

磁共振成像（MRI）和计算机断层扫描（CT）是医学成像领域中使用的主要方式。尽管MRI捕获了比CT更详细的解剖结构的复杂性，但它需要更高的财务成本，并且需要更长的图像获取时间。在这项研究中，我们旨在训练CT到MRI转换的潜在扩散模型，并使用称为MAMBA的状态空间模型（SSM）代替常用的U-NET或 Transformer 主链，该模型称为MAMBA，该模型在潜在的斑块上运行 ...

0 0 0 2025/09/22 arXiv:2406.15910v1 CZ

ChronoForge-RL: Chronological Forging through Reinforcement Learning for Enhanced Video Understanding

当前的最新视频理解方法通常面临两个关键挑战：（1）处理密集的视频内容中的每个帧的计算不可行性以及（2）难以通过幼稚的统一采样策略来识别具有语义上有意义的框架。在本文中，我们提出了一个新颖的视频理解框架，称为Chronoforge-RL，该框架结合了时间顶点蒸馏（TAD）和Keyframe-Aware-After-After Group相对政策优化（KF-GRPO）来解决这些问题。具体而言，我们引入 ...

0 0 0 2025/09/22 arXiv:2509.15800v1 麦兜

BaseReward: A Strong Baseline for Multimodal Reward Model

多模式大语言模型（MLLM）的快速发展使他们与人类偏好保持一致。奖励模型（RMS）是实现这一目标的核心技术，但是目前在学术界和行业中都缺乏建立最先进的多模式奖励模型（MRM）的系统指南。通过详尽的实验分析，本文旨在提供清晰的``食谱''，用于构建高性能MRMS ...

0 0 0 2025/09/22 arXiv:2509.16127v1 麦兜

Computational Protein Science in the Era of Large Language Models (LLMs)

考虑到蛋白质的重要性，计算蛋白科学一直是一个关键的科学领域，致力于揭示蛋白质序列结构功能范围内的知识和发展应用。在过去的几十年中，人工智能（AI）对计算蛋白科学产生了重大影响，从而在特定的蛋白质建模任务中取得了显着成功。但是，这些先前的AI模型仍然达到局限性，例如很难理解蛋白质序列的语义，以及无法跨越各种蛋白质建模任务的概括 ...

0 0 0 2025/09/22 arXiv:2501.10282v2 chaojijiayou

LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL

模式链接是在文本到SQL任务中实现人类水平的性能的关键瓶颈，尤其是在现实世界中的大规模多数据库方案中。解决架构链接面临两个主要挑战：（1）数据库检索：从多数据库设置中的大型模式池中选择正确的数据库，同时滤除无关的数据库。 （2）架构项目接地：准确地识别来自SQL生成的大而冗余模式中的相关表和列 ...

0 0 0 2025/09/22 arXiv:2503.18596v4 stringify

Reconstructing 4D Spatial Intelligence: A Survey

长期以来，从视觉观察中重建4D空间智能一直是计算机视觉中的一项核心但充满挑战的任务，并具有广泛的现实应用程序。这些范围从电影（如电影）等娱乐领域（通常是重建基本视觉元素）到体现AI的重点，该元素强调了互动建模和物理现实主义。在3D表示和深度学习体系结构中的快速进步的推动下，该领域迅速发展，超过了先前调查的范围 ...

0 0 0 2025/09/22 arXiv:2507.21045v2 xubiao

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）