一译 —— 文档和论文翻译、对照阅读、讨论和社区

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

大型语言模型（LLMS）可以通过与外部工具的互动，一种称为工具集成推理（TIR）的范式来显着提高其推理能力。但是，使用增强学习（RL）将TIR扩展到多转变场景通常受到训练不稳定和性能崩溃的阻碍。我们确定这种不稳定性主要是由于外部工具反馈的分布漂移引起的，导致产生低概率 Token  ...

0 0 0 2025/09/26 arXiv:2509.02479v2 Layne

MemoCue: Empowering LLM-Based Agents for Human Memory Recall via Strategy-Guided Querying

代理辅助记忆召回是人类计算机相互作用领域的一个关键研究问题。在常规方法中，代理可以从其配备的内存模块中检索信息，以帮助人们回忆不完整或模糊的记忆。内存模块的大小有限阻碍了完整的记忆的获取，并影响了实践中的内存回忆性能 ...

0 0 0 2025/09/26 arXiv:2507.23633v1 aaaa1

Privacy for Free: How does Dataset Condensation Help Privacy?

为了防止无意的数据泄漏，研究社区已诉诸于可以生成私人数据进行模型培训的数据生成器。但是，为了数据隐私，现有的解决方案遭受昂贵的培训成本或概括性不佳的效果。因此，我们提出了一个问题，是否可以同时实现培训效率和隐私 ...

0 0 0 2025/09/26 arXiv:2206.00240v1 T_Intelligence

S2-Track: A Simple yet Strong Approach for End-to-End 3D Multi-Object Tracking

3D 多目标跟踪 (MOT) 在自动驾驶感知中发挥着至关重要的作用。最近基于端到端查询的跟踪器可同时检测和跟踪对象，这在 3D MOT 任务中显示出了巨大的潜力。然而，现有的方法忽视了不确定性问题，即对跟踪对象的状态和位置缺乏精确的信心 ...

0 0 0 2025/09/26 arXiv:2406.02147v2 xubiao

SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

我们提出了SD3.5-Flash，这是一个有效的几步蒸馏框架，它为可访问的消费者设备带来了高质量的图像生成。我们的方法通过专门针对几步生成量身定制的重新计算分布匹配的物镜来提炼计算过度的整流流模型 ...

0 0 0 2025/09/26 arXiv:2509.21318v1 fany

Autoregressive End-to-End Planning with Time-Invariant Spatial Alignment and Multi-Objective Policy Refinement

自动驾驶中自动驾驶端到端计划的固有顺序建模功能使它们成为端到端计划的强大基线。然而，由于规划师必须在过去的感官数据上调节未来的动作，因此他们的性能受到时空未对准的限制。这创造了一个不一致的世界观，限制了一种原本强大的方法的性能上限 ...

0 0 0 2025/09/26 arXiv:2509.20938v1 布朗瓶

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

没有大规模，以推理为重点的数据集和全面的评估基准的开源文本对图像（T2I）模型的进步受到阻碍，这与领先的封闭源系统相比，绩效差距导致性能差距。为了应对这一挑战，我们引入了Flux-Reason-6M和Prism Bench（精确且健壮的图像合成测量基准）。 Flux-Reason-6M是一个庞大的数据集，它由600万个高质量的磁通图像和2000万双语言（英语和中文）描述，专门设计用于教授复杂的推理 ...

0 0 0 2025/09/26 arXiv:2509.09680v1 rico

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning

基于拍卖的推荐系统在在线广告平台中很普遍，但是通常会根据即时预期的回报指标进行优化以分配建议插槽，从而忽略了建议对用户行为的下游影响。在这项研究中，我们采用强化学习来优化基于拍卖的推荐系统中的长期回报指标。利用时间差异学习，一种基本的强化学习算法，我们实施了一种单步政策改进方法，使系统偏向于具有更高长期用户参与度量指标的建议 ...

0 0 0 2025/09/26 arXiv:2305.13747v3 RRdec

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）