一译 —— 文档和论文翻译、对照阅读、讨论和社区

Learning Hazing to Dehazing: Towards Realistic Haze Generation for Real-World Image Dehazing

现有的现实世界图像脱掩的方法主要尝试微调预训练的模型或调整其推理程序，从而在很大程度上依赖于预先训练的模型和相关的培训数据。此外，在密集的雾期下恢复严重扭曲的信息需要生成的扩散模型，由于其漫长的采样过程，其潜在的去悬空的潜力部分仍未得到充分利用。为了解决这些局限性，我们引入了一条新颖的危险管道，该管道由现实的朦胧图像生成框架（Hazegen）和基于扩散的Dhazing框架（Diffdehaze）组 ...

0 0 0 2025/05/27 arXiv:2503.19262v1 jiajia233

3D CoCa: Contrastive Learners are 3D Captioners

3D字幕旨在描述自然语言中3D场景的内容，由于点云的固有稀疏性和现有方法中的跨模式对准较弱，因此仍然具有高度挑战性。为了应对这些挑战，我们提出了3D可口可乐，这是一个新颖的统一框架，无缝将对比的视觉学习与单个体系结构中的3D字幕产生相结合。我们的方法利用冷冻的剪贴视觉语言主链提供丰富的语义先验，一种空间意识的3D场景编码器来捕获几何环境，以及多模式解码器以生成描述性字幕 ...

0 0 0 2025/05/27 arXiv:2504.09518v1 hx5563

Distilling LLM Agent into Small Models with Retrieval and Code Tools

大型语言模型（LLM）在复杂的推理任务上表现出色，但在计算上保持昂贵，从而限制了其实际部署。为了解决这个问题，最近的作品集中在使用教师LLMS的Theark（COT）痕迹将推理能力提炼成较小的语言模型（SLM）。但是，这种方法在需要罕见的事实知识或精确计算的情况下挣扎，在这种情况下，由于能力有限，SLM经常会幻觉 ...

0 0 0 2025/05/27 arXiv:2505.17612v1 chrisxiong

MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning

我们提出了MM-Eureka，这是一种多模式推理模型，成功地将基于规则的大规模强化学习（RL）扩展到了多模式推理。尽管基于规则的RL在提高LLMS在文本域中的推理能力方面取得了巨大的成功，但其在多模式设置中的应用仍然具有挑战性。我们的工作重现了多模式空间中基于文本的RL系统（例如DeepSeek-R1）的关键特征，包括准确奖励和响应长度的稳定增加以及反射行为的出现 ...

0 0 0 2025/05/27 arXiv:2503.07365v2 dm616703

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

尽管增强学习（RL）在增强大语言模型（LLM）方面取得了巨大的成功，但它主要集中于解决数学问题等单转弯任务。由于跨动态的Web界面的长马决策的复杂性，培训有效的Web代理对多转交互作用仍然具有挑战性。在这项工作中，我们介绍了Webagent-R1，这是一个简单而有效的端到端多转弯RL RL框架，用于培训网络代理 ...

0 0 0 2025/05/27 arXiv:2505.16421v1 chrisxiong

Neural Thermodynamics I: Entropic Forces in Deep and Universal Representation Learning

随着深度学习和大型语言模型中新兴现象的迅速发现，解释和理解其原因已成为迫切需要。在这里，我们提出了一种严格的熵力理论，用于理解接受随机梯度下降（SGD）及其变体训练的神经网络的学习动力学。在参数对称性和熵损失格局的基础上，我们表明表示学习是由随机性和离散时间更新引起的紧急熵力至关重要的 ...

0 0 0 2025/05/27 arXiv:2505.12387v1 odenkkk

Model Merging in Pre-training of Large Language Models

模型合并已成为增强大型语言模型的一种有希望的技术，尽管它在大规模的预训练中的应用仍然相对尚未探索。在本文中，我们对训练过程中的模型合并技术进行了全面研究。通过对量表和混合物（MOE）的广泛实验，范围从数百万到1000亿多个参数，我们证明，与持续学习率进行训练的检查点不仅可以实现显着的绩效提高，而且还可以准确预测退火行为 ...

0 0 0 2025/05/27 arXiv:2505.12082v3 mlp

StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization

高效的多跳跃推理需要基于大语言模型（LLM）的代理，才能迭代地获取高价值的外部知识。先前的工作探索了加强学习（RL）来培训LLMS以执行基于搜索的文档检索，从而取得了显着的改进，从而取得了显着的改进，但由于仅来自全球信号的稀疏奖励而产生的复杂，多跳的质量质量质量检查表现不佳。为了解决现有研究中的这一差距，我们介绍了Stepearch，这是一个搜索LLMS的框架，该框架接受了逐步近端策略优化方法 . ...

0 0 0 2025/05/27 arXiv:2505.15107v2 chrisxiong

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）