一译 —— 文档和论文翻译、对照阅读、讨论和社区

One-Minute Video Generation with Test-Time Training

如今，变形金刚仍然难以生成一分钟的视频，因为自我发挥的层面对于长篇小说效率低下。诸如Mamba层之类的替代方案与复杂的多场景故事斗争，因为它们的隐藏状态不那么表现力。我们尝试测试时间培训（TTT）层，其隐藏状态本身可以是神经网络，因此更具表现力 ...

0 0 0 2025/04/10 arXiv:2504.05298v1 Romaker

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

有效获取外部知识和最新信息对于大型语言模型（LLM）中的有效推理和文本生成至关重要。检索增强和工具使用培训方法，其中将搜索引擎视为工具缺乏复杂的多转弯检索灵活性或需要大规模监督数据。在推理过程中提示具有推理能力的高级LLM使用搜索引擎并不是最佳的，因为LLM无法学习如何与搜索引擎进行最佳互动 ...

0 0 0 2025/04/10 arXiv:2503.09516v3 leec

DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning

信息检索系统对于有效访问大型文档收集至关重要。最近的方法利用了大型语言模型（LLM）来通过查询增强来提高检索性能，但通常依靠需要大量计算资源和手工标记数据的昂贵监督学习或蒸馏技术。在本文中，我们介绍了DeepRetReval，这是一种基于新颖的增强学习方法，该方法训练LLMS通过反复试验直接通过反复试验进行查询增强，而无需监督数据 ...

0 0 0 2025/04/10 arXiv:2503.00223v2 leec

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning

我们提出了Rec-R1，这是一个通用的增强学习框架，该框架通过闭环优化将大型语言模型（LLMS）与建议系统桥接。与提示和监督微调（SFT）不同，REC-R1使用固定的黑盒推荐模型的反馈直接优化LLM生成，而无需依赖于GPT-4O等专有模型的合成SFT数据。这避免了数据蒸馏所需的大量成本和精力 ...

0 0 0 2025/04/10 arXiv:2503.24289v1 leec

Polos: Multimodal Metric Learning from Human Feedback for Image Captioning

建立一个与人类判断紧密一致的自动评估指标对于有效开发图像字幕模型至关重要。最近，数据驱动的指标表明，与诸如苹果酒之类的经典指标相比，与人类判断的相关性更强。但是，它们缺乏足够的功能来处理幻觉并跨越各种图像和文本的概括，因为它们仅使用从与图像字幕评估无关的任务中学到的嵌入来计算标量相似性。在这项研究中，我们提出了Polos，Polos是图像字幕模型的监督自动评估指标 ...

0 0 0 2025/04/10 arXiv:2402.18091v1 zl1994

One Adapter for All Programming Languages? Adapter Tuning for Code Search and Summarization

由于预先训练的模型可以使许多代码智能任务自动化，因此，广泛使用的范式是为每种编程语言对任务数据集中的模型进行微调。最近的一项研究报告说，多语言微调有利于一系列任务和模型。但是，我们发现多语言微调会导致最近模型Unixcoder和Codet5的性能降解 ...

0 0 0 2025/04/10 arXiv:2303.15822v1 15966829631

Repair Is Nearly Generation: Multilingual Program Repair with LLMs

编写代码时，大多数程序员会犯错误。这些错误中的一些很小，几乎不需要对原始程序进行编辑 - 最近将一类错误的错误称为“最后一英里错误”。这些错误打破了经验丰富的开发人员的流程，并且可以使新手程序员陷入困境 ...

0 0 0 2025/04/10 arXiv:2208.11640v3 15966829631

DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors

大规模扩散模型在图像、视频和音频等多种模式中表现出了出色的生成能力。然而，文本转语音 (TTS) 系统通常涉及特定领域的建模因素（例如 ...

0 0 0 2025/04/10 arXiv:2406.11427v2 Phyki

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）