一译 —— 文档和论文翻译、对照阅读、讨论和社区

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

现有的大型推理模型（LRMS）表明了增强学习的潜力（RL），以增强大语言模型〜（LLMS）的复杂推理能力。尽管他们在数学和编码等具有挑战性的任务上取得了显着的绩效，但他们通常依靠自己的内部知识来解决问题，这可能是不足的时间敏感或知识密集型问题，从而导致不准确和幻觉。为了解决这个问题，我们建议\ textbf {r1-searcher}，这是一种新颖的基于两阶段结果的RL方法，旨在增强LLM的搜索功 ...

0 0 0 2025/03/11 arXiv:2503.05592v1 fkxie

Multi-Level Knowledge Distillation for Out-of-Distribution Detection in Text

事实证明，自我监督的表示学习被证明是分布（OOD）检测的有价值的组成部分，仅具有分布（ID）示例的文本。这些方法要么使用ID示例从头开始训练语言模型，要么对预训练的语言模型进行微调，然后将语言模型的困惑输出作为OOD分数。在本文中，我们分析了两种OOD检测方法的互补特征，并提出了一种多级知识蒸馏方法，该方法在缓解其局限性的同时整合了其优势 ...

0 0 0 2025/03/11 arXiv:2211.11300v3 sherwinNG

Looped Transformers are Better at Learning Learning Algorithms

变形金刚在context求解各种（潜在）模型的数据拟合问题方面已显示出有效性，如GARG等人报道， Transformer 体系结构中缺少固有的迭代结构在模拟传统机器学习方法中通常使用的迭代算法提出了挑战。为了解决这个问题，我们提出了循环 Transformer 体系结构及其相关培训方法的利用，目的是将迭代特性纳入 Transformer 体系结构 ...

0 0 0 2025/03/11 arXiv:2311.12424v3 odenkkk

FlowDec: A flow-based full-band general audio codec with high perceptual quality

我们提出了FlowDec，这是一种以48 kHz采样的一般音频的神经音频音频编解码器，将非对抗性编解码器训练与基于新型条件流量匹配方法的随机后过滤器相结合。与基于得分匹配的先前的Work评分EC相比，我们从语音到一般音频概括，并从24 kbit/s移动到低至4 kbit/s，同时提高了输出质量并将所需的后过滤后DNN评估从60个评估降低到6个，而无需任何精细调整或蒸馏技术。与评分者相比，我们为我们 ...

0 0 0 2025/03/11 arXiv:2503.01485v1 13724122396

Improving Sharpness-Aware Minimization with Fisher Mask for Better Generalization on Language Models

在有限的培训语料库中对大型审计语言模型进行微调通常遭受概括不佳。先前的工作表明，最近提供的清晰度最小化（SAM）优化方法可以改善模型的概括。但是，SAM平等地向每个模型参数增加了扰动（但并非所有参数都同等地促进训练的优化），我们认为这是次优的，并且会导致过度计算 ...

0 0 0 2025/03/11 arXiv:2210.05497v1 17662529688

Proactive Conversational Agents with Inner Thoughts

对话式AI的长期愿望之一是使他们能够在对话中自主采取主动行动，即积极主动 ...

0 0 0 2025/03/11 arXiv:2501.00383v2 gefeizhang

UniverSeg: Universal Medical Image Segmentation

虽然深度学习模型已成为医学图像分割的主要方法，但它们通常无法概括到涉及新的解剖学，图像模式或标签的看不见的分割任务。鉴于一项新的细分任务，研究人员通常必须培训或微调模型，这是耗时的，并为临床研究人员带来了巨大的障碍，临床研究人员通常缺乏培训神经网络的资源和专业知识。我们提出了Universeg，这是一种解决看不见的医疗细分任务的方法，而无需额外的培训 ...

0 0 0 2025/03/11 arXiv:2304.06131v1 hesy77

Unified Reward Model for Multimodal Understanding and Generation

人类偏好一致性的最新进展显着增强了多模式的产生和理解。一个关键方法是培训奖励模型，以指导偏好优化。但是，现有模型通常是特定于任务的，从而限制了它们在各种视觉应用中的适应性 ...

0 0 0 2025/03/11 arXiv:2503.05236v1 arthur

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）