通过可验证的奖励(RLVR)的增强学习最近在增强LLM的推理能力方面取得了显着成功,尤其是在数学和编程任务中。人们普遍认为,RLVR使LLM能够持续自我爆发,从而获得超过相应基本模型能力的新型推理能力。但是,在这项研究中,我们通过测量@\ textIt {k}度量的通行证{k}度量\ textit {k}来探讨模型范围跨广泛的模型家族和基准的模型的推理能力边界,从而重新审视了这一假设 ...
0 0 0 2025/04/25 arXiv:2504.13837v1 odenkkk
遥感中的实例分割算法通常基于常规方法,将其应用程序限制为可见的方案和封闭式预测。在这项工作中,我们提出了一项名为“零光遥感实例”细分的新任务,旨在识别训练数据中缺少的空中对象。当对具有较高的类相似性和类内差异的空中类别进行分类时,就会出现挑战 ...
0 0 0 2025/04/25 arXiv:2412.12798v1 Jht
语言模型在处理数值数据和执行算术操作方面努力工作。我们假设该限制可以部分归因于非直觉的文本数字表示。当因果语言模型读取或生成数字时,它不知道其位置值(e ...
0 0 0 2025/04/25 arXiv:2404.00459v2 漏视野
诸如BERT(例如BERT)的仅编码 Transformer 模型被广泛用作句子分类和检索等任务的预训练的骨干。但是,与仅解码器的 Transformer 相比,具有大规模语料库和较长背景的编码器模型相对毫无疑问。在这项工作中,我们介绍了LLM-JP-Modernbert,这是一种现代模型,该模型接受了公开可用的日本语料库,其上下文长度为8192 Token  ...
0 0 0 2025/04/25 arXiv:2504.15544v1 smpublic
诸如Debertav3和Modernbert之类的经过验证的 Transformer 编码模型引入了旨在提高效率和性能的建筑进步。尽管《现代报道》的作者改善了Debertav3对几个基准的表现,但缺乏披露的培训数据和使用共享数据集进行比较的缺乏使得难以确定这些收益是由于建筑改进或培训数据的差异所致。在这项工作中,我们通过与DeBertav3法国模型CamemberTav2在同一数据集上预处理现代伯 ...
0 0 0 2025/04/25 arXiv:2504.08716v1 smpublic
文本到语音合成器(TTS)的开发人员经常利用人类评估者来评估综合语音的质量。我们证明,我们可以使用深层复发性神经网络对人类评估者的平均意见分数(MOS)进行建模,该网络的输入仅由原始波形组成。如Pearson和Spearman的相关性所示,我们的最佳模型仅对MOS的语音级估计仅比采样人类评级 ...
0 0 0 2025/04/25 arXiv:1611.09207v1 Du
深度神经网络(DNN)在许多应用中取得了巨大的成功。 DNNS的体系结构在其性能中起着至关重要的作用,通常手动设计具有丰富的专业知识。但是,由于反复试验的过程,这种设计过程是劳动力密集的,而且由于实践中罕见的专业知识,也不容易实现 ...
0 0 0 2025/04/24 arXiv:2008.10937v4 xjwit
多代理增强学习(MARL)中有效的沟通协议对于促进合作和提高团队绩效至关重要。为了利用沟通,许多以前的作品建议将本地信息压缩到一条消息中,并将其广播给所有可及的代理。但是,这种简单的消息传递机制可能无法为个体代理提供足够,关键和相关的信息,尤其是在严重带宽有限的方案中 ...
0 0 0 2025/04/24 arXiv:2312.15600v3 yang1young

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)