自动语音识别(ASR)取得了显着的进步,但在很大程度上依赖于大规模标记的数据,这对于像越南这样的低资源语言而言是稀缺的。尽管诸如耳语,USM和MMS之类的现有系统达到了有希望的性能,但它们的功效在培训成本,延迟和可及性方面仍然不足。为了解决这些问题,我们提出了Vietasr,这是一种新型的ASR培训管道,它利用大量未标记的数据和一小部分标记数据 ...
0 0 0 2025/05/29 arXiv:2505.21527v1 lichenbook
我们表明,使用一个培训示例(1-Shot RLVR)通过可验证的奖励进行增强学习可以有效激励大语言模型(LLMS)的数学推理能力。将RLVR应用于基本模型QWEN2.5-MATH-1 ...
0 0 0 2025/05/29 arXiv:2504.20571v2 18812680264
随着大型语言模型(LLM)的发展迅速发展,在不损害其效用的情况下有效地确保这些模型已成为研究的关键领域。但是,目前针对越狱袭击的防御策略(即 ...
0 0 0 2025/05/29 arXiv:2406.18118v4 again
预先训练的语言模型在各种自然语言理解(NLU)任务中取得了巨大的成功,因为它可以通过对大型语料库进行预培训来捕获文本中的深层上下文化信息。在这份技术报告中,我们介绍了对中国NLU任务的中国语料库和填充的名为Nezha的训练前语言模型(神经情境化表示)。 NEZHA的当前版本基于BERT,其收集了一系列可靠的改进,其中包括功能相对位置编码作为有效的位置编码方案,整个单词掩盖策略,混合精度训练以及训练 ...
0 0 0 2025/05/29 arXiv:1909.00204v3 mio
这项工作从在线优化角度提供了对马尔可夫决策过程(MDP)的新解释。在这种在线优化环境中,MDP的策略被视为决策变量,而相应的值函数被视为来自环境的回报。基于这种解释,我们构建了由MDP引起的Blackwell游戏,该游戏弥合了MDP的遗憾最小化,Blackwell的可接近性理论和学习理论之间的差距 ...
0 0 0 2025/05/29 arXiv:2012.14043v1 Alexander
推理模型在传统语言模型遇到的艰巨任务上表现出了令人印象深刻的表现。但是,许多人困扰着过度思考的问题,这使大量不必要的 Token 产生了无法提高问题准确性的不必要 Token 。我们介绍了问题级难度的近似度量,并证明存在问题难度和最佳 Token 支出之间存在明确的关系,并评估校准多种推理模型在有效分配最佳 Token 计数方面的校准程度 ...
0 0 0 2025/05/29 arXiv:2504.13367v1 Saros
我们培训了13,440个大语言模型,发现熵最小化仅需要一个未标记的数据和10个步骤优化,以实现与使用数千个数据和基于规则的增强学习中精心设计的奖励相当甚至更大的性能改进。这个惊人的结果可能会促使大型语言模型重新思考训练后范例。我们的代码在此HTTPS URL上可用 ...
0 0 0 2025/05/29 arXiv:2505.20282v2 ttwt
改善复杂任务的绩效,并在大型语言模型(LLMS)中启用可解释的决策,尤其是对于临床应用,需要有效的推理。然而,如果没有监督的微调(SFT),这仍然具有挑战性,这是对封闭源模型蒸馏出的昂贵的三链(COT)数据(例如, ...
0 0 0 2025/05/29 arXiv:2505.17952v1 王德发

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)