通过可验证的奖励(RLVR)进行的增强学习表现出有望在推进LLM的推理能力方面的潜力。但是,它的成功仍然限于数学和代码域。这一主要限制源于对域特异性验证仪的严重依赖,这导致了过于复杂性和有限的可扩展性 ...
0 0 0 2025/07/06 arXiv:2506.18254v1 qq466943803
强化学习已成为训练后大语言模型(LLM)的强大范式,以改善推理。诸如从人类反馈(RLHF)中学习的方法和具有可验证奖励(RLVR)的增强学习的方法已显示出很强的结果,但是它们需要广泛的外部监督。我们研究了一种替代的方法,即从内部反馈(RLIF)中学习的替代方法,该方法仅依赖于固有的模型衍生信号而不是外部奖励 ...
0 0 0 2025/07/06 arXiv:2506.17219v2 qq466943803
鉴于过去的锻炼回答是自动辅导系统的重要目标,可以追踪学生的知识增长,以自定义学习体验。然而,实现这一目标是一项非平凡的任务,因为它涉及对多个知识组成部分(KC)进行建模知识状态,同时在学习过程中考虑其时间和关系动态。知识跟踪方法通过使用复发模型对KCS的时间动力进行建模或使用图模型进行跨KCS的关系动态来解决此任务 ...
0 0 0 2025/07/06 arXiv:2410.01836v1 乐乐
面向目标的导航对自主系统提出了一个基本挑战,要求代理商导航复杂的环境以达到指定的目标。这项调查通过推理域的统一观点对多模式导航方法进行了全面分析,探讨了代理使用视觉,语言和声学信息如何感知,理由和导航环境。我们的主要贡献包括基于推理领域的主要环境推理机制组织导航方法;系统地分析共享的计算基础如何支持在不同的导航任务上看似不同的方法;识别各种导航范式中的经常性模式和独特的优势;并研究多模式感知的整合 ...
0 0 0 2025/07/06 arXiv:2504.15643v1 yzwang
雷达和干扰器系统之间的动态竞争给现代电子战(EW)带来了重大挑战,因为当前的主动学习方法仍然缺乏样品效率,并且无法利用干扰器的特征。在本文中,考虑了频率敏捷雷达与数字射频记忆(DRFM)的智能干扰器之间的竞争。我们引入了一个在线凸优化(OCO)框架,旨在说明这种对抗性互动 ...
0 0 0 2025/07/06 arXiv:2402.16274v3 mmmmp
RGB-IR(RGB-Infrared)图像对经常在智能监视等各种应用中同时应用。但是,随着模式数量的增加,所需的数据存储和传输成本也增加了一倍。因此,有效的RGB-IR数据压缩至关重要 ...
0 0 0 2025/07/06 arXiv:2506.21851v1 allen1000
由大型语言模型提供动力的高度自主生成代理有望模拟虚拟社会中复杂的社会行为。但是,以低计算成本与人类实现实时互动仍然具有挑战性。在这里,我们介绍Lyfe代理商 ...
0 0 0 2025/07/06 arXiv:2310.02172v1 elonmusk
连接的$ K $ -Median问题是一个受约束的聚类问题,它结合了基于距离的$ K $ -CLUSTERING与连接信息。该问题允许输入度量空间和未加权的未向连接图,该图与公制空间完全无关。目标是计算$ k $中心和相应的簇,以使每个集群形成$ g $的连接子图,并使$ k $  - 米德式的成本最小化 ...
0 0 0 2025/07/06 arXiv:2507.02774v1 SourceRoc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)