具有可验证奖励(RLVR)的增强学习已成为增强大语言模型(LLMS)的推理能力的强大方法,而其机制尚未得到充分了解。在这项工作中,我们通过新颖的熵模式进行了对RLVR的开创性探索,并全面分析了不同的 Token 如何影响推理性能。通过检查对经营链(COT)推理中的 Token 熵模式,我们观察到只有一小部分 Token 表现出较高的熵,并且这些 Token 是将模型引导到各种推理途径的关键叉子 . ...
0 0 0 2025/07/11 arXiv:2506.01939v1 cocoyo
尽管主流视觉模型(VLM)在理解图像级别的信息方面迅速发展,但他们仍然缺乏专注于人类指定的特定领域的能力。相反,他们通常依靠大量高质量的图像配对数据来学习和生成后注意图。为了解决这个关键问题,我们提出了利用视觉提示:以各种形式的简单视觉标记来指导和增强特定于区域的注意力的形成 ...
0 0 0 2025/07/10 arXiv:2501.02385v2 Melodyzza
在教育中设计多项选择问题(MCQ)时,创建合理的干扰因素对于确定学生在知识方面的误解和差距和准确评估他们的理解至关重要。但是,先前对分散因子产生的研究尚未充分关注加强干扰因素的难度,从而降低了MCQ的有效性。这项研究提出了一条培训模型的管道,以产生干扰因素,而这些干扰因素更有可能由学生选择 ...
0 0 0 2025/07/10 arXiv:2501.13125v3 cheeryapp
在先进的人类机器人交互任务中,视觉目标导航对于自动机器人导航至关重要。尽管过去已经开发了许多方法,但大多数方法都是为单机器人操作而设计的,这些方法通常遭受着由于环境复杂性而降低的效率和鲁棒性。此外,多机器人协作的学习政策是资源密集的 ...
0 0 0 2025/07/10 arXiv:2310.07937v3 1150501302
大型语言模型(LLM)的出现彻底改变了AI的开发,但是他们的培训要求超出一个集群甚至数据中心的计算资源,从而限制了对大型组织的可访问性。分散的培训已成为一种有希望的范式,以利用集群,数据中心和全球地区的分散资源,使更广泛社区的LLM发展民主化。作为对这个新兴领域的首次综合探索,我们将分散的LLM培训作为资源驱动的范式进行了分散的LLM培训,并将其归类为社区驱动和组织的方法 ...
0 0 0 2025/07/10 arXiv:2503.11023v2 minicoke
高质量数据的可用性是提高 LLM 推理能力的最重要因素之一。现有的工作已经证明了从种子问题或知识库创建更多教学数据的有效性。最近的研究表明,不断扩大强大模型的数据合成(例如, ...
0 0 0 2025/07/10 arXiv:2410.18693v2 cheeryapp
大规模主页建议面临着由暴露偏见引起的伪阴性样本所面临的关键挑战,在这些样本中,非单击可能表明不注意而不是不感兴趣。现有工作缺乏对无效暴露的彻底分析,通常会解决孤立的方面(例如 ...
0 0 0 2025/07/10 arXiv:2507.06503v1 帅哥
大型语言模型(LLM)已提高了人工智能(AI)领域,并且是交互式系统的强大推动力。但是,他们仍然在需要适应用户的长期互动中面临挑战,以及对不断变化的环境的上下文知识和理解。为了克服这些挑战,需要整体记忆建模才能有效地检索和存储相互作用会话中的相关信息以进行合适的响应 ...
0 0 0 2025/07/10 arXiv:2505.13044v1 yuxiao.swj

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)