将 Transformer 视为相互作用的粒子系统,我们描述了当权重不取决于时间时,学会表示的几何形状。我们表明,代表 Token 的粒子倾向于将特定的限制物体聚集在一起,因为时间趋向于无穷大。群集位置取决于初始 Token ,确认了变形金刚学到的表示形式的上下文意识 ...
0 1 0 2025/07/14 arXiv:2305.05465v6 yang99
我们表明,即使在某些模型中,具有可验证的奖励(RLVR)的强化学习也可以引起强大的数学推理,即使具有与正确答案的虚假奖励几乎没有,否,否,甚至是负相关的。例如,RLVR将绝对点的QWEN2.5-MATH-7B的Math-500性能提高了21 ...
0 0 0 2025/07/14 arXiv:2506.10947v1 yang99
为了设计与人类目标保持一致的奖励,从人类反馈(RLHF)中学习的强化已成为一种从人类偏好中学习奖励功能并通过强化学习算法优化政策的重要技术。但是,现有的RLHF方法通常误解了最佳策略产生的轨迹,从而导致了可能性不正确的估计和次优学习。受到直接偏好优化框架的启发,该框架直接学习最佳政策而无需明确的奖励,我们提出了策略标记的偏好学习(PPL),以通过遗憾地对人类的偏好进行建模,以反映行为政策信息,以解 ...
0 0 0 2025/07/14 arXiv:2505.06273v2 qisia
生活系统通常是出于平衡和消耗能量来维持新兴的有组织国家的能量。它们的强大功能依赖于一组相互连接的化学反应网络(CRN),其中外部能量供应通常来自可以保持某些物种浓度恒定的通量。因此,为了捕获生命系统的新兴复杂性及其非平衡性质的作用,这对于发现其功能的CRN的约束和特性至关重要 ...
0 0 0 2025/07/14 arXiv:2407.11498v2 kcyao
联合学习(FL)以分布式方式促进了多个客户之间的协作学习,并确保了隐私的安全性。但是,其性能不可避免地会因非独立且分布的(非IID)数据而降低。在本文中,我们专注于功能分布偏斜的FL情景,这是现实世界中常见的非IID情况,在现实世界中,来自不同客户的数据展现出不同的基础分布 ...
0 0 0 2025/07/14 arXiv:2306.09363v2 cyyo
联合实体和关系提取是自然语言处理和知识图构建中的重要任务。现有方法通常将联合提取任务分解为几个基本模块或处理步骤,以使其易于执行。然而,这种范式忽略了这样一个事实,即三重要素是相互依存和不可分割的 ...
0 0 0 2025/07/14 arXiv:2203.05412v2 DUNK_911
我们为网络规模文档中的多跳问题回答一个新的COGQA框架。受认知科学的双重过程理论的启发,该框架通过协调隐式提取模块(系统1)和显式推理模块(系统2),逐渐在迭代过程中逐渐构建\ textit {认知图}。在给出准确的答案的同时,我们的框架进一步提供了可解释的推理路径 ...
0 0 0 2025/07/13 arXiv:1905.05460v2 cuiziliang
知识追踪(KT)模型,例如,深刻的知识跟踪(DKT)模型,通过检查学习者在与这些技能相关的问题上的表现,跟踪个人学习者对技能的获取 ...
0 1 0 2025/07/13 arXiv:2005.12442v1 bestenevoy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)