我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态访问分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而没有任何其他学习,可以评估任何非马尔可夫政策,以固定的概率在一组基本马尔可夫策略之间切换 ...
尽管3D生成模型中有大规模的3D数据集以及进步,但3D几何和纹理数据的复杂性和不均匀质量仍然阻碍了3D生成技术的性能。在大多数现有方法中,使用不同的模型和非统一表示形式在单独的阶段生成3D几何和纹理,经常导致几何和纹理之间的连贯性不令人满意。为了应对这些挑战,我们为联合生成3D几何和质地提出了一个新颖的框架 ...
预训练的语言模型(PLM)在各种自然语言理解任务上取得了巨大的成功。另一方面,对PLM的简单微调对于特定于域的任务可能是次优的,因为它们不能涵盖所有域中的知识。尽管PLM的自适应预培训可以帮助他们获得特定于领域的知识,但需要大量的培训成本 ...
通过可验证的奖励(RLVR)的增强学习最近在增强LLM的推理能力方面取得了显着成功,尤其是在数学和编程任务中。人们普遍认为,RLVR使LLM能够持续自我爆发,从而获得超过相应基本模型能力的新型推理能力。但是,在这项研究中,我们通过测量@\ textIt {k}度量的通行证{k}度量\ textit {k}来探讨模型范围跨广泛的模型家族和基准的模型的推理能力边界,从而重新审视了这一假设 ...
近年来,张量网络成为解决大规模优化问题的强大工具。最受欢迎的张量网络之一是张量火车(TT)分解,它充当复杂的张量网络的构件。然而,由于其严格的顺序多连线产物在潜在核心上,TT分解高度取决于张量尺寸的排列,这导致难以找到最佳的TT表示 ...
使用最近提出的张量环分解的矩阵乘积状态(MPS)表示,在本文中,我们提出了一种张量完成算法,该算法是一种交替的最小化算法,可在MPS表示中交替交替。这种发展的部分原因是矩阵完成算法的成功,这些算法在(低级别)因素上交替出现。在本文中,我们提出了张量环完成算法的光谱初始化,并分析了所提出算法的计算复杂性 ...
专家(MOE)架构的混合物已经成为一种有希望的范式,用于扩展大型语言模型(LLMS),以稀疏的特定于任务专家的激活。尽管在推断过程中它们的计算效率,但MOE模型的总体参数足迹(例如 ...
知识追踪(KT)是追踪学生参与一系列学习活动的知识状态的一项任务。 KT的一个重要目的是个性化实践顺序,以帮助学生有效地学习知识概念。但是,现有的方法,例如贝叶斯知识追踪和深入的知识追踪每个预定义概念的模型知识状态,或者无法确切地指出学生擅长或不熟悉哪种概念 ...