关于强化学习(RL)在大型语言模型(LLMS)中的应用的研究主要集中在单转弯问题上,例如数学推理或单次代码生成。尽管可以将这些问题视为 Token 级的多转移MDP,但此视图对应于多转交互的堕落情况,而环境没有提供反馈。这与许多现实世界中的域(例如软件工程(SWE))形成鲜明对比,这些领域需要与状态环境进行丰富的多转交流,该环境对每个动作都以非平凡的观察做出了反应 ...
深度半监督学习是一个快速增长的领域,并具有一系列实际应用。本文从模型设计的角度和无监督的损失函数的角度进行了有关基本面和最新进展的全面调查。我们首先提出了深度半监督学习的分类法,该分类法对现有方法进行了分类,包括深层生成方法,一致性正则化方法,基于图形的方法,伪标记方法和混合方法 ...
这封信报告了超递高离子碰撞中光核D $^0 $梅森生产的首次测量。该研究是使用铅铅碰撞数据进行的,其集成的光度为1.38 nb $^{ - 1} $,由CMS实验收集,在核素核子核中心的质量中心能量为5 ...
腿部机器人必须在现实环境中实现强大的运动和能源效率。然而,经过模拟培训的控制器通常无法可靠地转移,并且大多数现有方法忽略了执行器特定的能量损失或取决于复杂的,手工调整的奖励表述。我们提出了一个框架,将SIM到现实的增强学习与永久磁铁同步电动机的物理接地能量模型集成在一起 ...
科学发现的循环经常被软件的缓慢创建以支持计算实验的缓慢而被瓶颈。为了解决这个问题,我们提出了一个AI系统,该系统创建了专家级科学软件,其目标是最大化质量指标。该系统使用大型语言模型(LLM)和树搜索(TS)系统地改善质量度量,并智能地导航可能的解决方案 ...
在建立世界模型时,一个共同的假设是,环境具有一个不变的基本因果规则,例如将牛顿的法律应用于每种情况。实际上,看来是一种漂移的因果机制通常是通过狭窄的观察窗口看到的固定基本机制的表现。这带来了一个问题,即建立世界模型时,即使在政策或环境中的细微转变也可以改变观察到的因果机制 ...
对话状态跟踪(DST)在面向任务的对话系统中起着至关重要的作用。但是,用户的输入可能包含隐式信息,对DST任务构成重大挑战。此外,DST数据还包括复杂的信息,其中不仅包含与当前转弯无关的大量噪声,而且还使构造DST数据集昂贵 ...
视频扩散 Transformer (VDITS)在高质量的视频生成中取得了显着的进展,但是由于高维视频序列的注意力二次复杂性,因此在计算上保持昂贵。最近的注意加速方法利用注意力模式的稀疏性提高效率。但是,他们经常忽略冗余远程相互作用的效率低下。为了解决这个问题,我们提出\ textbf {vorta},这是一个具有两个新颖组成部分的加速框架:1)一种稀疏的注意机制,可有效捕获长期依赖性,以及2)一 ...