在本文中,我们提出了 R$^3$:通过逆向课程强化学习(RL)进行学习推理,这是一种仅采用结果监督来实现大型语言模型过程监督的好处的新方法。将强化学习应用于复杂推理的核心挑战是识别一系列能够产生积极奖励的动作序列,并为优化提供适当的监督。结果监督为最终结果提供稀疏奖励,而无需识别错误位置,而过程监督提供逐步奖励,但需要大量的手动注释 ...
事实证明,从大量人类演示中进行的模仿学习是构建有能力的机器人代理的有效范例。然而,收集这些演示可能非常昂贵且耗时。我们引入了 MimicGen,这是一个系统,可以通过使数据适应新的环境,从少量的人类演示中自动合成大规模、丰富的数据集 ...
在合成逼真的、语音驱动的头部特写视频中实现高度同步是一项重大挑战。传统的生成对抗网络(GAN)很难保持一致的面部身份,而神经辐射场(NeRF)方法虽然可以解决这个问题,但通常会产生不匹配的嘴唇运动、面部表情不足和不稳定的头部姿势。栩栩如生的会说话的头部需要主体身份、嘴唇动作、面部表情和头部姿势的同步协调 ...
像 ELMo 和 BERT 这样的语言模型提供了自然语言的稳健表示,可作为各种下游任务的语言理解组件。课程学习是一种采用结构化培训制度的方法,已在计算机视觉和计算机视觉领域得到利用。机器翻译以提高模型训练速度和模型性能。虽然语言模型已被证明可以为自然语言处理社区带来变革,但这些模型已被证明昂贵、能源密集且训练起来具有挑战性 ...
用于训练大型语言模型的自动数据选择和课程设计具有挑战性,只有少数现有方法比标准训练有所改进。此外,当前的方案侧重于领域级别的选择,忽略了每个单独训练点的更细粒度的贡献。传统的数据点选择方法很难在大型语言模型上应用:大多数在线批量选择方法执行两次前向或后向传递,这会给大规模模型带来相当大的额外成本 ...
我们应该如何整合互补传感器的表示以实现自动驾驶?基于几何的融合已显示出感知的前景(例如物体检测、运动预测) ...
多年来,性能评估已成为计算机视觉领域的重要组成部分,使得许多子领域取得了切实进展。虽然头部说话视频生成已成为一个新兴的研究主题,但对该主题的现有评估存在许多局限性。例如,大多数方法都使用人类受试者(例如 ...
我们提出了 GTE,一种通过多阶段对比学习训练的通用文本嵌入模型。根据最近将各种 NLP 任务统一为单一格式的进展,我们通过对来自多个来源的不同数据集进行对比学习来训练统一的文本嵌入模型。通过在无监督预训练和监督微调阶段显着增加训练数据的数量,我们比现有的嵌入模型实现了显着的性能提升 ...