元强化学习算法可以利用先前的经验来学习如何学习,从而使机器人能够更快地获得新技能。然而,当前关于元强化学习的大部分研究都集中在非常狭窄的任务分布上。例如,常用的元强化学习基准将模拟机器人的不同运行速度用作不同的任务... ...
对于使AI系统能够识别和适应动态现实世界中不断发展的关系,几乎没有持续的关系提取是一个至关重要的挑战。传统的基于内存的方法通常过于适应有限的样本,无法加强旧知识,而在几个方案中的数据稀缺,进一步加剧了这些问题,从而阻碍了潜在空间中的有效数据增强。在本文中,我们提出了一种新型基于检索的解决方案,从大型语言模型开始,以生成每个关系的描述 ...
尽管扩散模型在生成高质量图像方面表现出色,但先前的工作报告了语言建模中扩散和自回旋(AR)方法之间存在显着的性能差距。在这项工作中,我们表明,简单的掩盖离散扩散比以前想象的更具性能。我们采用有效的培训配方,可改善蒙版扩散模型的性能,并得出简化的,rao-blackwell的目标,从而实现其他改进 ...
(rl)算法可以利用之前收集的经验来获取有效的策略,而无需任何在线交互。人们普遍认为,离线强化学习甚至能够从高度次优的数据中提取良好的策略,在这种情况下,模仿学习找到的次优解决方案不会比生成数据集的演示器有所改进。然而 ...
文本样式转移是自然语言处理的重要研究方向,旨在使文本适应各种偏好,但经常在资源有限的情况下面临挑战。在这项工作中,我们通过双级可转移的提示(Settp)引入了一种新颖的方法,称为“样式提取”和可调的推理,以在低资源场景中进行有效的样式转移。首先,Settp学习了源样式级别的提示,其中包含来自高资源样式转移的基本样式特征 ...
视听视频分割〜(AVV)旨在在图像框架内生成像素级产生对象的像素级地图,并确保地图忠实地遵守给定的音频,例如在视频中识别和分割唱歌的人。 However, existing methods exhibit two limitations: 1) they address video temporal features and audio-visual interactive features se ...
神经网络正在成为用于对高维动力系统的可扩展数据驱动模拟的工具,尤其是在数值方法不可行或计算昂贵的设置中。值得注意的是,已经表明,将域对称性纳入确定性神经模拟器中可以大大提高其准确性,样本效率和参数效率。但是,要将对称性纳入可以模拟随机现象的概率神经模拟器中,我们需要一个模型,该模型在轨迹上而不是均质函数近似值而不是轨迹上产生均等分布 ...
在视觉上衰落的环境中,稳健的深度感知对于自动空中系统至关重要。捕获红外辐射的热成像摄像机对视觉降解是可靠的。但是,由于缺乏大规模数据集,将热摄像机用于无人驾驶系统(UAS)深度感知仍未得到探索 ...