深度离线增强学习(RL)的最新进展使得从离线数据集训练强大的机器人代理成为可能。但是,根据受过训练的代理的质量和所考虑的应用程序,通常希望通过进一步的在线互动微调这样的代理。在本文中,我们观察到,在微调过程中,州行动分配变化可能会导致严重的自举误差,这破坏了通过离线RL获得的良好初始政策 ...
如今,大型语言模型(LLM)很容易访问,因此安全性和乐于助人之间的权衡会极大地影响用户体验。优先级安全的模型将使用户在优先使用帮助的同时会降低参与和辅助,这可能会造成伤害。可能的危害包括教人们如何制造炸弹,使青年人暴露于不适当的内容以及伤害用户的心理健康状态 ...
我们提出了一种学习连续状态和行动的基于表达能量的政策的方法,这仅在以前的表格域中才是可行的。我们将我们的方法应用于学习最大的熵策略,导致了一种称为软Q学习的新算法,该算法通过Boltzmann分布来表达最佳策略。我们使用最近提出的摊销Stein变异梯度下降来学习一个随机采样网络,该网络近似于该分布中的样本 ...
离线增强学习(RL)对于探索可能是昂贵或不安全的现实应用程序至关重要。但是,离线学习的政策通常是次优的,需要进一步的在线微调。在本文中,我们解决了离线到O及在线微调的根本困境:如果代理人仍然悲观,它可能无法学习更好的政策,而如果直接变得乐观,则表现可能会突然下降 ...
机器学习中的现代范式涉及对各种数据进行预训练,然后进行特定于任务的微调。在强化学习(RL)中,这转化为通过离线RL在多样化的历史数据集中学习,然后使用交互数据快速在线RL微调。大多数RL微调方法都需要在离线数据上继续培训稳定性和性能 ...
为了获得一项近乎最佳的政策,在增强学习(RL)方面的相互作用较少,有前途的方法涉及离线RL的组合,从而通过利用离线数据集和在线RL来提高样本效率,并通过与环境互动来探索信息性过渡。离线到对线(O2O)RL提供了一个范式,可在有限的在线互动中改善受线训练的代理。但是,由于在线体验和离线数据之间发生了重大的分配变化,大多数离线RL算法都会遭受性能下降,并且无法实现O2O适应性的稳定政策改进 ...
离线到线加强学习(RL)是一个框架,该框架通过离线RL训练政策,然后通过在线RL进行进一步的微调,被认为是数据驱动决策的有希望的食谱。虽然明智,但该框架具有缺点:它需要针对每个任务的特定领域离线RL预训练,并且在实践中通常是脆弱的。在这项工作中,我们提出了无监督到的在线RL(U2O RL),该RL用无监督的离线RL取代了特定于域的监督离线RL,作为离线到Online RL的更好替代方法 ...
在本文中,我们旨在仅利用离线轨迹数据来培训多目标RL的策略。我们将离线策略注册方法扩展到单目标离线RL问题的广泛选择方法,以实现上述目标。但是,这种方法在离线MORL设置中面临着新的挑战,即偏爱示威问题 ...
通过进化算法解决受限的多目标优化问题已引起了相当大的关注。通过使用不同的算法策略,进化运算符和约束处理技术,已经开发了各种受约束的多目标优化进化算法(CMOEAS)。 CMOEA的性能可能很大程度上取决于所使用的操作员,但是,通常很难为当前的问题选择合适的操作员 ...
以决策为中心的学习(DFL)是一个新兴的范式,它整合机器学习(ML)并受到限制优化,以通过端到端系统中的培训ML模型来提高决策质量。这种方法显示了在不确定性下运行的现实世界应用中革命组合决策的巨大潜力,在决策模型中估算未知参数是一个主要挑战。本文对DFL进行了全面的综述,对用于组合ML和限制优化的基于梯度和无梯度的技术进行了深入的分析 ...