个性签名 ...
深度神经网络 (DNN) 在多个领域取得了最先进的成果。不幸的是,DNN 因其不可解释性而臭名昭著,因此限制了它们在生物学和医疗保健等假设驱动领域的适用性。此外,在资源限制的情况下,依赖更少的信息丰富的特征来设计测试至关重要,从而在合理的预算内实现高精度性能 ...
原对偶安全强化学习方法通常在策略的原始更新和拉格朗日乘子的对偶更新之间执行迭代。这种训练范式非常容易受到累积成本估计错误的影响,因为该估计是连接原始更新过程和双重更新过程的关键纽带。我们表明,当使用离策略方法时,这个问题会导致成本的显着低估,从而导致无法满足安全约束 ...
为了促进强化学习(RL)在现实世界的安全部署,安全强化学习的研究近年来取得了重大进展。然而,文献中的大多数现有作品仍然关注在线环境,在培训期间可能会发生违反安全预算的风险。此外,在许多现实世界的应用中,需要学习的策略来响应动态确定的安全预算(即 ...
在这项工作中,我们提出了一种可扩展的强化学习方法,用于从大型离线数据集中训练多任务策略,该方法可以利用人类演示和自主收集的数据。我们的方法使用 Transformer 为通过离线时间差异备份训练的 Q 函数提供可扩展的表示。因此,我们将该方法称为 Q-Transformer ...