- 名称
- Batch size-invariance for policy optimization
- 描述
如果批量大小的更改很大程度上可以通过其他超参数的更改来补偿,则我们说算法是批量大小不变的。众所周知,随机梯度下降通过学习率在小批量下具有此属性。但是,某些策略优化算法(例如 PPO)不具有此属性,因为它们控制策略更新大小的方式不同 ...
如果批量大小的更改很大程度上可以通过其他超参数的更改来补偿,则我们说算法是批量大小不变的。众所周知,随机梯度下降通过学习率在小批量下具有此属性。但是,某些策略优化算法(例如 PPO)不具有此属性,因为它们控制策略更新大小的方式不同 ...