- 名称
- ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor
- 描述
长期参与度优于立即参与顺序建议,因为它直接影响了产品运营指标,例如日常活跃用户(DAUS)和停留时间。同时,加固学习(RL)被广泛认为是优化连续建议中长期参与的有希望的框架。但是,由于昂贵的在线互动,RL算法在优化长期参与时很难执行国家行动价值估计,探索和特征提取 ...
长期参与度优于立即参与顺序建议,因为它直接影响了产品运营指标,例如日常活跃用户(DAUS)和停留时间。同时,加固学习(RL)被广泛认为是优化连续建议中长期参与的有希望的框架。但是,由于昂贵的在线互动,RL算法在优化长期参与时很难执行国家行动价值估计,探索和特征提取 ...