在线推荐系统中的决策是一项具有挑战性的任务。决策者通常需要在每一步从一组候选者中选择一个上下文项。上下文强盗算法已成功部署到此类应用程序中,以在探索和利用以及最小化在线成本的最先进性能之间进行权衡 ...

0 0 0 0 2024/08/11 arXiv:1802.04162v3 zengyanxiang

价值函数估计是强化学习(即预测)中的一项重要任务 ...

0 1 0 0 2024/08/11 arXiv:1903.05926v4 zengyanxiang

启发式算法(例如模拟退火、Concorde 和 METIS)是寻找组合优化问题解决方案的有效且广泛使用的方法。然而,它们受到从冷启动达到合理解决方案所需的高样本复杂性的限制。在本文中,我们介绍了一种新颖的框架,可以使用强化学习(RL)为启发式算法生成更好的初始解决方案,称为 RLHO ...

0 0 0 0 2024/08/11 arXiv:1906.06639v1 zengyanxiang

生成流网络 (GFlowNet) 是一个概率框架,其中代理学习随机策略和流函数,以与非标准化奖励函数成比例的概率对对象进行采样。 GFlowNet 与强化学习 (RL) 非常相似,由于其顺序决策过程,强化学习通常旨在最大化奖励。最近的工作研究了 GFlowNet 和最大熵 (MaxEnt) RL 之间的联系,它通过学习熵正则化目标来修改 RL 代理的标准目标 ...

0 0 0 0 2024/08/11 arXiv:2406.02213v1 zengyanxiang

个性化推荐系统满足客户的日常需求并促进在线业务。目标是学习一种可以生成符合用户需求或兴趣的项目列表的策略。虽然大多数现有方法学习逐点评分模型来预测每个单独项目的排名分数,但最近的研究表明,列表方法可以通过对一起暴露的项目的列表内相关性进行建模来进一步提高推荐质量 ...

0 0 0 0 2024/08/09 arXiv:2306.02239v4 zengyanxiang

在优化顺序推荐任务中的长期用户参与时,强化学习 (RL) 算法受到越来越多的关注。大规模在线推荐系统面临的挑战之一是用户行为模式的持续而复杂的变化,例如交互率和保留倾向。当将其表述为马尔可夫决策过程(MDP)时,推荐系统的动态和奖励函数会不断受到这些变化的影响 ...

0 0 0 0 2024/08/07 arXiv:2310.03984v1 zengyanxiang

推荐系统 (RS) 可以有效缓解信息过载并匹配各种网络规模应用程序中的用户兴趣。大多数RS会检索用户最喜欢的候选者,然后以贪婪的方式根据评级分数对它们进行排名。然而,从排列的角度来看,当前的RS揭示了以下两个局限性:1)它们忽略了推荐结果中排列变体的影响; 2)排列考虑以指数方式扩展潜在解空间,而当前的RS缺乏评估排列的能力 ...

0 1 0 0 2024/08/07 arXiv:2102.12057v2 zengyanxiang

近年来,短视频平台通过向用户推荐感兴趣的内容,实现了用户的快速增长。该推荐的目的是优化用户保留,从而推动(每日活跃用户)交互后的长期反馈,很难将留存奖励分解到每个项目或项目列表... ...

0 0 0 0 2025/02/11 arXiv:2302.01724v3 zengyanxiang

在推荐系统(rs)应用领域,强化学习(RL)最近已成为一种强大的工具,主要是因为它能够熟练地优化长期奖励。然而,由于引导、离策略训练和函数逼近之间复杂的相互,由于引导、离策略训练和函数逼近之间复杂的相互作用,它在学习过程中存在不稳定的问题。此外,在多奖励推荐场景中,设计适当的奖励设置来协调各种任务的内部动态是相当复杂的... ...

0 0 0 0 2025/01/30 arXiv:2404.03637v2 zengyanxiang

重排名作为多阶段推荐系统(MRS)的最后阶段,通过重新排列输入排名列表直接影响用户体验和满意度,从而在MRS中发挥着至关重要的作用。随着深度学习的进步,神经重排序已成为一个热门话题,并在工业应用中得到广泛应用。本次综述旨在将重新排序算法整合到更广阔的视野中,并为未来研究更全面的解决方案铺平道路 ...

0 0 0 0 2024/07/03 arXiv:2202.06602v2 zengyanxiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)