通过强化学习(RL)提高用户保留率由于其在提高用户参与度方面的重要性而引起了越来越多的关注。然而,由于需要试错搜索,在不损害用户体验的情况下从头开始训练强化学习策略是不可避免的。此外,旨在在没有在线交互的情况下优化政策的离线方法,面临着臭名昭著的价值估计稳定性问题或反事实政策评估中的无界方差问题 ...

1 0 0 0 2024/10/11 arXiv:2303.06347v1 hdp-ads-algo

离线强化学习 (RL) 的最新进展强调了条件序列建模 (CSM) 的功能,这是一种基于历史轨迹和每个状态的目标回报来学习动作分布的范例。然而,由于单个轨迹内的采样回报与多个轨迹之间的最佳回报之间的不一致,这些方法常常难以将次优轨迹拼接在一起。幸运的是,动态规划(DP)方法提供了一种解决方案,利用价值函数来近似每个状态的最佳未来回报,而这些技术很容易出现不稳定的学习行为,特别是在长视野和稀疏奖励的场景中 ...

1 0 0 0 2024/10/02 arXiv:2405.17098v1 hdp-ads-algo

最近的研究表明,使用条件策略来处理离线强化学习(RL)会产生有希望的结果。决策转换器 (DT) 结合了条件策略方法和转换器架构,在多个基准测试中显示出具有竞争力的性能。然而,DT 缺乏拼接能力——这是离线 RL 从次优轨迹中学习最优策略的关键能力之一 ...

0 0 0 0 2024/10/02 arXiv:2209.03993v4 hdp-ads-algo

分布校正估计 (DICE) 方法的一个重要特性是,解是优化策略和数据收集策略之间的最优平稳分布比。在这项工作中,我们证明基于 DICE 的方法可以被视为从行为分布到最优策略分布的转变。基于此,我们提出了一种新方法,Diffusion-DICE,它使用扩散模型直接执行这种转换 ...

0 0 0 0 2024/09/27 arXiv:2407.20109v1 hdp-ads-algo

顺序推荐(SRS)最近已成为许多应用程序的技术基础,其目的是根据用户的历史交互推荐下一个项目。然而,顺序推荐经常面临推荐系统中广泛存在的数据稀疏问题。此外,大多数用户只与少数项目进行交互,但现有的 SRS 模型通常表现不佳 ...

0 0 0 0 2024/09/27 arXiv:2309.12858v1 hdp-ads-algo

自动出价通过自动为广告商提供出价,在促进在线广告方面发挥着至关重要的作用。强化学习 (RL) 在自动出价方面越来越受欢迎。然而,当前大多数强化学习自动投标方法都是通过马尔可夫决策过程(MDP)建模的,该过程假设马尔可夫状态转换 ...

0 0 0 0 2024/09/26 arXiv:2405.16141v3 hdp-ads-algo

强化学习的许多实际应用限制智能体从已经收集的固定批次数据中学习,而不提供进一步的数据收集可能性。在本文中,我们证明,由于外推法引入的错误,标准的离策略深度强化学习算法(例如 DQN 和 DDPG)无法学习与当前策略下的分布不相关的数据,从而使得它们对于这种固定的情况无效。批量设置。我们引入了一类新颖的离策略算法,即批量约束强化学习,它限制动作空间,以迫使代理对于给定数据的子集表现出接近策略的行为 ...

0 0 0 0 2024/09/18 arXiv:1812.02900v3 hdp-ads-algo

近年来,自动竞价技术已成为广告商增加收入的重要工具。面对现实广告系统(RAS)中复杂且不断变化的竞价环境,最先进的自动竞价策略通常利用强化学习(RL)算法代表广告商生成实时竞价。出于安全考虑,人们认为强化学习训练过程只能在基于 RAS 生成的历史数据构建的离线虚拟广告系统(VAS)中进行 ...

0 0 0 0 2024/08/29 arXiv:2210.07006v1 hdp-ads-algo

实时竞价(RTB)已成为广告的主要范例。用户访问产生的每次广告展示都会被实时拍卖,其中需求方平台(DSP)通常依赖于广告展示价值提示和最佳投标价格确定来自动提供投标展示价格。然而,当前的出价策略引起了用户行为的巨大随机性(例如,... ...

0 0 0 0 2024/10/03 arXiv:2212.12533v1 hdp-ads-algo

在在线广告中,自动出价已成为广告商通过简单表达高级广告活动目标和约束来优化其首选广告效果指标的重要工具。以往的工作是从单一代理的角度设计自动竞价工具,而没有对代理之间的相互影响进行建模。在本文中,我们从分布式多智能体的角度考虑这个问题,并提出了一个通用的$\underline{M}$ulti-$\underline{A}$gent强化学习框架$\underline{A}$uto -$\underline{B}$idding,即MAAB,学习自动出价策略 ...

0 0 0 0 2024/08/09 arXiv:2106.06224v2 hdp-ads-algo

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)