最近的研究表明,使用条件策略来处理离线强化学习(RL)会产生有希望的结果。决策转换器 (DT) 结合了条件策略方法和转换器架构,在多个基准测试中显示出具有竞争力的性能。然而,DT 缺乏拼接能力——这是离线 RL 从次优轨迹中学习最优策略的关键能力之一 ...
分布校正估计 (DICE) 方法的一个重要特性是,解是优化策略和数据收集策略之间的最优平稳分布比。在这项工作中,我们证明基于 DICE 的方法可以被视为从行为分布到最优策略分布的转变。基于此,我们提出了一种新方法,Diffusion-DICE,它使用扩散模型直接执行这种转换 ...
顺序推荐(SRS)最近已成为许多应用程序的技术基础,其目的是根据用户的历史交互推荐下一个项目。然而,顺序推荐经常面临推荐系统中广泛存在的数据稀疏问题。此外,大多数用户只与少数项目进行交互,但现有的 SRS 模型通常表现不佳 ...
自动出价通过自动为广告商提供出价,在促进在线广告方面发挥着至关重要的作用。强化学习 (RL) 在自动出价方面越来越受欢迎。然而,当前大多数强化学习自动投标方法都是通过马尔可夫决策过程(MDP)建模的,该过程假设马尔可夫状态转换 ...
强化学习的许多实际应用限制智能体从已经收集的固定批次数据中学习,而不提供进一步的数据收集可能性。在本文中,我们证明,由于外推法引入的错误,标准的离策略深度强化学习算法(例如 DQN 和 DDPG)无法学习与当前策略下的分布不相关的数据,从而使得它们对于这种固定的情况无效。批量设置。我们引入了一类新颖的离策略算法,即批量约束强化学习,它限制动作空间,以迫使代理对于给定数据的子集表现出接近策略的行为 ...
近年来,自动竞价技术已成为广告商增加收入的重要工具。面对现实广告系统(RAS)中复杂且不断变化的竞价环境,最先进的自动竞价策略通常利用强化学习(RL)算法代表广告商生成实时竞价。出于安全考虑,人们认为强化学习训练过程只能在基于 RAS 生成的历史数据构建的离线虚拟广告系统(VAS)中进行 ...
实时竞价(RTB)已成为广告的主要范例。用户访问产生的每次广告展示都会被实时拍卖,其中需求方平台(DSP)通常依赖于广告展示价值提示和最佳投标价格确定来自动提供投标展示价格。然而,当前的出价策略引起了用户行为的巨大随机性(例如,... ...
在在线广告中,自动出价已成为广告商通过简单表达高级广告活动目标和约束来优化其首选广告效果指标的重要工具。以往的工作是从单一代理的角度设计自动竞价工具,而没有对代理之间的相互影响进行建模。在本文中,我们从分布式多智能体的角度考虑这个问题,并提出了一个通用的$\underline{M}$ulti-$\underline{A}$gent强化学习框架$\underline{A}$uto -$\underline{B}$idding,即MAAB,学习自动出价策略 ...
大多数在线展示广告都是通过实时竞价(RTB)提供的——每次广告展示展示在用户访问刚刚产生时都会被实时拍卖。为了自动、最佳地投放广告,广告商必须设计一种学习算法来巧妙地实时对广告展示进行出价。大多数先前的工作将出价决策视为一个静态优化问题,要么独立处理每个展示的价值,要么为广告量的每个部分设置出价 ...
保证展示(GD)广告是广告的重要组成部分,因为它为发布商提供稳定的收入,并使广告商能够以有保证的展示次数定位特定受众。然而,由于巨大的预算差异、用户到达分布漂移以及供需之间的动态变化,在线广告投放的平稳节奏控制提出了挑战。本文提出了鲁棒的风险约束节奏(RCPacing),它利用拉格朗日双乘子通过印象性能分布的百分位空间内的单调映射函数来微调概率节流 ...