在在线广告中,一旦部署了广告活动,自动竞价系统就会根据广告转化次数动态调整竞价策略,以优化每次操作成本(CPA)。对于转化延迟较长的广告,仅依靠实时跟踪的转化数作为出价策略的信号可能会显着高估当前的每次转化费用,从而导致出价策略保守。因此,预测长延迟转化的数量至关重要 ...
本文描述了一种新的基于获胜率的投标遮蔽算法 (WR),该算法不依赖于卖方平台 (SSP) 的最小投标获胜反馈。该方法使用改进的逻辑回归来预测每个可能的阴影投标价格的利润。该函数形式允许在运行时快速最大化,这是实时出价 (RTB) 系统的关键要求 ...
离线策略评估(OPE)被认为是强化学习(RL)中的一个基本且具有挑战性的问题。本文重点研究在无限视野马尔可夫决策过程的框架下,基于可能不同的策略生成的预先收集的数据对目标策略进行价值估计。受最近开发的强化学习中的边际重要性采样方法和因果推理中的协变量平衡思想的启发,我们提出了一种新颖的估计器,具有近似投影的状态-动作平衡权重,用于策略价值估计 ...
人类可以利用先前的经验并从一些演示中学习新的任务。与旨在通过更好的算法设计实现快速适应的离线元强化学习相反,我们研究了架构归纳偏差对小样本学习能力的影响。我们提出了一种基于 Prompt 的决策转换器(Prompt-DT),它利用 Transformer 架构和提示框架的顺序建模能力来实现离线 RL 中的小样本自适应 ...
快速调整已成为一种有前途的方法,可以使预先训练的模型适应下游任务或符合人类偏好。提示学习广泛应用于 NLP 中,但由于 RL 提示中包含复杂的物理意义和特定于环境的信息,因此对 RL 的适用性有限。这些因素需要监督学习来模仿演示,并可能导致学习后失去意义 ...
人工智能领域的一个长期目标是找到一种从不同经验中学习能力强、通才的智能体的方法。在视觉和语言的子领域,这主要是通过扩展基于 Transformer 的模型并在大型、多样化的数据集上训练它们来实现的。受这一进展的激励,我们研究是否可以使用相同的策略来生成通用强化学习代理 ...
大多数离线强化学习 (RL) 方法在使用分布外 (OOD) 计算 $Q$ 值时,都面临着改进策略以超越行为策略和约束策略以限制与行为策略的偏差之间的权衡。 ) 操作会因分布变化而出现错误。最近提出的 \textit{样本内学习} 范式(即 ...
基于模型的强化学习方法通常仅将学习用于估计近似动态模型,将其余决策工作卸载给经典轨迹优化器。虽然概念上很简单,但这种组合存在许多经验缺陷,表明学习模型可能不太适合标准轨迹优化。在本文中,我们考虑将尽可能多的轨迹优化管道折叠到建模问题中会是什么样子,这样从模型中采样并用它进行规划变得几乎相同 ...
通过强化学习(RL)提高用户保留率由于其在提高用户参与度方面的重要性而引起了越来越多的关注。然而,由于需要试错搜索,在不损害用户体验的情况下从头开始训练强化学习策略是不可避免的。此外,旨在在没有在线交互的情况下优化政策的离线方法,面临着臭名昭著的价值估计稳定性问题或反事实政策评估中的无界方差问题 ...
离线强化学习 (RL) 的最新进展强调了条件序列建模 (CSM) 的功能,这是一种基于历史轨迹和每个状态的目标回报来学习动作分布的范例。然而,由于单个轨迹内的采样回报与多个轨迹之间的最佳回报之间的不一致,这些方法常常难以将次优轨迹拼接在一起。幸运的是,动态规划(DP)方法提供了一种解决方案,利用价值函数来近似每个状态的最佳未来回报,而这些技术很容易出现不稳定的学习行为,特别是在长视野和稀疏奖励的场景中 ...