最近的理论工作研究在两个环境中进行了广泛的样本增强学习(RL):在环境中进行交互性学习,或从离线数据集(离线RL)中学习。但是,在这两种设置中学习近乎最佳政策的现有算法和理论是相当不同且脱节的。为了弥合这一差距,本文启动了政策填充的理论研究,即在线RL,其中学习者可以在某个特定的一定的特定策略$ \ pi_ \ star $附近访问“参考策略” $ \ mu $感觉 ...
随着强化学习(RL)的最新流行率,在推荐平台(例如电子商务和新闻源网站)中利用RL进行ADS分配有很大的兴趣 ...
在线推荐和广告是在线推荐平台的两个主要收入渠道(例如电子商务和新闻提要网站) ...
长期参与度优于立即参与顺序建议,因为它直接影响了产品运营指标,例如日常活跃用户(DAUS)和停留时间。同时,加固学习(RL)被广泛认为是优化连续建议中长期参与的有希望的框架。但是,由于昂贵的在线互动,RL算法在优化长期参与时很难执行国家行动价值估计,探索和特征提取 ...
我们研究目标不当,这是强化学习(RL)中分布外的概括失败。当RL代理保留其功能范围内但追求错误的目标时,就会发生目标失败失败。例如,代理商可能会继续有能力避免障碍,但要导航到错误的地方 ...
在预测任务中,准确性和及时性确实经常是相互冲突的目标。过早的预测可能会产生更高的误报率,而延迟预测以收集更多信息可能会导致预测为时已晚而无法发挥作用。在野火、犯罪和交通拥堵等应用中,及时预测对于保护人类生命和财产至关重要 ...
在城市环境中加强人类决策过程是各种应用程序的关键问题,包括乘车共享车辆派遣,公共交通管理和自动驾驶。离线增强学习(RL)是一种从预先收集的人类生成的时空城市数据中学习和优化人类城市策略(或政策)的有前途的方法。但是,标准离线RL面临两个重大挑战:(1)数据稀缺性和数据异质性,以及(2)分配变化 ...
在离线模仿学习(IL)中,主要挑战之一是专家观察与智能体遇到的实际分布之间的\textit{协变量偏移},因为很难确定智能体在状态之外应该采取什么行动专家演示的分发。最近,无模型解决方案引入了补充数据并识别潜在的专家相似样本,以在学习过程中增加可靠样本。基于模型的解决方案通过保守量化构建前向动态模型,然后在专家演示附近生成额外的轨迹 ...
营销优化对于提高在线互联网平台的用户参与度起着重要作用。现有的研究通常将该问题表述为预算分配问题,并利用两个完全解耦的阶段来解决它,即 ...
推荐系统(RS)已成为大多数网络规模应用程序中的关键模块。最近,大多数推荐系统都是基于云到边缘框架的瀑布形式,将推荐结果传输到边缘(例如,推荐结果) ...