基于强化学习 (RL) 的推荐系统 (RS) 因其增强长期用户参与度的潜力而受到越来越多的关注。然而,该领域的研究面临着挑战,包括缺乏用户友好的框架、评估指标不一致以及重现现有研究的困难。为了解决这些问题,我们引入了 EasyRL4Rec,这是一个专门为基于 RL 的 RS 设计的易于使用的代码库 ...
自动拍卖设计旨在通过机器学习找到经验上的高收入机制。现有的多项目拍卖场景工作可以大致分为类 RegretNet 和仿射最大化拍卖(AMA)方法。然而,前者不能严格保证占优策略激励兼容性(DSIC),而后者则因分配候选数量过多而面临可扩展性问题 ...
选择城市区域进行地铁网络扩展以满足最大的交通需求对于城市发展至关重要,但解决起来在计算上具有挑战性。扩张过程不仅依赖于城市人口统计和始发地(OD)流量等复杂特征,而且还受到现有地铁网络和城市地理的限制。在本文中,我们介绍了一种强化学习框架来解决城市异构多图中的马尔可夫决策过程 ...
有效的离线强化学习方法需要正确处理分布外行为。隐式 Q 学习 (IQL) 通过修改后的 Bellman 备份仅使用数据集操作来训练 Q 函数来解决此问题。然而,尚不清楚哪个策略实际上获得了这个隐式训练的 Q 函数所代表的值 ...
离线强化学习(RL)有望成为从静态数据集中学习高回报策略的一种手段,而无需进一步的环境交互。然而,离线强化学习的一个关键挑战在于如何有效地从静态数据集中缝合部分次优轨迹,同时避免由于缺乏数据集的支持而产生外推错误。现有的方法使用保守的方法,这些方法很难调整并处理多模态数据(如我们所示),或者依赖嘈杂的蒙特卡罗返回样本进行奖励调节 ...
条件生成建模的最新改进使得仅从语言描述生成高质量图像成为可能。我们研究这些方法是否可以直接解决顺序决策问题。我们不是通过强化学习 (RL) 的视角来看待决策,而是通过条件生成模型来看待决策 ...
离线强化学习(RL)允许代理从静态数据集中学习有效的、回报最大化的策略。离线强化学习的三种流行算法是保守 Q 学习 (CQL)、行为克隆 (BC) 和决策变换器 (DT),分别属于 Q 学习、模仿学习和序列建模类别。一个关键的悬而未决的问题是:在什么条件下首选哪种算法?我们通过探索这些算法在常用的 D4RL 和 Robomimic 基准测试中的性能来实证研究这个问题 ...
电子商务平台通常会在 Feed 中显示广告和有机项目的混合列表。一个关键问题是如何分配 feed 中有限的时段,以最大化整体收入并改善用户体验,这需要一个良好的用户偏好模型。排列信号不是对单个项目对用户行为的影响进行建模,而是对项目排列的影响进行建模,并可能导致更好的分配策略 ...
离线强化学习的最新发展揭示了扩散建模的巨大潜力,它擅长表示异构行为策略。然而,扩散策略的采样速度相当慢,因为一项操作需要数十到数百个迭代推理步骤。为了解决这个问题,我们建议从批评模型和预训练的扩散行为模型中提取有效的确定性推理策略,利用后者在优化过程中直接用行为分布的得分函数正则化策略梯度 ...
现代深度强化学习 (RL) 算法需要估计最大 Q 值,这在具有无限数量可能动作的连续域中很难计算。在这项工作中,我们从经济学中汲取灵感,引入了一种新的在线和离线强化学习更新规则,该规则使用极值理论(EVT)直接对最大值进行建模。通过这样做,我们可以避免使用分布外操作来计算 Q 值,这通常是错误的重要来源 ...