在离线模仿学习(IL)中,主要挑战之一是专家观察与智能体遇到的实际分布之间的\textit{协变量偏移},因为很难确定智能体在状态之外应该采取什么行动专家演示的分发。最近,无模型解决方案引入了补充数据并识别潜在的专家相似样本,以在学习过程中增加可靠样本。基于模型的解决方案通过保守量化构建前向动态模型,然后在专家演示附近生成额外的轨迹 ...
营销优化对于提高在线互联网平台的用户参与度起着重要作用。现有的研究通常将该问题表述为预算分配问题,并利用两个完全解耦的阶段来解决它,即 ...
推荐系统(RS)已成为大多数网络规模应用程序中的关键模块。最近,大多数推荐系统都是基于云到边缘框架的瀑布形式,将推荐结果传输到边缘(例如,推荐结果) ...
基于强化学习 (RL) 的推荐系统 (RS) 因其增强长期用户参与度的潜力而受到越来越多的关注。然而,该领域的研究面临着挑战,包括缺乏用户友好的框架、评估指标不一致以及重现现有研究的困难。为了解决这些问题,我们引入了 EasyRL4Rec,这是一个专门为基于 RL 的 RS 设计的易于使用的代码库 ...
自动拍卖设计旨在通过机器学习找到经验上的高收入机制。现有的多项目拍卖场景工作可以大致分为类 RegretNet 和仿射最大化拍卖(AMA)方法。然而,前者不能严格保证占优策略激励兼容性(DSIC),而后者则因分配候选数量过多而面临可扩展性问题 ...
选择城市区域进行地铁网络扩展以满足最大的交通需求对于城市发展至关重要,但解决起来在计算上具有挑战性。扩张过程不仅依赖于城市人口统计和始发地(OD)流量等复杂特征,而且还受到现有地铁网络和城市地理的限制。在本文中,我们介绍了一种强化学习框架来解决城市异构多图中的马尔可夫决策过程 ...
有效的离线强化学习方法需要正确处理分布外行为。隐式 Q 学习 (IQL) 通过修改后的 Bellman 备份仅使用数据集操作来训练 Q 函数来解决此问题。然而,尚不清楚哪个策略实际上获得了这个隐式训练的 Q 函数所代表的值 ...
离线强化学习(RL)有望成为从静态数据集中学习高回报策略的一种手段,而无需进一步的环境交互。然而,离线强化学习的一个关键挑战在于如何有效地从静态数据集中缝合部分次优轨迹,同时避免由于缺乏数据集的支持而产生外推错误。现有的方法使用保守的方法,这些方法很难调整并处理多模态数据(如我们所示),或者依赖嘈杂的蒙特卡罗返回样本进行奖励调节 ...
条件生成建模的最新改进使得仅从语言描述生成高质量图像成为可能。我们研究这些方法是否可以直接解决顺序决策问题。我们不是通过强化学习 (RL) 的视角来看待决策,而是通过条件生成模型来看待决策 ...
离线强化学习(RL)允许代理从静态数据集中学习有效的、回报最大化的策略。离线强化学习的三种流行算法是保守 Q 学习 (CQL)、行为克隆 (BC) 和决策变换器 (DT),分别属于 Q 学习、模仿学习和序列建模类别。一个关键的悬而未决的问题是:在什么条件下首选哪种算法?我们通过探索这些算法在常用的 D4RL 和 Robomimic 基准测试中的性能来实证研究这个问题 ...