在加强学习(RL)中,设计精确的奖励功能仍然是一个挑战,尤其是在与人类意图保持一致时。引入了基于偏好的RL(PBRL),以通过从人类反馈中学习奖励模型来解决这个问题。但是,现有的PBRL方法具有局限性,因为它们经常忽略表明偏好相对强度的二阶偏好 ...
离线强化学习(RL)旨在使用预先收集的数据集找到接近最优的策略。在现实场景中,数据收集可能成本高昂且存在风险;因此,当域内数据有限时,离线强化学习变得特别具有挑战性。鉴于大型语言模型 (LLM) 的最新进展及其小样本学习能力,本文介绍了用于 $\textbf{Mo}$tion 控制的 $\textbf{La}$nguage 模型 ($\textbf{LaMo}$),基于决策转换器的通用框架,可有效使用预训练语言模型 (LM) 进行离线强化学习 ...
在电子商务广告中,至关重要的是共同考虑各种性能指标,例如用户体验,广告商实用程序和平台收入 ...
随着深度学习的广泛采用,加强学习(RL)的流行度急剧增加,扩展到以前棘手的问题,例如从像素观察中玩复杂的游戏,与人类的对话以及控制机器人的对话。但是,由于与环境相互作用的高成本和危险,RL仍然存在广泛的域。离线RL是一种范式,它仅从先前收集的交互的静态数据集中学习,这使得从大型多样的培训数据集中提取策略是可行的 ...
离线增强学习(RL)旨在从一批收集的数据中学习一项良好的政策,而在培训期间与环境没有额外的互动。但是,当前的离线RL基准通常具有较大的现实差距,因为它们涉及由高度探索性政策收集的大型数据集,并且在环境中直接评估了训练有素的政策。在现实情况下,禁止运行高度探索性政策以确保系统安全,数据通常非常有限,并且在部署前应对经过培训的政策进行良好的验证 ...
在简短的视频和直播混合建议方案的背景下,实时流推荐系统(RS)决定是否最多将一个实时流分配到每个用户请求的视频供稿中。为了最大程度地提高长期用户参与度,至关重要的是确定最佳的实时流策略以进行准确的实时流分配。不适当的实时流分配策略可以显着影响使用应用程序和用户保留的持续时间,这忽略了实时流分配的长期负面影响 ...
现代神经序列生成模型的构建是为了从头开始生成 Token ,或者(迭代)修改了由固定长度界定的 Token 序列。在这项工作中,我们开发了Levenshtein Transformer,这是一种新的部分自动回归模型,该模型设计为更灵活,更适合的序列生成。与以前的方法不同,我们模型的原子操作是插入和删除 ...
我们考虑学习控制政策的问题,该政策优化了奖励功能,同时由于对安全性,公平性或其他成本的考虑而满足了约束。我们提出了一种新的算法,基于投影的约束策略优化(PCPO)。这是一种在两步过程中优化策略的迭代方法:第一步执行局部奖励改进更新,而第二步则通过将策略返回到约束集中来调和任何约束违规行为 ...
与许多在奖励函数的传统控制方法相比,加强学习(RL)已被广泛应用于许多控制任务,并显着改善了性能。但是,对于许多现实世界中的问题,同时根据奖励和约束来提出优化问题通常更方便。通过奖励成型来优化这种受限的问题可能很困难,因为它需要用几个相互作用的术语对奖励功能进行乏味的手动调整 ...
深度离线增强学习(RL)的最新进展使得从离线数据集训练强大的机器人代理成为可能。但是,根据受过训练的代理的质量和所考虑的应用程序,通常希望通过进一步的在线互动微调这样的代理。在本文中,我们观察到,在微调过程中,州行动分配变化可能会导致严重的自举误差,这破坏了通过离线RL获得的良好初始政策 ...