随着深度学习的广泛采用,加强学习(RL)的流行度急剧增加,扩展到以前棘手的问题,例如从像素观察中玩复杂的游戏,与人类的对话以及控制机器人的对话。但是,由于与环境相互作用的高成本和危险,RL仍然存在广泛的域。离线RL是一种范式,它仅从先前收集的交互的静态数据集中学习,这使得从大型多样的培训数据集中提取策略是可行的 ...

0 0 0 0 2025/06/05 arXiv:2203.01387v3 zengyanxiang

离线增强学习(RL)旨在从一批收集的数据中学习一项良好的政策,而在培训期间与环境没有额外的互动。但是,当前的离线RL基准通常具有较大的现实差距,因为它们涉及由高度探索性政策收集的大型数据集,并且在环境中直接评估了训练有素的政策。在现实情况下,禁止运行高度探索性政策以确保系统安全,数据通常非常有限,并且在部署前应对经过培训的政策进行良好的验证 ...

0 0 0 0 2025/05/30 arXiv:2102.00714v2 zengyanxiang

在简短的视频和直播混合建议方案的背景下,实时流推荐系统(RS)决定是否最多将一个实时流分配到每个用户请求的视频供稿中。为了最大程度地提高长期用户参与度,至关重要的是确定最佳的实时流策略以进行准确的实时流分配。不适当的实时流分配策略可以显着影响使用应用程序和用户保留的持续时间,这忽略了实时流分配的长期负面影响 ...

0 0 0 0 2025/05/22 arXiv:2412.10381v5 zengyanxiang

现代神经序列生成模型的构建是为了从头开始生成 Token ,或者(迭代)修改了由固定长度界定的 Token 序列。在这项工作中,我们开发了Levenshtein Transformer,这是一种新的部分自动回归模型,该模型设计为更灵活,更适合的序列生成。与以前的方法不同,我们模型的原子操作是插入和删除 ...

0 0 0 0 2025/05/20 arXiv:1905.11006v2 zengyanxiang

我们考虑学习控制政策的问题,该政策优化了奖励功能,同时由于对安全性,公平性或其他成本的考虑而满足了约束。我们提出了一种新的算法,基于投影的约束策略优化(PCPO)。这是一种在两步过程中优化策略的迭代方法:第一步执行局部奖励改进更新,而第二步则通过将策略返回到约束集中来调和任何约束违规行为 ...

0 0 0 0 2025/05/20 arXiv:2010.03152v1 zengyanxiang

与许多在奖励函数的传统控制方法相比,加强学习(RL)已被广泛应用于许多控制任务,并显着改善了性能。但是,对于许多现实世界中的问题,同时根据奖励和约束来提出优化问题通常更方便。通过奖励成型来优化这种受限的问题可能很困难,因为它需要用几个相互作用的术语对奖励功能进行乏味的手动调整 ...

0 0 0 0 2025/05/20 arXiv:2403.14508v1 zengyanxiang

深度离线增强学习(RL)的最新进展使得从离线数据集训练强大的机器人代理成为可能。但是,根据受过训练的代理的质量和所考虑的应用程序,通常希望通过进一步的在线互动微调这样的代理。在本文中,我们观察到,在微调过程中,州行动分配变化可能会导致严重的自举误差,这破坏了通过离线RL获得的良好初始政策 ...

0 0 0 0 2025/05/19 arXiv:2107.00591v2 zengyanxiang

如今,大型语言模型(LLM)很容易访问,因此安全性和乐于助人之间的权衡会极大地影响用户体验。优先级安全的模型将使用户在优先使用帮助的同时会降低参与和辅助,这可能会造成伤害。可能的危害包括教人们如何制造炸弹,使青年人暴露于不适当的内容以及伤害用户的心理健康状态 ...

0 0 0 0 2025/05/17 arXiv:2404.01295v1 zengyanxiang

我们提出了一种学习连续状态和行动的基于表达能量的政策的方法,这仅在以前的表格域中才是可行的。我们将我们的方法应用于学习最大的熵策略,导致了一种称为软Q学习的新算法,该算法通过Boltzmann分布来表达最佳策略。我们使用最近提出的摊销Stein变异梯度下降来学习一个随机采样网络,该网络近似于该分布中的样本 ...

0 0 0 0 2025/05/06 arXiv:1702.08165v2 zengyanxiang

离线增强学习(RL)对于探索可能是昂贵或不安全的现实应用程序至关重要。但是,离线学习的政策通常是次优的,需要进一步的在线微调。在本文中,我们解决了离线到O及在线微调的根本困境:如果代理人仍然悲观,它可能无法学习更好的政策,而如果直接变得乐观,则表现可能会突然下降 ...

0 0 0 0 2025/05/05 arXiv:2405.20984v1 zengyanxiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)