在简短的视频和直播混合建议方案的背景下,实时流推荐系统(RS)决定是否最多将一个实时流分配到每个用户请求的视频供稿中。为了最大程度地提高长期用户参与度,至关重要的是确定最佳的实时流策略以进行准确的实时流分配。不适当的实时流分配策略可以显着影响使用应用程序和用户保留的持续时间,这忽略了实时流分配的长期负面影响 ...

0 0 0 0 2025/05/22 arXiv:2412.10381v5 zengyanxiang

现代神经序列生成模型的构建是为了从头开始生成 Token ,或者(迭代)修改了由固定长度界定的 Token 序列。在这项工作中,我们开发了Levenshtein Transformer,这是一种新的部分自动回归模型,该模型设计为更灵活,更适合的序列生成。与以前的方法不同,我们模型的原子操作是插入和删除 ...

0 0 0 0 2025/05/20 arXiv:1905.11006v2 zengyanxiang

我们考虑学习控制政策的问题,该政策优化了奖励功能,同时由于对安全性,公平性或其他成本的考虑而满足了约束。我们提出了一种新的算法,基于投影的约束策略优化(PCPO)。这是一种在两步过程中优化策略的迭代方法:第一步执行局部奖励改进更新,而第二步则通过将策略返回到约束集中来调和任何约束违规行为 ...

0 0 0 0 2025/05/20 arXiv:2010.03152v1 zengyanxiang

与许多在奖励函数的传统控制方法相比,加强学习(RL)已被广泛应用于许多控制任务,并显着改善了性能。但是,对于许多现实世界中的问题,同时根据奖励和约束来提出优化问题通常更方便。通过奖励成型来优化这种受限的问题可能很困难,因为它需要用几个相互作用的术语对奖励功能进行乏味的手动调整 ...

0 0 0 0 2025/05/20 arXiv:2403.14508v1 zengyanxiang

深度离线增强学习(RL)的最新进展使得从离线数据集训练强大的机器人代理成为可能。但是,根据受过训练的代理的质量和所考虑的应用程序,通常希望通过进一步的在线互动微调这样的代理。在本文中,我们观察到,在微调过程中,州行动分配变化可能会导致严重的自举误差,这破坏了通过离线RL获得的良好初始政策 ...

0 0 0 0 2025/05/19 arXiv:2107.00591v2 zengyanxiang

如今,大型语言模型(LLM)很容易访问,因此安全性和乐于助人之间的权衡会极大地影响用户体验。优先级安全的模型将使用户在优先使用帮助的同时会降低参与和辅助,这可能会造成伤害。可能的危害包括教人们如何制造炸弹,使青年人暴露于不适当的内容以及伤害用户的心理健康状态 ...

0 0 0 0 2025/05/17 arXiv:2404.01295v1 zengyanxiang

我们提出了一种学习连续状态和行动的基于表达能量的政策的方法,这仅在以前的表格域中才是可行的。我们将我们的方法应用于学习最大的熵策略,导致了一种称为软Q学习的新算法,该算法通过Boltzmann分布来表达最佳策略。我们使用最近提出的摊销Stein变异梯度下降来学习一个随机采样网络,该网络近似于该分布中的样本 ...

0 0 0 0 2025/05/06 arXiv:1702.08165v2 zengyanxiang

离线增强学习(RL)对于探索可能是昂贵或不安全的现实应用程序至关重要。但是,离线学习的政策通常是次优的,需要进一步的在线微调。在本文中,我们解决了离线到O及在线微调的根本困境:如果代理人仍然悲观,它可能无法学习更好的政策,而如果直接变得乐观,则表现可能会突然下降 ...

0 0 0 0 2025/05/05 arXiv:2405.20984v1 zengyanxiang

机器学习中的现代范式涉及对各种数据进行预训练,然后进行特定于任务的微调。在强化学习(RL)中,这转化为通过离线RL在多样化的历史数据集中学习,然后使用交互数据快速在线RL微调。大多数RL微调方法都需要在离线数据上继续培训稳定性和性能 ...

0 0 0 0 2025/05/05 arXiv:2412.07762v2 zengyanxiang

为了获得一项近乎最佳的政策,在增强学习(RL)方面的相互作用较少,有前途的方法涉及离线RL的组合,从而通过利用离线数据集和在线RL来提高样本效率,并通过与环境互动来探索信息性过渡。离线到对线(O2O)RL提供了一个范式,可在有限的在线互动中改善受线训练的代理。但是,由于在线体验和离线数据之间发生了重大的分配变化,大多数离线RL算法都会遭受性能下降,并且无法实现O2O适应性的稳定政策改进 ...

0 0 0 0 2025/05/05 arXiv:2309.16973v2 zengyanxiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)