在线推荐和广告是在线推荐平台的两个主要收入渠道(例如电子商务和新闻提要网站) ...

0 0 0 0 2025/02/04 arXiv:2003.00097v2 zengyanxiang

长期参与度优于立即参与顺序建议,因为它直接影响了产品运营指标,例如日常活跃用户(DAUS)和停留时间。同时,加固学习(RL)被广泛认为是优化连续建议中长期参与的有希望的框架。但是,由于昂贵的在线互动,RL算法在优化长期参与时很难执行国家行动价值估计,探索和特征提取 ...

0 0 0 0 2025/01/30 arXiv:2206.02620v2 zengyanxiang

我们研究目标不当,这是强化学习(RL)中分布外的概括失败。当RL代理保留其功能范围内但追求错误的目标时,就会发生目标失败失败。例如,代理商可能会继续有能力避免障碍,但要导航到错误的地方 ...

0 0 0 0 2025/01/29 arXiv:2105.14111v7 zengyanxiang

在预测任务中,准确性和及时性确实经常是相互冲突的目标。过早的预测可能会产生更高的误报率,而延迟预测以收集更多信息可能会导致预测为时已晚而无法发挥作用。在野火、犯罪和交通拥堵等应用中,及时预测对于保护人类生命和财产至关重要 ...

0 0 0 0 2025/01/27 arXiv:2406.04035v3 zengyanxiang

在城市环境中加强人类决策过程是各种应用程序的关键问题,包括乘车共享车辆派遣,公共交通管理和自动驾驶。离线增强学习(RL)是一种从预先收集的人类生成的时空城市数据中学习和优化人类城市策略(或政策)的有前途的方法。但是,标准离线RL面临两个重大挑战:(1)数据稀缺性和数据异质性,以及(2)分配变化 ...

0 0 0 0 2025/01/26 arXiv:2406.14054v1 zengyanxiang

在离线模仿学习(IL)中,主要挑战之一是专家观察与智能体遇到的实际分布之间的\textit{协变量偏移},因为很难确定智能体在状态之外应该采取什么行动专家演示的分发。最近,无模型解决方案引入了补充数据并识别潜在的专家相似样本,以在学习过程中增加可靠样本。基于模型的解决方案通过保守量化构建前向动态模型,然后在专家演示附近生成额外的轨迹 ...

0 0 0 0 2025/01/26 arXiv:2406.12550v1 zengyanxiang

营销优化对于提高在线互联网平台的用户参与度起着重要作用。现有的研究通常将该问题表述为预算分配问题,并利用两个完全解耦的阶段来解决它,即 ...

0 0 0 0 2025/01/10 arXiv:2407.13664v1 zengyanxiang

推荐系统(RS)已成为大多数网络规模应用程序中的关键模块。最近,大多数推荐系统都是基于云到边缘框架的瀑布形式,将推荐结果传输到边缘(例如,推荐结果) ...

0 0 0 0 2025/01/08 arXiv:2005.08416v4 zengyanxiang

基于强化学习 (RL) 的推荐系统 (RS) 因其增强长期用户参与度的潜力而受到越来越多的关注。然而,该领域的研究面临着挑战,包括缺乏用户友好的框架、评估指标不一致以及重现现有研究的困难。为了解决这些问题,我们引入了 EasyRL4Rec,这是一个专门为基于 RL 的 RS 设计的易于使用的代码库 ...

0 0 0 0 2024/11/28 arXiv:2402.15164v3 zengyanxiang

自动拍卖设计旨在通过机器学习找到经验上的高收入机制。现有的多项目拍卖场景工作可以大致分为类 RegretNet 和仿射最大化拍卖(AMA)方法。然而,前者不能严格保证占优策略激励兼容性(DSIC),而后者则因分配候选数量过多而面临可扩展性问题 ...

0 0 0 0 2024/11/19 arXiv:2305.12162v3 zengyanxiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)