投资组合管理(PM)是一项基本的金融交易任务,它探索资金到不同股票的最佳周期性重新配置以追求长期利润。强化学习 (RL) 最近显示出其通过与金融市场互动来训练可盈利代理人的潜力。但现有工作多集中于固定股票池,与投资者的实际需求不符 ...

0 0 0 0 2024/11/07 arXiv:2311.10801v4 zengyanxiang

现代大规模推荐系统建立在计算密集型基础设施之上,通常会受到高峰期和非高峰期流量巨大差异的影响。在高峰期,由于计算资源预算有限,对每个请求进行实时计算具有挑战性。带缓存的推荐是这个问题的解决方案,其中用户明智的结果缓存用于在推荐系统无法承担实时计算时提供推荐 ...

0 0 0 0 2024/11/07 arXiv:2404.14961v1 zengyanxiang

信息检索(IR)是各种应用中的关键组成部分。机器学习 (ML) 的最新进展使得 ML 算法能够集成到 IR 中,特别是在排名系统中。虽然有大量关于基于机器学习的排名系统的稳健性的研究,但这些研究在很大程度上忽略了商业电子商务系统,并且未能在现实世界和操纵的查询相关性之间建立联系 ...

0 0 0 0 2024/11/07 arXiv:2403.04257v1 zengyanxiang

概率排序原理 (PRP) 已被视为信息检索 (IR) 系统设计的基本标准。该原则要求 IR 模块返回的结果列表根据潜在的用户兴趣进行排名,以便最大化结果的效用。然而,我们指出,在当代 IR 系统的每个阶段不加区别地应用 PRP 是不合适的 ...

0 0 0 0 2024/11/07 arXiv:2405.04844v1 zengyanxiang

对有关个人用户兴趣的项目进行排名是推荐系统等多个下游任务的核心技术。学习这种个性化排名通常依赖于用户过去点击行为的隐式反馈。然而,收集到的反馈偏向于以前排名靠前的项目,直接从中学习会导致“富者愈富”的现象 ...

0 0 0 0 2024/11/07 arXiv:2401.12553v1 zengyanxiang

强化学习代理倾向于养成仅在特定策略下有效的习惯。在初始探索阶段之后,智能体尝试不同的行动,最终收敛到特定的策略。当这种情况发生时,状态动作轨迹的分布变得更窄,导致代理重复经历相同的转变 ...

0 0 0 0 2024/11/07 arXiv:2306.02419v2 zengyanxiang

最近单智能体强化学习(RL)在物联网(IoT)系统中的成功激发了多智能体强化学习(MARL)的研究,这在大规模物联网中更具挑战性,但更有用。在本文中,我们考虑一个基于投票的 MARL 问题,其中代理投票做出群体决策,目标是最大化全局平均回报。为此,我们基于策略优化问题的线性规划形式制定了MARL问题,并提出了一种分布式原对偶算法来获得最优解 ...

0 0 0 0 2024/10/17 arXiv:1907.01385v3 zengyanxiang

强化学习是在推荐系统中对动态用户兴趣进行建模的有效工具,最近引起了越来越多的研究关注。然而,一个显着的缺点仍然存在:由于其交互性,其数据效率较差。基于强化学习的推荐系统的训练需要昂贵的在线交互来积累足够的轨迹,这对于代理了解用户偏好至关重要 ...

0 0 0 0 2024/09/27 arXiv:2308.11336v1 zengyanxiang

最近,扩散模型已被证明可以生成高质量的合成图像,特别是与引导技术结合使用时,可以在多样性和保真度之间进行权衡。我们探索了文本条件图像合成问题的扩散模型,并比较了两种不同的引导策略:CLIP 引导和无分类器引导。我们发现后者在照片真实感和标题相似性方面受到人类评估者的青睐,并且通常会产生照片真实感样本 ...

0 0 0 0 2024/09/27 arXiv:2112.10741v3 zengyanxiang

尽管近年来有关推荐系统(RS)的研究论文迅速增长,但大多数论文都专注于发明机器学习模型以更好地适应用户行为数据。然而,用户行为数据是观察性的而不是实验性的。这使得数据中广泛存在各种偏差,包括但不限于选择偏差、位置偏差、曝光偏差和流行度偏差 ...

0 0 1 1 2024/09/26 arXiv:2010.03240v2 zengyanxiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)