现代统计学的核心问题之一是近似难以计算的概率密度。这个问题在贝叶斯统计中尤其重要,贝叶斯统计将所有关于未知量的推断框架为涉及后验密度的计算。在本文中,我们回顾了变分推理(VI),这是一种通过优化来近似概率密度的机器学习方法 ...

0 1 0 0 2024/09/21 arXiv:1601.00670v9 zengyanxiang

本文假设仅了解高斯分布,给出了扩散模型的微分方程和似然公式的直接推导。 VAE 分析可导出前向和后向随机微分方程 (SDE) 以及似然公式的非变分积分表达式。分数匹配分析得出反向扩散常微分方程 (ODE) 和一系列由噪声水平参数化的反向扩散 SDE ...

0 1 0 0 2024/08/29 arXiv:2301.11108v3 zengyanxiang

在信息搜索的学习排序中,从数据中自动学习排序模型,然后用于对搜索到的文档集进行排序。因此,理想的排名模型是从文档集到集合上的排列的映射,并且应该满足两个个关键要求:(1)〜应具有对跨交互文档建模的能力,能够在查询中捕获本地上下文信息; (2)~它应该是排列不变的,这意味着输入文档的任何排列都不会改变输出排名。前面关于学习排序的研究或设计单变量评分函数,对每个文档单独评分,未能因此对跨文档交互进行建模;或者构建按顺序对文档进行评分的多元评分函数,这无意中牺牲了排列不变性要求 ... ...

0 0 0 0 2024/11/22 arXiv:1912.05891v2 zengyanxiang

与逐点排名相比,板岩重新排名问题考虑了项目之间的相互影响,以提高电子商务中的用户满意度。以前的工作要么通过端到端模型直接对项目进行排名,要么通过权衡逐点得分和项目之间多样性的评分函数对项目进行排名。然而,目前存在两个主要挑战尚未得到充分研究:(1)由于一块石板上的项目之间存在复杂的相互影响,因此石板的评估很困难; (2) 即使给出最优评估,搜索最优板岩也具有挑战性,因为动作空间呈指数级增长 ...

0 0 0 0 2024/08/12 arXiv:2005.12206v1 zengyanxiang

在线推荐系统中的决策是一项具有挑战性的任务。决策者通常需要在每一步从一组候选者中选择一个上下文项。上下文强盗算法已成功部署到此类应用程序中,以在探索和利用以及最小化在线成本的最先进性能之间进行权衡 ...

0 0 0 0 2024/08/11 arXiv:1802.04162v3 zengyanxiang

价值函数估计是强化学习(即预测)中的一项重要任务 ...

0 1 0 0 2024/08/11 arXiv:1903.05926v4 zengyanxiang

启发式算法(例如模拟退火、Concorde 和 METIS)是寻找组合优化问题解决方案的有效且广泛使用的方法。然而,它们受到从冷启动达到合理解决方案所需的高样本复杂性的限制。在本文中,我们介绍了一种新颖的框架,可以使用强化学习(RL)为启发式算法生成更好的初始解决方案,称为 RLHO ...

0 0 0 0 2024/08/11 arXiv:1906.06639v1 zengyanxiang

生成流网络 (GFlowNet) 是一个概率框架,其中代理学习随机策略和流函数,以与非标准化奖励函数成比例的概率对对象进行采样。 GFlowNet 与强化学习 (RL) 非常相似,由于其顺序决策过程,强化学习通常旨在最大化奖励。最近的工作研究了 GFlowNet 和最大熵 (MaxEnt) RL 之间的联系,它通过学习熵正则化目标来修改 RL 代理的标准目标 ...

0 0 0 0 2024/08/11 arXiv:2406.02213v1 zengyanxiang

个性化推荐系统满足客户的日常需求并促进在线业务。目标是学习一种可以生成符合用户需求或兴趣的项目列表的策略。虽然大多数现有方法学习逐点评分模型来预测每个单独项目的排名分数,但最近的研究表明,列表方法可以通过对一起暴露的项目的列表内相关性进行建模来进一步提高推荐质量 ...

0 0 0 0 2024/08/09 arXiv:2306.02239v4 zengyanxiang

在优化顺序推荐任务中的长期用户参与时,强化学习 (RL) 算法受到越来越多的关注。大规模在线推荐系统面临的挑战之一是用户行为模式的持续而复杂的变化,例如交互率和保留倾向。当将其表述为马尔可夫决策过程(MDP)时,推荐系统的动态和奖励函数会不断受到这些变化的影响 ...

0 0 0 0 2024/08/07 arXiv:2310.03984v1 zengyanxiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)