离线到线加强学习(RL)是一个框架,该框架通过离线RL训练政策,然后通过在线RL进行进一步的微调,被认为是数据驱动决策的有希望的食谱。虽然明智,但该框架具有缺点:它需要针对每个任务的特定领域离线RL预训练,并且在实践中通常是脆弱的。在这项工作中,我们提出了无监督到的在线RL(U2O RL),该RL用无监督的离线RL取代了特定于域的监督离线RL,作为离线到Online RL的更好替代方法 ...

0 0 0 0 2025/05/05 arXiv:2408.14785v1 zengyanxiang

在本文中,我们旨在仅利用离线轨迹数据来培训多目标RL的策略。我们将离线策略注册方法扩展到单目标离线RL问题的广泛选择方法,以实现上述目标。但是,这种方法在离线MORL设置中面临着新的挑战,即偏爱示威问题 ...

0 0 0 0 2025/05/04 arXiv:2401.02244v1 zengyanxiang

通过进化算法解决受限的多目标优化问题已引起了相当大的关注。通过使用不同的算法策略,进化运算符和约束处理技术,已经开发了各种受约束的多目标优化进化算法(CMOEAS)。 CMOEA的性能可能很大程度上取决于所使用的操作员,但是,通常很难为当前的问题选择合适的操作员 ...

0 0 0 0 2025/05/04 arXiv:2402.12381v1 zengyanxiang

以决策为中心的学习(DFL)是一个新兴的范式,它整合机器学习(ML)并受到限制优化,以通过端到端系统中的培训ML模型来提高决策质量。这种方法显示了在不确定性下运行的现实世界应用中革命组合决策的巨大潜力,在决策模型中估算未知参数是一个主要挑战。本文对DFL进行了全面的综述,对用于组合ML和限制优化的基于梯度和无梯度的技术进行了深入的分析 ...

0 0 0 0 2025/03/07 arXiv:2307.13565v4 zengyanxiang

连续推荐系统利用 Transformer 体系结构证明了捕获用户行为模式的非凡功能。这些系统的核心是构建有效项目表示形式的关键挑战。传统方法通过简单的串联或基本神经体系结构采用特征融合来创建统一表示序列 ...

0 0 0 0 2025/03/04 arXiv:2503.01469v1 zengyanxiang

通过连续处理的观测数据的丰富性增加,我们研究了估计平均剂量反应曲线(ADRF)的问题。可用的参数方法在其模型空间中受到限制,并且以前的尝试利用神经网络来增强模型表现力依赖于将连续处理分解为块,并为每个区块使用单独的头部;但是,这在实践中产生了不连续的ADRF。因此,如何适应神经网络的结构和培训来估计ADRF的问题仍然开放 ...

0 0 0 0 2025/02/25 arXiv:2103.07861v1 zengyanxiang

提升建模的目的是建议通过确定哪些实体应接受治疗来优化特定结果的行动。一种常见的方法涉及两个步骤:首先,一个推理步骤,估计有条件的平均治疗效果(CATES),其次是根据其CATE值对实体进行对的优化步骤,并将治疗在给定预算内分配给顶部K。虽然升高建模通常集中在二元处理上,但许多现实世界的应用以连续值处理的特征,即 ...

0 0 0 0 2025/02/24 arXiv:2412.09232v1 zengyanxiang

通过自动代表广告商的投标,自动竞标对于促进在线广告至关重要。生成性自动竞标是基于 Transformer 和扩散器等模型基于可调状况生成出价的,由于其潜力直接从数据中学习最佳策略并灵活地调整偏好,因此最近出现了作为新趋势。但是,生成模型遭受低质量的数据,导致条件,返回和真实动作值之间的不匹配,尤其是在长期顺序决策中 ...

0 0 0 0 2025/02/24 arXiv:2412.17018v1 zengyanxiang

在在线广告中,广告商通常会利用自动投标服务来竞标印象机会。自动竞标者的典型目的是优化广告商在指定预算限制内获胜的累积价值。但是,由于各种广告客户面临的复杂招标环境,此类问题具有挑战性 ...

0 0 0 0 2025/02/19 arXiv:2502.05187v1 zengyanxiang

扩散模型已经在许多任务中证明了它们强大的生成能力,具有巨大的潜力,可以作为离线增强学习的范式。但是,扩散模型的质量受到培训数据多样性不足的限制,这阻碍了计划的性能和对新任务的普遍性。本文介绍了AdaptDiffuser,这是一种具有扩散的进化计划方法,可以自我发展以改善扩散模型,因此不仅适用于可见的任务,而且还可以适应看不见的任务 ...

0 0 0 0 2025/02/15 arXiv:2302.01877v2 zengyanxiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)