以决策为中心的学习(DFL)是一个新兴的范式,它整合机器学习(ML)并受到限制优化,以通过端到端系统中的培训ML模型来提高决策质量。这种方法显示了在不确定性下运行的现实世界应用中革命组合决策的巨大潜力,在决策模型中估算未知参数是一个主要挑战。本文对DFL进行了全面的综述,对用于组合ML和限制优化的基于梯度和无梯度的技术进行了深入的分析 ...
连续推荐系统利用 Transformer 体系结构证明了捕获用户行为模式的非凡功能。这些系统的核心是构建有效项目表示形式的关键挑战。传统方法通过简单的串联或基本神经体系结构采用特征融合来创建统一表示序列 ...
通过连续处理的观测数据的丰富性增加,我们研究了估计平均剂量反应曲线(ADRF)的问题。可用的参数方法在其模型空间中受到限制,并且以前的尝试利用神经网络来增强模型表现力依赖于将连续处理分解为块,并为每个区块使用单独的头部;但是,这在实践中产生了不连续的ADRF。因此,如何适应神经网络的结构和培训来估计ADRF的问题仍然开放 ...
提升建模的目的是建议通过确定哪些实体应接受治疗来优化特定结果的行动。一种常见的方法涉及两个步骤:首先,一个推理步骤,估计有条件的平均治疗效果(CATES),其次是根据其CATE值对实体进行对的优化步骤,并将治疗在给定预算内分配给顶部K。虽然升高建模通常集中在二元处理上,但许多现实世界的应用以连续值处理的特征,即 ...
通过自动代表广告商的投标,自动竞标对于促进在线广告至关重要。生成性自动竞标是基于 Transformer 和扩散器等模型基于可调状况生成出价的,由于其潜力直接从数据中学习最佳策略并灵活地调整偏好,因此最近出现了作为新趋势。但是,生成模型遭受低质量的数据,导致条件,返回和真实动作值之间的不匹配,尤其是在长期顺序决策中 ...
在在线广告中,广告商通常会利用自动投标服务来竞标印象机会。自动竞标者的典型目的是优化广告商在指定预算限制内获胜的累积价值。但是,由于各种广告客户面临的复杂招标环境,此类问题具有挑战性 ...
扩散模型已经在许多任务中证明了它们强大的生成能力,具有巨大的潜力,可以作为离线增强学习的范式。但是,扩散模型的质量受到培训数据多样性不足的限制,这阻碍了计划的性能和对新任务的普遍性。本文介绍了AdaptDiffuser,这是一种具有扩散的进化计划方法,可以自我发展以改善扩散模型,因此不仅适用于可见的任务,而且还可以适应看不见的任务 ...
通过预测治疗组和对照组之间的响应差异,以确定敏感的个体朝着优惠券或折扣之类的干预措施来确定敏感的人,从而广泛地用于在线营销中。与传统的\ textit {转换提升建模}相比,\ textit {Revenue Uplift Modeling}由于其与公司收入的直接联系而具有更高的潜力。但是,以前的工作几乎无法处理收入提升建模中的连续长尾响应分布 ...
重读是推荐系统中的关键组成部分,在完善推荐算法的输出方面发挥了重要作用。传统的阅读模型主要集中在准确性上,但是现代应用要求考虑其他标准,例如多样性和公平性。现有的重读方法通常无法在模型级别上有效地协调这些不同的标准 ...
推荐系统在许多在线平台中起着至关重要的作用,其主要目标是满足和保留用户。由于直接优化用户保留是具有挑战性的,因此经常采用多个评估指标。现有方法通常将这些评估指标的优化作为多任务学习问题,但经常忽略以下事实:用户对不同任务的偏好是个性化的,并且会随着时间的推移而变化 ...