提升建模的目的是建议通过确定哪些实体应接受治疗来优化特定结果的行动。一种常见的方法涉及两个步骤:首先,一个推理步骤,估计有条件的平均治疗效果(CATES),其次是根据其CATE值对实体进行对的优化步骤,并将治疗在给定预算内分配给顶部K。虽然升高建模通常集中在二元处理上,但许多现实世界的应用以连续值处理的特征,即 ...
通过自动代表广告商的投标,自动竞标对于促进在线广告至关重要。生成性自动竞标是基于 Transformer 和扩散器等模型基于可调状况生成出价的,由于其潜力直接从数据中学习最佳策略并灵活地调整偏好,因此最近出现了作为新趋势。但是,生成模型遭受低质量的数据,导致条件,返回和真实动作值之间的不匹配,尤其是在长期顺序决策中 ...
在在线广告中,广告商通常会利用自动投标服务来竞标印象机会。自动竞标者的典型目的是优化广告商在指定预算限制内获胜的累积价值。但是,由于各种广告客户面临的复杂招标环境,此类问题具有挑战性 ...
扩散模型已经在许多任务中证明了它们强大的生成能力,具有巨大的潜力,可以作为离线增强学习的范式。但是,扩散模型的质量受到培训数据多样性不足的限制,这阻碍了计划的性能和对新任务的普遍性。本文介绍了AdaptDiffuser,这是一种具有扩散的进化计划方法,可以自我发展以改善扩散模型,因此不仅适用于可见的任务,而且还可以适应看不见的任务 ...
通过预测治疗组和对照组之间的响应差异,以确定敏感的个体朝着优惠券或折扣之类的干预措施来确定敏感的人,从而广泛地用于在线营销中。与传统的\ textit {转换提升建模}相比,\ textit {Revenue Uplift Modeling}由于其与公司收入的直接联系而具有更高的潜力。但是,以前的工作几乎无法处理收入提升建模中的连续长尾响应分布 ...
重读是推荐系统中的关键组成部分,在完善推荐算法的输出方面发挥了重要作用。传统的阅读模型主要集中在准确性上,但是现代应用要求考虑其他标准,例如多样性和公平性。现有的重读方法通常无法在模型级别上有效地协调这些不同的标准 ...
推荐系统在许多在线平台中起着至关重要的作用,其主要目标是满足和保留用户。由于直接优化用户保留是具有挑战性的,因此经常采用多个评估指标。现有方法通常将这些评估指标的优化作为多任务学习问题,但经常忽略以下事实:用户对不同任务的偏好是个性化的,并且会随着时间的推移而变化 ...
作为推荐系统的最后阶段,重新排列会生成与用户偏好相符的重新排序列表。但是,以前的作品通常集中于项目级的积极反馈作为历史(例如 ...
最近的理论工作研究在两个环境中进行了广泛的样本增强学习(RL):在环境中进行交互性学习,或从离线数据集(离线RL)中学习。但是,在这两种设置中学习近乎最佳政策的现有算法和理论是相当不同且脱节的。为了弥合这一差距,本文启动了政策填充的理论研究,即在线RL,其中学习者可以在某个特定的一定的特定策略$ \ pi_ \ star $附近访问“参考策略” $ \ mu $感觉 ...
随着强化学习(RL)的最新流行率,在推荐平台(例如电子商务和新闻源网站)中利用RL进行ADS分配有很大的兴趣 ...