工业推荐系统 (RS) 依靠多级管道在将庞大语料库中的项目交付给用户时平衡有效性和效率。现有的 RS 基准数据集主要关注暴露空间,在其中训练和评估新颖的 RS 算法。然而,当这些算法过渡到现实世界的工业 RS 时,它们面临着处理未暴露物品的严峻挑战,这些物品的空间比暴露的物品大得多。这种差异深刻地影响了他们的实际表现。此外,这些算法常常忽略多个 RS 级之间复杂的相互作用,导致整体系统性能不佳。为了解决这个问题,我们引入了RecFlow,这是一个工业全流程推荐数据集,旨在弥合离线RS基准测试和真实在线环境之间的差距。与现有数据集不同,RecFlow 不仅包括来自暴露空间的样本,还包括在 RS 漏斗的每个阶段过滤的未暴露项目。我们的数据集包含 42K 用户在近 900 万个项目中的 3800 万次交互,以及从 37 天内的 930 万个在线请求收集的额外 1.9B 个阶段样本,跨越 6 个阶段。利用 RecFlow 数据集,我们进行了大胆的探索实验,展示了其在设计新算法方面的潜力,通过合并特定阶段的样本来提高有效性。其中一些算法已经在线部署,持续产生显着收益。我们建议RecFlow作为RS社区的第一个综合基准数据集,支持任何阶段的算法设计研究、选择偏差、去偏差算法、多阶段一致性和最优性、多任务推荐和用户行为建模的研究。 RecFlow 数据集以及相应的源代码可从此 https URL 获取 ...
传统的基于 ID 的推荐系统经常面临冷启动和泛化挑战。利用文本和视觉数据的多模式推荐系统为缓解这些问题提供了一种有前途的解决方案。然而,现有的工业方法通常采用两阶段训练范例:首先预训练多模态模型,然后应用其冻结表示来训练推荐模型。这种解耦框架存在多模式学习和推荐目标之间不一致的问题,并且无法动态适应新数据。为了解决这些限制,我们提出了 LEMUR,这是第一个从原始数据进行端到端训练的大规模多模式推荐系统。通过联合优化多模式和推荐组件,LEMUR 确保与下游目标更紧密地结合,同时实现实时参数更新。从用户历史构建多模态序列表示通常需要极高的计算成本。为了缓解这一瓶颈,我们提出了一种新颖的记忆库机制,可以在整个训练过程中逐步积累历史多模态表示。 LEMUR 在抖音搜索部署一个月后,查询变化率衰减降低了 0.843%,QAUC 提高了 0.81%。此外,LEMUR 在抖音广告的关键线下指标上也取得了显着的进步。我们的结果验证了端到端多模式推荐在现实工业场景中的优越性 ...
在线互联网平台需要复杂的营销策略来优化用户保留和平台收入——这是一个经典的资源分配问题。传统解决方案采用两阶段流程:机器学习 (ML) 用于预测个体治疗对营销活动的影响,然后是运筹学 (OR) 优化以进行决策。这种范例提出了两个基本的技术挑战 ...
传统的电子商务搜索系统采用多阶段级联体系结构(MCA),通过召回,预先排名和排名阶段逐步过滤项目。这些系统虽然有效地平衡了计算效率与业务转化,但跨阶段的计算和优化客观碰撞遭受了零散的损失,这最终限制了其性能上限。为了解决这些问题,我们建议\ textbf {OneSearch},这是第一个用于电子商务搜索的工业部署的端到端生成框架 ...
生成AI的最新突破已通过端到端一代改变了推荐系统。 Onerec将建议重新定义为自回归的生成任务,从而实现了高模型的利用。尽管Onerec-V1在现实部署中显示出显着的经验成功,但两个关键的挑战阻碍了其可扩展性和性能:(1)效率低下的计算分配,其中97 ...