/documents/74734/
基本信息
文件基本信息
名称
LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders
描述
对超长用户行为序列进行建模对于捕获工业推荐系统中的长期和短期偏好至关重要。现有的解决方案通常依赖于两阶段检索或间接建模范例,导致上下游不一致和计算效率低下。在本文中,我们提出了 LONGER,一种用于 GPU 高效推荐器的长序列优化转换器。 LONGER 结合了(i)用于稳定长上下文注意力的全局 Token 机制,(ii)具有轻量级 InnerTransformers 和混合注意力策略的 Token 合并模块,以降低二次复杂度,以及(iii)一系列工程优化,包括混合精度和激活重新计算的训练、KV 缓存服务以及用于基于 GPU 的统一密集和稀疏参数更新的完全同步模型训练和服务框架。 LONGER 在字节跳动广告和电子商务服务的离线指标和在线 A/B 测试中始终优于强大的基线,验证了其一致的有效性和工业级扩展法则。目前,LONGER已在字节跳动10多个有影响力的场景全面部署,服务亿级用户 ...