zengyanxiang的文档

Jointly Learning to Recommend and Advertise

在线推荐和广告是在线推荐平台的两个主要收入渠道（例如电子商务和新闻提要网站） ...

0 0 0 0 2025/02/04 arXiv:2003.00097v2 zengyanxiang

ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor

长期参与度优于立即参与顺序建议，因为它直接影响了产品运营指标，例如日常活跃用户（DAUS）和停留时间。同时，加固学习（RL）被广泛认为是优化连续建议中长期参与的有希望的框架。但是，由于昂贵的在线互动，RL算法在优化长期参与时很难执行国家行动价值估计，探索和特征提取 ...

0 0 0 0 2025/01/30 arXiv:2206.02620v2 zengyanxiang

Goal Misgeneralization in Deep Reinforcement Learning

我们研究目标不当，这是强化学习（RL）中分布外的概括失败。当RL代理保留其功能范围内但追求错误的目标时，就会发生目标失败失败。例如，代理商可能会继续有能力避免障碍，但要导航到错误的地方 ...

0 0 0 0 2025/01/29 arXiv:2105.14111v7 zengyanxiang

STEMO: Early Spatio-temporal Forecasting with Multi-Objective Reinforcement Learning

在预测任务中，准确性和及时性确实经常是相互冲突的目标。过早的预测可能会产生更高的误报率，而延迟预测以收集更多信息可能会导致预测为时已晚而无法发挥作用。在野火、犯罪和交通拥堵等应用中，及时预测对于保护人类生命和财产至关重要 ...

0 0 0 0 2025/01/27 arXiv:2406.04035v3 zengyanxiang

Urban-Focused Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing

在城市环境中加强人类决策过程是各种应用程序的关键问题，包括乘车共享车辆派遣，公共交通管理和自动驾驶。离线增强学习（RL）是一种从预先收集的人类生成的时空城市数据中学习和优化人类城市策略（或政策）的有前途的方法。但是，标准离线RL面临两个重大挑战：（1）数据稀缺性和数据异质性，以及（2）分配变化 ...

0 0 0 0 2025/01/26 arXiv:2406.14054v1 zengyanxiang

Offline Imitation Learning with Model-based Reverse Augmentation

在离线模仿学习（IL）中，主要挑战之一是专家观察与智能体遇到的实际分布之间的\textit{协变量偏移}，因为很难确定智能体在状态之外应该采取什么行动专家演示的分发。最近，无模型解决方案引入了补充数据并识别潜在的专家相似样本，以在学习过程中增加可靠样本。基于模型的解决方案通过保守量化构建前向动态模型，然后在专家演示附近生成额外的轨迹 ...

0 0 0 0 2025/01/26 arXiv:2406.12550v1 zengyanxiang

Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization

营销优化对于提高在线互联网平台的用户参与度起着重要作用。现有的研究通常将该问题表述为预算分配问题，并利用两个完全解耦的阶段来解决它，即 ...

0 2 0 0 2025/01/10 arXiv:2407.13664v1 zengyanxiang

EdgeRec: Recommender System on Edge in Mobile Taobao

推荐系统（RS）已成为大多数网络规模应用程序中的关键模块。最近，大多数推荐系统都是基于云到边缘框架的瀑布形式，将推荐结果传输到边缘（例如，推荐结果） ...

0 0 0 0 2025/01/08 arXiv:2005.08416v4 zengyanxiang