zengyanxiang的文档

zengyanxiang

个性签名 ...

CrossLoco: Human Motion Driven Control of Legged Robots via Guided Unsupervised Reinforcement Learning

人体运动驱动控制（HMDC）是一种有效的方法，可以生成自然且引人注目的机器人运动，同时保留高级语义。然而，由于运动学和动力学特性的不匹配，建立人类和具有不同身体结构的机器人之间的对应关系并不简单，这导致了问题的内在模糊性。许多以前的算法通过无监督学习来解决这个运动重定向问题，这需要先决条件的技能 ...

0 0 0 0 2024/11/08 arXiv:2309.17046v1 zengyanxiang

METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

无监督预训练策略已被证明在自然语言处理和计算机视觉方面非常有效。同样，无监督强化学习（RL）有望发现各种潜在有用的行为，这些行为可以加速各种下游任务的学习。以前的无监督强化学习方法主要侧重于纯粹的探索和互信息技能学习 ...

0 0 0 0 2024/11/08 arXiv:2310.08887v2 zengyanxiang

Causal Question Answering with Reinforcement Learning

因果问题询问不同事件或现象之间的因果关系。它们对于各种用例都很重要，包括虚拟助手和搜索引擎。然而，当前许多因果问题回答方法无法为其答案提供解释或证据 ...

0 0 0 0 2024/11/07 arXiv:2311.02760v2 zengyanxiang

Reinforcement Learning with Maskable Stock Representation for Portfolio Management in Customizable Stock Pools

投资组合管理（PM）是一项基本的金融交易任务，它探索资金到不同股票的最佳周期性重新配置以追求长期利润。强化学习 (RL) 最近显示出其通过与金融市场互动来训练可盈利代理人的潜力。但现有工作多集中于固定股票池，与投资者的实际需求不符 ...

0 0 0 0 2024/11/07 arXiv:2311.10801v4 zengyanxiang

Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems

现代大规模推荐系统建立在计算密集型基础设施之上，通常会受到高峰期和非高峰期流量巨大差异的影响。在高峰期，由于计算资源预算有限，对每个请求进行实时计算具有挑战性。带缓存的推荐是这个问题的解决方案，其中用户明智的结果缓存用于在推荐系统无法承担实时计算时提供推荐 ...

0 0 0 0 2024/11/07 arXiv:2404.14961v1 zengyanxiang

Towards Robustness Analysis of E-Commerce Ranking System

信息检索（IR）是各种应用中的关键组成部分。机器学习 (ML) 的最新进展使得 ML 算法能够集成到 IR 中，特别是在排名系统中。虽然有大量关于基于机器学习的排名系统的稳健性的研究，但这些研究在很大程度上忽略了商业电子商务系统，并且未能在现实世界和操纵的查询相关性之间建立联系 ...

0 0 0 0 2024/11/07 arXiv:2403.04257v1 zengyanxiang

Full Stage Learning to Rank: A Unified Framework for Multi-Stage Systems

概率排序原理 (PRP) 已被视为信息检索 (IR) 系统设计的基本标准。该原则要求 IR 模块返回的结果列表根据潜在的用户兴趣进行排名，以便最大化结果的效用。然而，我们指出，在当代 IR 系统的每个阶段不加区别地应用 PRP 是不合适的 ...

0 0 0 0 2024/11/07 arXiv:2405.04844v1 zengyanxiang

InfoRank: Unbiased Learning-to-Rank via Conditional Mutual Information Minimization

对有关个人用户兴趣的项目进行排名是推荐系统等多个下游任务的核心技术。学习这种个性化排名通常依赖于用户过去点击行为的隐式反馈。然而，收集到的反馈偏向于以前排名靠前的项目，直接从中学习会导致“富者愈富”的现象 ...

0 0 0 0 2024/11/07 arXiv:2401.12553v1 zengyanxiang

Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL

强化学习代理倾向于养成仅在特定策略下有效的习惯。在初始探索阶段之后，智能体尝试不同的行动，最终收敛到特定的策略。当这种情况发生时，状态动作轨迹的分布变得更窄，导致代理重复经历相同的转变 ...

0 0 0 0 2024/11/07 arXiv:2306.02419v2 zengyanxiang

Voting-Based Multi-Agent Reinforcement Learning for Intelligent IoT

最近单智能体强化学习（RL）在物联网（IoT）系统中的成功激发了多智能体强化学习（MARL）的研究，这在大规模物联网中更具挑战性，但更有用。在本文中，我们考虑一个基于投票的 MARL 问题，其中代理投票做出群体决策，目标是最大化全局平均回报。为此，我们基于策略优化问题的线性规划形式制定了MARL问题，并提出了一种分布式原对偶算法来获得最优解 ...

0 0 0 0 2024/10/17 arXiv:1907.01385v3 zengyanxiang