DeepSeek-R1通过强化学习在激励大语模型(LLM)的推理和概括能力方面表现出了出色的有效性。然而,在图像质量评估(IQA)的背景下,尚未对推理引起的计算建模的潜力进行彻底探讨,这是一项至关重要的任务。在本文中,我们介绍了VisualQuality-R1,这是一种推理引起的无参考IQA(NR-IQA)模型,并通过强化学习来训练它,这是一种针对视觉质量本质上相对性质的学习算法 ...
在在线广告中,广告商通常利用自动竞价服务来竞价展示机会。自动竞价者的典型目标是在指定的预算限制内优化广告商赢得印象的累积价值。然而,由于不同的广告商面临着复杂的竞价环境,这样的问题具有挑战性。为了应对这一挑战,我们推出了 ABPlanner,这是一款几次适应性强的预算规划器,旨在改进预算有限的自动出价。 ABPlanner 基于分层投标框架,将投标过程分解为更短、可管理的阶段。在此框架内,ABPlanner 在各个阶段分配预算,允许低级别自动投标人根据预算分配计划进行投标。 ABPlanner 的适应性是通过顺序决策方法实现的,其灵感来自上下文强化学习。对于每个广告商,ABPlanner 会逐个片段地调整预算分配计划,并使用之前片段的数据作为当前决策的提示。这使得 ABPlanner 能够利用少量数据快速适应不同的广告商,提供样本高效的解决方案。大量的模拟实验和真实的 A/B 测试验证了 ABPlanner 的有效性,证明了其提高自动投标人实现的累积价值的能力 ...
根据观察数据估计条件平均治疗效果 (CATE) 在电子商务、医疗保健和经济学等领域发挥着至关重要的作用。现有的研究主要依赖于强可忽略性假设,即不存在隐藏的混杂因素,这些混杂因素的存在无法从观察数据中得到检验,并且可以使任何因果结论无效。相比之下,从随机对照试验(RCT)收集的数据不会受到混杂的影响,但通常受到样本量较小的限制。为了避免小规模 RCT 数据引起的过拟合,我们提出了一种新颖的两阶段预训练微调(TSPF)框架,该框架采用部分参数初始化策略来估计存在隐藏混杂的 CATE。在第一阶段,训练协变量的基本表示,以通过大规模观察数据估计反事实结果。在第二阶段,我们建议训练协变量的增强表示,将其与第一阶段获得的基础表示连接起来,以调整隐藏的混杂因素。部分预测头不是从头开始训练单独的网络,而是从第一阶段初始化。我们的方法的优越性在两个数据集上通过大量实验得到了验证 ...
在现实场景中部署的人形机器人通常需要携带未知的有效负载,这会引入严重的不匹配并降低模拟到现实的强化学习方法的有效性。为了应对这一挑战,我们提出了一个基于可微分模拟器 MuJoCo XLA 的两阶段梯度系统识别框架。第一阶段使用真实世界数据校准标称机器人模型,以减少固有的模拟与真实差异,而第二阶段进一步识别未知有效负载的质量分布。通过在策略训练之前明确减少结构化模型偏差,我们的方法可以在重负载条件下将强化学习策略零样本转移到硬件。广泛的模拟和现实世界实验表明,与现有基线相比,参数识别更精确,运动跟踪精度更高,敏捷性和鲁棒性显着增强。项目页面:此 https URL ...
全身人形远程操作使人类能够远程控制人形机器人,既作为实时操作工具,又作为收集自主学习演示的可扩展引擎。尽管最近取得了一些进展,但现有系统仍使用聚合指标进行验证,这些指标合并了不同的运动状态,掩盖了关键的故障模式。诊断粒度的缺乏,再加上紧密耦合和劳动密集型的系统配置,阻碍了现实世界的稳健部署。一个关键的开放挑战是建立一个既强大、多功能又经济实用的远程操作系统。在这里,我们推出 OmniClone,这是一种全身人形远程操作系统,可以在单个消费级 GPU 上以适度的数据要求实现高保真、多技能控制。我们方法的核心是 OmniBench,这是一个诊断基准,可以评估分层运动类别的策略和未见过的运动的难度级别,暴露了先前系统的狭隘专业化。在这些诊断的指导下,我们确定了优化的训练数据配方并集成了系统级改进:与主题无关的重定向和强大的通信,总共将平均每关节位置误差 (MPJPE) 减少了 66% 以上,同时比同类方法所需的计算资源少了几个数量级。至关重要的是,OmniClone 与控制源无关:单一统一策略支持实时远程操作、生成的运动回放和视觉-语言-动作 (VLA) 模型,同时适用于身体比例截然不同的操作员。通过将诊断评估与实际工程相结合,OmniClone 为可扩展的人形远程操作和自主学习提供了可访问的基础 ...
仿真对于自动驾驶汽车等自主机器人的开发和评估至关重要。神经重建正在成为一种有前途的解决方案,因为它能够以自动化和可扩展的方式仅根据真实世界的数据模拟各种场景。然而,虽然 NeRF 和 3D Gaussian Splatting 等方法可以产生视觉上引人注目的结果,但它们经常会出现伪影,特别是在渲染新视图时,并且无法真实地集成插入的动态对象,特别是当它们是从不同场景捕获时。为了克服这些限制,我们引入了 DiffusionHarmonizer,这是一种在线生成增强框架,可将此类不完美场景的渲染转换为时间一致的输出,同时提高其真实感。其核心是一个单步时间条件增强器,它是从预训练的多步图像扩散模型转换而来的,能够在单个 GPU 上的在线模拟器中运行。有效训练它的关键是定制数据管理管道,该管道构建强调外观协调、伪像校正和光照真实感的合成真实对。其结果是一个可扩展的系统,显着提高了研究和生产环境中的模拟保真度 ...
人形机器人操纵需要协调的高级运动计划,在复杂的机器人环境动力学和长视野任务下具有稳定、低级的全身执行能力。虽然扩散策略(DP)显示出从演示中学习的前景,但将它们部署在人形机器人上却带来了严峻的挑战:离线训练的运动规划器与低级控制器分离,导致命令跟踪不佳、加剧分布转移和任务失败。对于高维人形系统来说,缩放演示数据的常见方法过于昂贵。为了应对这一挑战,我们提出了 REFINE-DP(增强学习扩散策略的微调),这是一个分层框架,可联合优化 DP 高级规划器和基于 RL 的低级局部操作控制器。 DP 通过基于 PPO 的扩散策略梯度进行微调,以提高任务成功率,同时更新控制器以准确跟踪规划器不断变化的命令分布,减少导致运动质量下降的分布不匹配。我们在执行局部操作任务(包括门遍历和长视野物体运输)的人形机器人上验证 REFINE-DP。 REFINE-DP 在模拟中实现了超过 90\%$ 的成功率,即使在预训练数据中未出现的分布外情况下也是如此,并且能够在现实世界的动态环境中平稳地自主执行任务。我们提出的方法大大优于预训练的 DP 基线,并证明 RL 微调是可靠的人形机器人操纵的关键。这个 https 网址 ...
大型语言模型 (LLM) 的扩展越来越受到数据质量的限制。大多数方法分别处理数据混合和样本选择,这可能会破坏代码语料库的结构。我们引入了 \textbf{UniGeM},这是一个框架,通过将数据管理视为 \textit{流形逼近} 问题来统一混合和选择,而无需训练代理模型或依赖外部参考数据集。 UniGeM 分层运行:\textbf{Macro-Exploration} 通过基于稳定性的聚类学习混合权重; \textbf{Micro-Mining} 通过几何分布过滤高质量实例,以确保逻辑一致性。通过在 100B Token 上训练 8B 和 16B MoE 模型进行验证,UniGeM 在随机基线上实现了 \textbf{2.0$\times$ 数据效率},并且与 SOTA 方法相比,在大量推理评估和多语言泛化方面进一步提高了整体性能 ...
用户兴趣在一天中表现出动态模式,例如,用户通常在上午 8 点喜欢轻音乐,但可能在晚上 10 点转向环境音乐。为了对一天中的动态兴趣进行建模,小时嵌入广泛应用于传统的日常训练的工业推荐系统中。然而,它的离散性可能会导致最近的流媒体推荐系统出现周期性在线模式和不稳定。最近,Interest Clock在流媒体推荐系统中取得了令人瞩目的表现。然而,它以粗粒度的方式对用户的动态兴趣进行建模,仅从短期行为中编码出用户24小时的离散兴趣。在本文中,我们提出了一种用于流式推荐系统感知时间信息的细粒度方法,称为长期兴趣时钟(LIC)。 LIC 的关键思想是通过考虑给定候选项目的当前时间(例如上午 8 点)左右的长期行为的相关性来自适应地计算当前用户兴趣。 LIC 由两个模块组成:(1)Clock-GSU 使用候选项和当前时间的查询信息,通过搜索长期行为来检索子序列,(2)Clock-ESU 采用时间间隙感知注意机制将子序列与候选项聚合。通过Clock-GSU和Clock-ESU,LIC能够从长期行为中捕获用户的动态细粒度兴趣。我们进行了在线 A/B 测试,用户活跃天数获得了 +0.122% 的提升。此外,扩展的离线实验也显示出改进。长期兴趣时钟已纳入抖音音乐App的推荐系统 ...
平衡是视频游戏中备受争议的话题,尤其是在玩家之间。游戏是否足够平衡会极大地影响其受欢迎程度、玩家满意度、流失率和成功。然而,行业、学术界和玩家对平衡定义的概念存在分歧,对设计平衡的不同理解可能会导致比实际不平衡更糟糕的玩家体验。这项工作积累了业界和学术界平衡视频游戏的概念,并引入了玩家驱动的方法来优化玩家体验和满意度。我们利用 680 名参与者的调查数据和超过 400 万场《激战 2》游戏内战斗的经验记录数据,汇总了玩家的意见和要求,将其与现状进行对比,并采用民主化的定量技术来近似更接近的平衡配置。我们贡献了一种完善平衡概念的策略,一种根据实际玩家群定制平衡的方法,并指出了实现这一过程的示例性工件 ...