奖励塑造是将领域知识融入强化学习(RL)的有效技术。现有的方法(例如基于潜力的奖励塑造)通常充分利用给定的塑造奖励函数。然而,由于人类认知偏差等原因,人类知识向数字奖励值的转化往往是不完美的,完全利用塑造奖励函数可能无法提高强化学习算法的性能。在本文中,我们考虑自适应地利用给定的塑造奖励函数的问题。我们将塑造奖励的利用表述为双层优化问题,其中较低级别是使用塑造奖励来优化策略,较高级别是优化参数化塑造权重函数以实现真正的奖励最大化。我们正式推导了预期真实奖励相对于整形权重函数参数的梯度,并相应地基于不同的假设提出了三种学习算法。在稀疏奖励 cartpole 和 MuJoCo 环境中的实验表明,我们的算法可以充分利用有益的塑造奖励,同时忽略无益的塑造奖励,甚至将其转化为有益的奖励 ...
在许多现实世界的场景中,代理的外在奖励非常稀少,或者根本不存在。在这种情况下,好奇心可以作为一种内在的奖励信号,使智能体能够探索其环境并学习可能在以后的生活中有用的技能。我们将好奇心表述为代理在通过自监督逆动力学模型学习的视觉特征空间中预测其自身行为结果的能力的误差。我们的公式扩展到高维连续状态空间(例如图像),绕过了直接预测像素的困难,并且更重要的是,忽略了无法影响代理的环境方面。所提出的方法在两种环境中进行评估:VizDoom 和超级马里奥兄弟。研究了三种广泛的设置:1)稀疏的外在奖励,其中好奇心允许与环境的互动少得多以达到目标; 2)没有外在奖励的探索,好奇心促使智能体更有效地探索; 3)泛化到未见过的场景(例如同一游戏的新关卡),从早期经验中获得的知识可以帮助智能体比从头开始更快地探索新地方。演示视频和代码可在此 https URL 获取 ...
在信息检索的学习排序中,从数据中自动学习排序模型,然后用于对检索到的文档集进行排序。因此,理想的排名模型应该是从文档集到集合上的排列的映射,并且应该满足两个关键要求:(1)~它应该具有对跨文档交互进行建模的能力,以便捕获查询中的本地上下文信息; (2)~它应该是排列不变的,这意味着输入文档的任何排列都不会改变输出排名。先前关于学习排序的研究要么设计单变量评分函数,对每个文档单独评分,因此未能对跨文档交互进行建模;或者构建按顺序对文档进行评分的多元评分函数,这不可避免地牺牲了排列不变性要求。在本文中,我们提出了一种称为 SetRank 的神经学习排序模型,它直接学习在任何大小的文档集上定义的排列不变排序模型。 SetRank 采用一堆(诱导的)多头自注意力块作为其关键组件,用于联合学习所有检索到的文档的嵌入。自注意力机制不仅可以帮助 SetRank 从跨文档交互中捕获局部上下文信息,还可以学习输入文档的排列等变表示,从而实现排列不变的排序模型。三个大规模基准测试的实验结果表明,SetRank 显着优于包括传统学习排序模型和最先进的神经 IR 模型在内的基准 ...
在本文中,我们研究了在黑盒访问拍卖机制的情况下衡量端到端激励兼容性(IC)遗憾的问题。我们的目标是 1) 计算拍卖中 IC 遗憾的估计,2) 提供 IC 遗憾估计的确定性度量,以及 3) 最大限度地缩短获得准确估计所需的时间。我们考虑两个主要问题,具有不同的信息假设:在\emph{广告商问题}中,目标是衡量IC对某些已知估值$v$的遗憾,而在更一般的\emph{需求方平台(DSP)问题}中,我们希望确定所有可能估值的最坏情况IC遗憾。这些问题自然地表达在在线学习模型中,我们为这两个问题设计了 $Regret-UCB$ 算法。我们给出了一个在线学习算法,其中对于广告商问题,确定 IC 的误差缩小为 $O\Big(\frac{|B|}{T}\cdot\Big(\frac{\ln T}{n} + \sqrt{\frac{\ln T}{n}}\Big)\Big)$ (其中 $B$ 是有限的出价集,$T$ 是时间步数,$n$ 是每个时间步的拍卖数量),对于 DSP 问题,缩小为 $O\Big(\frac{|B|}{T}\cdot\Big( \frac{|B|\ln T}{n} + \sqrt{\frac{|B|\ln T}{n}}\Big)\Big)$。对于 DSP 问题,我们还考虑更强的 IC 遗憾估计并扩展我们的 $Regret-UCB$ 算法以实现更好的 IC 遗憾误差。我们使用广义第二价格 (GSP) 拍卖的模拟来验证理论结果,众所周知,这种拍卖与激励不兼容,因此具有严格的正 IC 遗憾 ...
大型语言模型(LLM)强大的生成能力引发了推荐范式的转变。然而,现有的生成模型(例如 ...
大型语言模型(LLM)表现出了显着的功能,并已在包括推荐系统在内的各个领域中广泛部署。先前的研究已采用专业\ textit {提示}来利用LLMS的内在学习能力用于建议目的。最近的研究利用教学调整技术将LLM与人类偏好保持一致,并有望提出更有效的建议 ...
对于行业中的多阶段推荐人,用户请求将首先触发一个简单有效的检索器模块,该模块选择并排名相关项目列表,然后称呼较慢但更复杂的深层重新依赖模型,该模型在接触用户之前会完善项目布置。后一个模型通常会在用户的历史记录内容和回收者的初始排名中重新列出项目列表。尽管这个两阶段的检索框架框架表现出了实际有效性,但探索了前阶段的回猎犬得分的重要性,这是有限的,这是有益的 ...
在这项工作中,我们基于离线增强学习算法TD7的基础,该学习算法TD7融合了州行动学习的嵌入式(销售)和优先的体验重播缓冲液(LAP)。我们提出了一种无模型的参与者 - 批评算法,该算法整合了EDAC的集成Q-Networks和梯度多样性惩罚。 Ensemble Q-Networks引入了罚款,以指导Actor网络采取分配行动,有效地应对分发措施的挑战 ...
设计一个兼容拍卖,使预期收入最大化是一项复杂的任务。迈尔森(Myerson)在1981年的一项开创性作品中解决了单项案例,但是40年后,对最佳设计的完整分析理解仍然难以捉摸,对于具有两个或更多项目的设置。在这项工作中,我们启动了从深度学习中使用工具的使用来探索最佳拍卖的自动设计 ...
在加强学习(RL)中,设计精确的奖励功能仍然是一个挑战,尤其是在与人类意图保持一致时。引入了基于偏好的RL(PBRL),以通过从人类反馈中学习奖励模型来解决这个问题。但是,现有的PBRL方法具有局限性,因为它们经常忽略表明偏好相对强度的二阶偏好 ...