在本文中,我们研究了在黑盒访问拍卖机制的情况下衡量端到端激励兼容性(IC)遗憾的问题。我们的目标是 1) 计算拍卖中 IC 遗憾的估计,2) 提供 IC 遗憾估计的确定性度量,以及 3) 最大限度地缩短获得准确估计所需的时间。我们考虑两个主要问题,具有不同的信息假设:在\emph{广告商问题}中,目标是衡量IC对某些已知估值$v$的遗憾,而在更一般的\emph{需求方平台(DSP)问题}中,我们希望确定所有可能估值的最坏情况IC遗憾。这些问题自然地表达在在线学习模型中,我们为这两个问题设计了 $Regret-UCB$ 算法。我们给出了一个在线学习算法,其中对于广告商问题,确定 IC 的误差缩小为 $O\Big(\frac{|B|}{T}\cdot\Big(\frac{\ln T}{n} + \sqrt{\frac{\ln T}{n}}\Big)\Big)$ (其中 $B$ 是有限的出价集,$T$ 是时间步数,$n$ 是每个时间步的拍卖数量),对于 DSP 问题,缩小为 $O\Big(\frac{|B|}{T}\cdot\Big( \frac{|B|\ln T}{n} + \sqrt{\frac{|B|\ln T}{n}}\Big)\Big)$。对于 DSP 问题,我们还考虑更强的 IC 遗憾估计并扩展我们的 $Regret-UCB$ 算法以实现更好的 IC 遗憾误差。我们使用广义第二价格 (GSP) 拍卖的模拟来验证理论结果,众所周知,这种拍卖与激励不兼容,因此具有严格的正 IC 遗憾 ...
大型语言模型(LLM)强大的生成能力引发了推荐范式的转变。然而,现有的生成模型(例如 ...
大型语言模型(LLM)表现出了显着的功能,并已在包括推荐系统在内的各个领域中广泛部署。先前的研究已采用专业\ textit {提示}来利用LLMS的内在学习能力用于建议目的。最近的研究利用教学调整技术将LLM与人类偏好保持一致,并有望提出更有效的建议 ...
对于行业中的多阶段推荐人,用户请求将首先触发一个简单有效的检索器模块,该模块选择并排名相关项目列表,然后称呼较慢但更复杂的深层重新依赖模型,该模型在接触用户之前会完善项目布置。后一个模型通常会在用户的历史记录内容和回收者的初始排名中重新列出项目列表。尽管这个两阶段的检索框架框架表现出了实际有效性,但探索了前阶段的回猎犬得分的重要性,这是有限的,这是有益的 ...
在这项工作中,我们基于离线增强学习算法TD7的基础,该学习算法TD7融合了州行动学习的嵌入式(销售)和优先的体验重播缓冲液(LAP)。我们提出了一种无模型的参与者 - 批评算法,该算法整合了EDAC的集成Q-Networks和梯度多样性惩罚。 Ensemble Q-Networks引入了罚款,以指导Actor网络采取分配行动,有效地应对分发措施的挑战 ...
设计一个兼容拍卖,使预期收入最大化是一项复杂的任务。迈尔森(Myerson)在1981年的一项开创性作品中解决了单项案例,但是40年后,对最佳设计的完整分析理解仍然难以捉摸,对于具有两个或更多项目的设置。在这项工作中,我们启动了从深度学习中使用工具的使用来探索最佳拍卖的自动设计 ...
在加强学习(RL)中,设计精确的奖励功能仍然是一个挑战,尤其是在与人类意图保持一致时。引入了基于偏好的RL(PBRL),以通过从人类反馈中学习奖励模型来解决这个问题。但是,现有的PBRL方法具有局限性,因为它们经常忽略表明偏好相对强度的二阶偏好 ...
离线强化学习(RL)旨在使用预先收集的数据集找到接近最优的策略。在现实场景中,数据收集可能成本高昂且存在风险;因此,当域内数据有限时,离线强化学习变得特别具有挑战性。鉴于大型语言模型 (LLM) 的最新进展及其小样本学习能力,本文介绍了用于 $\textbf{Mo}$tion 控制的 $\textbf{La}$nguage 模型 ($\textbf{LaMo}$),基于决策转换器的通用框架,可有效使用预训练语言模型 (LM) 进行离线强化学习 ...
在电子商务广告中,至关重要的是共同考虑各种性能指标,例如用户体验,广告商实用程序和平台收入 ...
随着深度学习的广泛采用,加强学习(RL)的流行度急剧增加,扩展到以前棘手的问题,例如从像素观察中玩复杂的游戏,与人类的对话以及控制机器人的对话。但是,由于与环境相互作用的高成本和危险,RL仍然存在广泛的域。离线RL是一种范式,它仅从先前收集的交互的静态数据集中学习,这使得从大型多样的培训数据集中提取策略是可行的 ...