大型语言模型(LLM)强大的生成能力引发了推荐范式的转变。然而,现有的生成模型(例如 ...

0 0 0 0 2025/10/14 arXiv:2510.11639v1 zengyanxiang

大型语言模型(LLM)表现出了显着的功能,并已在包括推荐系统在内的各个领域中广泛部署。先前的研究已采用专业\ textit {提示}来利用LLMS的内在学习能力用于建议目的。最近的研究利用教学调整技术将LLM与人类偏好保持一致,并有望提出更有效的建议 ...

0 0 0 0 2025/09/28 arXiv:2312.16018v3 zengyanxiang

对于行业中的多阶段推荐人,用户请求将首先触发一个简单有效的检索器模块,该模块选择并排名相关项目列表,然后称呼较慢但更复杂的深层重新依赖模型,该模型在接触用户之前会完善项目布置。后一个模型通常会在用户的历史记录内容和回收者的初始排名中重新列出项目列表。尽管这个两阶段的检索框架框架表现出了实际有效性,但探索了前阶段的回猎犬得分的重要性,这是有限的,这是有益的 ...

0 0 0 0 2025/09/28 arXiv:2509.18736v1 zengyanxiang

在这项工作中,我们基于离线增强学习算法TD7的基础,该学习算法TD7融合了州行动学习的嵌入式(销售)和优先的体验重播缓冲液(LAP)。我们提出了一种无模型的参与者 - 批评算法,该算法整合了EDAC的集成Q-Networks和梯度多样性惩罚。 Ensemble Q-Networks引入了罚款,以指导Actor网络采取分配行动,有效地应对分发措施的挑战 ...

0 0 0 0 2025/08/12 arXiv:2501.03676v2 zengyanxiang

设计一个兼容拍卖,使预期收入最大化是一项复杂的任务。迈尔森(Myerson)在1981年的一项开创性作品中解决了单项案例,但是40年后,对最佳设计的完整分析理解仍然难以捉摸,对于具有两个或更多项目的设置。在这项工作中,我们启动了从深度学习中使用工具的使用来探索最佳拍卖的自动设计 ...

0 0 0 0 2025/07/07 arXiv:1706.03459v6 zengyanxiang

在加强学习(RL)中,设计精确的奖励功能仍然是一个挑战,尤其是在与人类意图保持一致时。引入了基于偏好的RL(PBRL),以通过从人类反馈中学习奖励模型来解决这个问题。但是,现有的PBRL方法具有局限性,因为它们经常忽略表明偏好相对强度的二阶偏好 ...

0 0 0 0 2025/07/01 arXiv:2408.04190v1 zengyanxiang

离线强化学习(RL)旨在使用预先收集的数据集找到接近最优的策略。在现实场景中,数据收集可能成本高昂且存在风险;因此,当域内数据有限时,离线强化学习变得特别具有挑战性。鉴于大型语言模型 (LLM) 的最新进展及其小样本学习能力,本文介绍了用于 $\textbf{Mo}$tion 控制的 $\textbf{La}$nguage 模型 ($\textbf{LaMo}$),基于决策转换器的通用框架,可有效使用预训练语言模型 (LM) 进行离线强化学习 ...

0 0 0 0 2025/07/01 arXiv:2310.20587v5 zengyanxiang

在电子商务广告中,至关重要的是共同考虑各种性能指标,例如用户体验,广告商实用程序和平台收入 ...

0 0 0 0 2025/06/26 arXiv:2106.03593v2 zengyanxiang

随着深度学习的广泛采用,加强学习(RL)的流行度急剧增加,扩展到以前棘手的问题,例如从像素观察中玩复杂的游戏,与人类的对话以及控制机器人的对话。但是,由于与环境相互作用的高成本和危险,RL仍然存在广泛的域。离线RL是一种范式,它仅从先前收集的交互的静态数据集中学习,这使得从大型多样的培训数据集中提取策略是可行的 ...

0 0 0 0 2025/06/05 arXiv:2203.01387v3 zengyanxiang

离线增强学习(RL)旨在从一批收集的数据中学习一项良好的政策,而在培训期间与环境没有额外的互动。但是,当前的离线RL基准通常具有较大的现实差距,因为它们涉及由高度探索性政策收集的大型数据集,并且在环境中直接评估了训练有素的政策。在现实情况下,禁止运行高度探索性政策以确保系统安全,数据通常非常有限,并且在部署前应对经过培训的政策进行良好的验证 ...

0 0 0 0 2025/05/30 arXiv:2102.00714v2 zengyanxiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)