户外旅行建议旨在为从家乡到以前未访问的区域的用户生成一系列兴趣点(POI),例如原始,目的地和旅行持续时间 ...
0 0 0 2025/06/27 arXiv:2506.01705v2 wenzheng
离线强化学习(RL)是现实世界推荐系统的有效工具,能够模拟用户的动态兴趣及其交互性质。大多数现有的离线强化学习推荐系统都专注于基于模型的强化学习,通过从离线数据中学习世界模型并通过与该模型交互来构建推荐策略。尽管这些方法在推荐性能方面取得了进步,但基于模型的离线强化学习方法的有效性常常受到奖励模型估计的准确性和模型不确定性的限制,这主要是由于离线记录的数据与真实数据之间的极大差异。 -用户与在线平 ...
0 0 0 2025/06/27 arXiv:2407.13163v2 wenzheng
大型语言模型(LLMS)在处理通用任务方面表现出色,但它们在特定于用户的个性化方面挣扎,例如了解个人情绪,写作风格和偏好。个性化的大型语言模型(PLLMS)通过利用单个用户数据,例如用户资料,历史对话,内容和交互来应对这些挑战,以提供与上下文相关的响应,并根据每个用户的特定需求量身定制。这是一个非常有价值的研究主题,因为PLLM可以显着提高用户满意度,并在对话代理,推荐系统,情感识别,医疗助理等中 ...
0 0 0 2025/06/26 arXiv:2502.11528v1 15033586023
从人类示威中学到的机器人控制政策在许多现实世界中都取得了令人印象深刻的结果。但是,在最初表现不满意的情况下,就像新型的开放世界环境一样,这种行为克隆(BC)策略通常需要收集其他人类示范以进一步改善其行为 - 这是一个昂贵且耗时的过程。相比之下,增强学习(RL)具有实现自动在线政策改进的希望,但由于通常需要的样本数量大量,通常无法实现这一目标 ...
0 0 0 2025/06/26 arXiv:2506.15799v1 晚餐杀手
在电子商务广告中,至关重要的是共同考虑各种性能指标,例如用户体验,广告商实用程序和平台收入 ...
0 0 0 2025/06/26 arXiv:2106.03593v2 zengyanxiang
在本文中,我们提出了一种新颖的左推导引导(LPG)范式,以解决各种基于参考的视力任务。受到人类创造过程的启发,我们使用左右缝制配方重新制定了这些任务,以构建上下文输入。在这个基础的基础上,我们提出了AnyRefill(Leftrefill的扩展),从而有效地将文本对图像(T2I)模型适应了各种视觉任务 ...
0 0 0 2025/06/26 arXiv:2502.11158v2 hx5563
视觉上下文学习(VICL)是一种流行的方式,通过利用包含在上下文中的示例中的上下文信息来增强查询样本的学习和预测,将视觉基础模型转移到新任务。 VICL中的基本问题是如何选择最佳提示以尽可能地激活其功率,这等同于排名问题,以测试替代集合中每个候选人的秘密行为并选择最佳的候选人。为了利用更合适的排名指标并利用替代集合中的更全面的信息,我们提出了一个新颖的文本示例选择框架,以大致识别全局最佳提示 .. ...
0 0 0 2025/06/26 arXiv:2405.15279v2 hx5563
将大型语言模型(LLM)集成到自主代理中标志着研究领域的重大转变,提供了与人类计划和推理相媲美的认知能力。本文设想了基于 LLM 的多代理 (LMA) 系统在解决复杂且多方面的软件工程挑战方面的发展。 LMA 系统带来了许多好处,包括通过协作交叉检查增强稳健性、自主解决问题以及针对复杂软件项目的可扩展解决方案 ...
0 0 0 2025/06/26 arXiv:2404.04834v3 1150501302

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)