离线强化学习(RL)旨在使用预先收集的数据集找到接近最优的策略。在现实场景中,数据收集可能成本高昂且存在风险;因此,当域内数据有限时,离线强化学习变得特别具有挑战性。鉴于大型语言模型 (LLM) 的最新进展及其小样本学习能力,本文介绍了用于 $\textbf{Mo}$tion 控制的 $\textbf{La}$nguage 模型 ($\textbf{LaMo}$),基于决策转换器的通用框架,可有效 ...
实时投标(RTB)是在线展示广告中的重要机制,在此广告中,每个页面视图的适当竞标在良好的营销结果中起着至关重要的作用。预算限制的投标是RTB中的典型情况,广告商希望在预设预算限制下最大化获胜印象的总价值。但是,由于拍卖环境的复杂性和波动性,很难得出最佳的招标策略 ...
在线营销对于许多工业平台和业务应用程序至关重要,旨在通过确定相应的交付敏感群体(例如优惠券和奖金)来增加用户参与度和平台收入。随着工业场景中特征的规模和复杂性的增加,作为有前途的技术,深层的隆升建模(DUM)吸引了学术界和行业的越来越多的研究,从而产生了各种预测模型。但是,目前的DUM仍然缺乏一些标准化的基准和统一的评估方案,这限制了实验结果在现有研究中的可重复性以及在这个方向上的实际价值和潜在影 ...
((1)(1)(1),(2)(2)(2)超球面上(归一化),对比损失渐近地优化了这些属性,对比损失渐近地优化了这些属性,并分析了它们对下游任务的积极影响... ...
在现实的情况下,人们重新识别(REID)希望通过描述性查询来识别利益,而不管查询是单一模态还是多种方式的组合。但是,现有的方法和数据集仍被限制在有限的方式上,无法满足此要求。因此,我们研究了一个称为Omni多模式人重新识别(OM-REID)的新的挑战性问题,该问题旨在通过不同的多模式查询实现有效检索 ...
多模式的大型语言模型(MLLM)在自然图像,文本丰富的文档和图形设计中已经实现了出色的视觉推理能力。但是,他们解释音乐表的能力仍然没有得到充实的态度。为了弥合这一差距,我们介绍了Musixqa,这是第一个用于评估和推进音乐表理解中MLLM的综合数据集 ...
图形神经网络(GNN)是图形结构数据上强大的机器学习预测模型。但是,GNN缺乏严格的不确定性估计,限制了其在错误成本很大的设置中的可靠部署。我们提出了保融的GNN(CF-GNN),将共形预测(CP)扩展到基于图的模型,以保证不确定性估计 ...
在本文中,我们介绍了Kag-Thinker,这是一种基于参数轻型语言模型(LLM)的新型人类般的推理框架。我们的方法增强了在LLMS中特定于领域的知识基础(KBS)上提问的思维过程(Q \&A)任务的逻辑连贯性和上下文一致性。该框架通过建立结构化思维过程来模拟人类的认知机制来处理复杂问题 ...