一译 —— 文档和论文翻译、对照阅读、讨论和社区

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

离线强化学习（RL）旨在使用预先收集的数据集找到接近最优的策略。在现实场景中，数据收集可能成本高昂且存在风险；因此，当域内数据有限时，离线强化学习变得特别具有挑战性。鉴于大型语言模型 (LLM) 的最新进展及其小样本学习能力，本文介绍了用于 $\textbf{Mo}$tion 控制的 $\textbf{La}$nguage 模型 ($\textbf{LaMo}$)，基于决策转换器的通用框架，可有效 ...

0 0 0 2025/07/01 arXiv:2310.20587v5 zengyanxiang

Budget Constrained Bidding by Model-free Reinforcement Learning in Display Advertising

实时投标（RTB）是在线展示广告中的重要机制，在此广告中，每个页面视图的适当竞标在良好的营销结果中起着至关重要的作用。预算限制的投标是RTB中的典型情况，广告商希望在预设预算限制下最大化获胜印象的总价值。但是，由于拍卖环境的复杂性和波动性，很难得出最佳的招标策略 ...

0 0 0 2025/07/01 arXiv:1802.08365v6 naristlia

Benchmarking for Deep Uplift Modeling in Online Marketing

在线营销对于许多工业平台和业务应用程序至关重要，旨在通过确定相应的交付敏感群体（例如优惠券和奖金）来增加用户参与度和平台收入。随着工业场景中特征的规模和复杂性的增加，作为有前途的技术，深层的隆升建模（DUM）吸引了学术界和行业的越来越多的研究，从而产生了各种预测模型。但是，目前的DUM仍然缺乏一些标准化的基准和统一的评估方案，这限制了实验结果在现有研究中的可重复性以及在这个方向上的实际价值和潜在影 ...

0 1 0 2025/07/01 arXiv:2406.00335v1 zhr

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

（（1）（1）（1），（2）（2）（2）超球面上（归一化），对比损失渐近地优化了这些属性，对比损失渐近地优化了这些属性，并分析了它们对下游任务的积极影响... ...

0 0 0 2025/07/01 arXiv:2005.10242v10 Jasper

ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model

在现实的情况下，人们重新识别（REID）希望通过描述性查询来识别利益，而不管查询是单一模态还是多种方式的组合。但是，现有的方法和数据集仍被限制在有限的方式上，无法满足此要求。因此，我们研究了一个称为Omni多模式人重新识别（OM-REID）的新的挑战性问题，该问题旨在通过不同的多模式查询实现有效检索 ...

0 0 0 2025/07/01 arXiv:2506.09385v1 lllianghe

MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models

多模式的大型语言模型（MLLM）在自然图像，文本丰富的文档和图形设计中已经实现了出色的视觉推理能力。但是，他们解释音乐表的能力仍然没有得到充实的态度。为了弥合这一差距，我们介绍了Musixqa，这是第一个用于评估和推进音乐表理解中MLLM的综合数据集 ...

0 1 0 2025/07/01 arXiv:2506.23009v1 Heart

Uncertainty Quantification over Graph with Conformalized Graph Neural Networks

图形神经网络（GNN）是图形结构数据上强大的机器学习预测模型。但是，GNN缺乏严格的不确定性估计，限制了其在错误成本很大的设置中的可靠部署。我们提出了保融的GNN（CF-GNN），将共形预测（CP）扩展到基于图的模型，以保证不确定性估计 ...

0 1 0 2025/07/01 arXiv:2305.14535v2 xixiaixixi

KAG-Thinker: Interactive Thinking and Deep Reasoning in LLMs via Knowledge-Augmented Generation

在本文中，我们介绍了Kag-Thinker，这是一种基于参数轻型语言模型（LLM）的新型人类般的推理框架。我们的方法增强了在LLMS中特定于领域的知识基础（KBS）上提问的思维过程（Q \＆A）任务的逻辑连贯性和上下文一致性。该框架通过建立结构化思维过程来模拟人类的认知机制来处理复杂问题 ...

0 0 0 2025/07/01 arXiv:2506.17728v3 keve

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）