arxiv的文档

arxiv 南京

个性签名 ...

ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

自我注意力是大语言模型（LLM）的重要组成部分，但是长序列的重要推理潜伏期。在多租户LLM服务方案中，可以通过使用多个LLM请求在前缀中具有共享系统提示的概率来优化自我注意力的计算和内存操作成本。在本文中，我们介绍了bunkattention，这是一种前缀感知的自我发项模块，可以检测到多个请求的匹配及时前缀，并在运行时共享其密钥/值张量，以改善KV CACHE的内存利用率 ...

0 0 0 0 2025/07/01 arXiv:2402.15220v4 DrowXG

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

离线强化学习（RL）旨在使用预先收集的数据集找到接近最优的策略。在现实场景中，数据收集可能成本高昂且存在风险；因此，当域内数据有限时，离线强化学习变得特别具有挑战性。鉴于大型语言模型 (LLM) 的最新进展及其小样本学习能力，本文介绍了用于 $\textbf{Mo}$tion 控制的 $\textbf{La}$nguage 模型 ($\textbf{LaMo}$)，基于决策转换器的通用框架，可有效使用预训练语言模型 (LM) 进行离线强化学习 ...

0 0 0 0 2025/07/01 arXiv:2310.20587v5 zengyanxiang

Budget Constrained Bidding by Model-free Reinforcement Learning in Display Advertising

实时投标（RTB）是在线展示广告中的重要机制，在此广告中，每个页面视图的适当竞标在良好的营销结果中起着至关重要的作用。预算限制的投标是RTB中的典型情况，广告商希望在预设预算限制下最大化获胜印象的总价值。但是，由于拍卖环境的复杂性和波动性，很难得出最佳的招标策略 ...

0 0 0 0 2025/07/01 arXiv:1802.08365v6 naristlia

Benchmarking for Deep Uplift Modeling in Online Marketing

在线营销对于许多工业平台和业务应用程序至关重要，旨在通过确定相应的交付敏感群体（例如优惠券和奖金）来增加用户参与度和平台收入。随着工业场景中特征的规模和复杂性的增加，作为有前途的技术，深层的隆升建模（DUM）吸引了学术界和行业的越来越多的研究，从而产生了各种预测模型。但是，目前的DUM仍然缺乏一些标准化的基准和统一的评估方案，这限制了实验结果在现有研究中的可重复性以及在这个方向上的实际价值和潜在影响 ...

0 1 0 0 2025/07/01 arXiv:2406.00335v1 zhr

ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model

在现实的情况下，人们重新识别（REID）希望通过描述性查询来识别利益，而不管查询是单一模态还是多种方式的组合。但是，现有的方法和数据集仍被限制在有限的方式上，无法满足此要求。因此，我们研究了一个称为Omni多模式人重新识别（OM-REID）的新的挑战性问题，该问题旨在通过不同的多模式查询实现有效检索 ...

0 0 0 0 2025/07/01 arXiv:2506.09385v1 lllianghe

MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models

多模式的大型语言模型（MLLM）在自然图像，文本丰富的文档和图形设计中已经实现了出色的视觉推理能力。但是，他们解释音乐表的能力仍然没有得到充实的态度。为了弥合这一差距，我们介绍了Musixqa，这是第一个用于评估和推进音乐表理解中MLLM的综合数据集 ...

0 1 0 0 2025/07/01 arXiv:2506.23009v1 Heart

Uncertainty Quantification over Graph with Conformalized Graph Neural Networks

图形神经网络（GNN）是图形结构数据上强大的机器学习预测模型。但是，GNN缺乏严格的不确定性估计，限制了其在错误成本很大的设置中的可靠部署。我们提出了保融的GNN（CF-GNN），将共形预测（CP）扩展到基于图的模型，以保证不确定性估计 ...

0 1 0 0 2025/07/01 arXiv:2305.14535v2 xixiaixixi

KAG-Thinker: Interactive Thinking and Deep Reasoning in LLMs via Knowledge-Augmented Generation

在本文中，我们介绍了Kag-Thinker，这是一种基于参数轻型语言模型（LLM）的新型人类般的推理框架。我们的方法增强了在LLMS中特定于领域的知识基础（KBS）上提问的思维过程（Q \＆A）任务的逻辑连贯性和上下文一致性。该框架通过建立结构化思维过程来模拟人类的认知机制来处理复杂问题 ...

0 0 0 0 2025/07/01 arXiv:2506.17728v3 keve

Mercury: Ultra-Fast Language Models Based on Diffusion

我们提出了基于扩散的新一代商业规模的大语言模型（LLM）。这些模型通过 Transformer 体系结构进行了参数化，并经过训练以并联预测多个 Token 。在本报告中，我们详细介绍了水星编码器，这是我们为编码应用程序设计的第一组扩散LLM ...

0 0 0 0 2025/07/01 arXiv:2506.17298v1 odenkkk

Enhancing Uplift Modeling in Multi-Treatment Marketing Campaigns: Leveraging Score Ranking and Calibration Techniques

提升建模对于通过选择可能对特定营销活动做出积极反应的个人来优化营销策略至关重要。这种重要性在多处处理营销活动中升级，可以使用多种处理，我们可能希望将客户分配给可以带来最大影响的治疗。尽管有其他方便框架等现有方法，例如Causalml，但仍有潜在的空间来增强在多处理案例中隆起建模的效果 ...

0 0 0 0 2025/07/01 arXiv:2408.13628v2 zhr