出价阴影在实时竞标〜(RTB)中起着至关重要的作用,通过自适应调整出价以避免广告商超支。现有的主流两阶段方法,该方法首先模型出价景观,然后使用操作研究技术优化盈余,受到单型假设的约束,这些假设未能适应非连接剩余曲线,并且在顺序工作流程中很容易受到级联错误的影响。此外,连续值的现有离散模型忽略离散间隔之间的依赖性,降低了模型的误差校正能力,而竞标情景中的样本选择偏见给预测带来了进一步的挑战 ...

0 0 0 0 2026/03/16 arXiv:2508.06550v2 yinyihu

大型语言模型(LLM)越来越多地用于处理具有共享 Token 前缀的树结构中的多次生成调用的复杂任务,包括少样本提示、多步推理、推测性解码等。然而,由于在注意力计算期间查询和 KV 缓存的分区不正确,现有的基于树的应用程序的推理系统效率低下。这会导致两个主要问题:(1)共享前缀的 KV 缓存缺乏内存访问(IO)重用,以及(2)导致该 http URL 加载不佳,GPU 全局内存和共享内存之间存在冗余的 KV 缓存 IO,并且 GPU 利用率较低。为了解决这些挑战,我们提出了 DeFT(使用 Flash Tree-Attention 进行解码),这是一种具有前缀感知和负载平衡 KV 缓存分区的硬件高效注意算法。 DeFT通过KV-Guided Grouping减少了注意力计算时KV缓存的读写操作次数,这种方法避免了注意力计算时重复加载共享前缀的KV缓存。此外,我们提出了 Flattened Tree KV Splitting,这是一种确保 KV 缓存在分区之间均匀分布且计算冗余很少的机制,从而提高注意力计算期间的 GPU 利用率。通过在注意力计算期间减少 73-99 KV 缓存 IO 和近 100 个部分结果 IO,与最先进的注意力算法相比,DeFT 在三个基于树的实际工作负载中的端到端/注意力延迟实现了高达 2.52/3.82 倍的加速 ...

0 0 0 0 2026/03/16 arXiv:2404.00242v4 qingshenshangshen

随着人工智能向通用智能方向发展,重点正从针对静态任务优化的系统转向创建持续学习的开放式代理。在本文中,我们介绍了体验驱动的终身学习(ELL),这是一个构建能够通过现实世界交互持续成长的自我进化代理的框架。该框架建立在四个核心原则之上:(1)体验探索:智能体通过与动态环境的持续、自我激励的交互来学习,导航相互依赖的任务并生成丰富的体验轨迹。 (2) 长期记忆:智能体将历史知识(包括个人经验、领域专业知识和常识推理)保存和构建到持久记忆系统中。 (3)技能学习:智能体通过将经验中的重复模式抽象为可重用的技能来自主改进,这些技能被积极地细化和验证以应用于新任务。 (4)知识内化:智能体将显性和离散的经验内化为隐性和直观的能力,作为“第二天性”。我们还推出了 StuLife,这是 ELL 的基准数据集,它模拟学生的整体大学旅程,从入学到学术和个人发展,跨越三个核心阶段和十个详细的子场景。 StuLife 围绕三个关键范例进行设计 ...

0 0 0 0 2026/03/16 arXiv:2508.19005v6 十门山几

与传统的无监督聚类不同,半监督聚类允许用户为数据提供有意义的结构,这有助于聚类算法匹配用户的意图。现有的半监督聚类方法需要专家提供大量反馈来改进聚类。在本文中,我们询问大型语言模型是否可以放大专家的指导,以实现查询高效、少镜头的半监督文本聚类。我们证明 LLM 在改善聚类方面出人意料地有效。我们探索了 LLM 可以合并到聚类中的三个阶段:聚类之前(改进输入特征)、聚类期间(通过向聚类器提供约束)和聚类之后(使用 LLM 后校正)。我们发现在前两个阶段合并 LLM 通常可以显着提高集群质量,并且 LLM 使用户能够在成本和准确性之间进行权衡,以生成所需的集群。我们发布我们的代码和LLM提示供公众使用 ...

0 0 0 0 2026/03/16 arXiv:2307.00524v1 Aurora111

当前人工智能代理的一个根本限制是它们无法在测试时动态学习复杂的技能,在新环境中通常表现得像“聪明但无能的实习生”。这严重限制了它们的实际用途。为了系统地衡量和推动这一挑战的进展,我们首先引入 Jericho Test-Time Learning (J-TTL) 基准。 J-TTL 是一种新的评估设置,其中代理必须连续几个回合玩同一游戏,试图从一个回合到下一个回合提高其性能。在 J-TTL 上,我们发现现有的适应方法(例如反射、记忆或强化学习)很困难。为了解决我们的基准测试带来的挑战,我们提出了 EvoTest,这是一种进化的测试时学习框架,它可以在没有任何微调或梯度的情况下改进代理 - 通过在每个情节后进化整个代理系统。 EvoTest 有两个角色:Actor Agent(玩游戏)和 Evolver Agent(分析剧集记录,为下一次运行提出修改后的配置)。此配置重写提示,通过记录有效的状态操作选择来更新内存,调整超参数,并学习工具使用例程。在我们的 J-TTL 基准测试中,EvoTest 不断提高性能,不仅优于反射和仅内存基线,而且还优于更复杂的在线微调方法。值得注意的是,我们的方法是唯一能够赢得两场比赛(《侦探》和《图书馆》)的方法,而所有基线都未能赢得任何比赛 ...

0 0 0 0 2026/03/16 arXiv:2510.13220v1 十门山几

点击率(CTR)预测是各种个性化在线服务的核心功能模块。用于 CTR 预测的传统基于 ID 的模型将表格模态的 one-hot 编码 ID 特征作为输入,通过特征交互建模捕获协作信号。但one-hot编码丢弃了文本特征中包含的语义信息。近年来,预训练语言模型(PLM)的出现催生了另一种范式,即以硬提示模板获得的文本模态句子为输入,采用PLM提取语义知识。然而,PLM 在捕获现场协作信号和区分具有细微文本差异的特征方面经常面临挑战。在本文中,为了利用这两种范式的优点并同时克服它们的局限性,我们建议在基于 ID 的模型和预训练语言模型(FLIP)之间进行细粒度的特征级对齐以进行 CTR 预测。与大多数通过实例级对比学习仅仅依赖全局视图的方法不同,我们设计了一种新颖的联合屏蔽表格/语言建模任务来学习表格 ID 和单词标记之间的细粒度对齐。具体来说,一种模态(ID 和 Token )的屏蔽数据必须在另一种模态的帮助下恢复,另一种模态通过双模态之间充分的相互信息提取来建立特征级交互和对齐。此外,我们建议通过自适应地组合两个模型的输出来联合微调基于 ID 的模型和 PLM,从而在下游 CTR 预测任务中实现卓越的性能。对三个真实世界数据集的大量实验表明,FLIP 的性能优于 SOTA 基线,并且与各种基于 ID 的模型和 PLM 高度兼容。代码位于 \url{此 https URL} ...

0 0 0 0 2026/03/16 arXiv:2310.19453v4 RrsTang

大语言模型(LLM)的进步促进了从代码生成辅助到自主编码代理的范式转变,从而实现了一种称为“Vibe Coding”的新颖开发方法,开发人员通过结果观察而不是逐行代码理解来验证人工智能生成的实现。尽管具有变革潜力,但这种新兴范式的有效性仍未得到充分探索,经验证据揭示了人类与人工智能协作中意想不到的生产力损失和根本挑战。为了弥补这一差距,本次调查首次对大型语言模型的 Vibe 编码进行了全面、系统的回顾,为这种变革性的开发方法建立了理论基础和实践框架 ...

0 0 0 0 2026/03/16 arXiv:2510.12399v2 yeha

随着扩展模型和数据大小表现出强大的性能,行为克隆已经重新兴起。在这项工作中,我们介绍了一种用于训练视频游戏基础模型的开放方法,该模型专为在消费级 GPU 上进行实时推理而设计。我们在开放许可下发布所有数据(8300 多个小时的高质量人类游戏)、训练和推理代码以及预训练的检查点。根据经验,我们表明我们的最佳模型在各种 3D 游戏中实现了与人类玩家竞争的性能。我们使用这个方法来研究行为克隆的尺度法则,重点是因果推理。在受控玩具环境中,我们首先证明增加训练数据和网络深度可以使模型学习更具因果性的策略。然后,我们大规模验证这些发现,分析多达 12 亿个参数的模型。我们观察到,随着模型大小和训练步骤的增加,玩具领域中的因果改进仍然成立 ...

0 0 0 0 2026/03/16 arXiv:2601.04575v2 liuyibo

我们引入了 Step 3.5 Flash,这是一种稀疏专家混合 (MoE) 模型,可连接前沿级代理智能和计算效率。在构建代理时,我们关注最重要的事情:敏锐的推理和快速、可靠的执行。步骤 3.5 Flash 将 196B 参数基础与 11B 活动参数配对,以实现高效推理。它通过交错 3:1 滑动窗口/全注意力和多 Token 预测 (MTP-3) 进行优化,以减少多轮代理交互的延迟和成本。为了达到前沿水平的智能,我们设计了一个可扩展的强化学习框架,该框架将可验证的信号与偏好反馈相结合,同时在大规模离策略训练下保持稳定,从而实现数学、代码和工具使用方面的一致自我改进。 Step 3.5 Flash 在智能体、编码和数学任务上表现出了强大的性能,在 IMO-AnswerBench 上实现了 85.4%,在 LiveCodeBench-v6 (2024.08-2025.05) 上实现了 86.4%,在 tau2-Bench 上实现了 88.2%,在 BrowseComp(具有上下文管理)上实现了 69.0%,在 Terminal-Bench 2.0 上实现了 51.0%,与前沿型号,如 GPT-5.2 xHigh 和 Gemini 3.0 Pro。通过重新定义效率边界,Step 3.5 Flash 为在现实工业环境中部署复杂的代理提供了高密度基础 ...

0 0 0 0 2026/03/16 arXiv:2602.10604v2 manlinghun

通过单视图 RGB 卫星图像进行准确的建筑分割和高度估计是城市分析的基础,但由于结构可变性和全局上下文建模的高计算成本,仍然不适用。虽然当前的方法通常采用单目深度架构,但它们经常遭受边界出血和高层结构系统性低估的问题。为了解决这些限制,我们提出了 BuildMamba,这是一个统一的多任务框架,旨在利用视觉状态空间模型的线性时间全局建模。出于对更强的结构耦合和计算效率的需求,我们引入了三个模块:用于动态空间重新校准的 Mamba Attention 模块、通过门控状态空间扫描进行多尺度特征聚合的空间感知 Mamba-FPN,以及使用语义先验来抑制高度伪影的掩模感知高度细化模块。大量实验表明,BuildMamba 在三个基准测试中建立了新的性能上限。具体来说,它在 DFC23 基准上实现了 0.93 的 IoU 和 1.77~m 的 RMSE,在高度估计方面超过了最先进的技术 0.82~m。仿真结果证实了该模型对于大规模 3D 城市重建具有卓越的鲁棒性和可扩展性 ...

0 0 0 0 2026/03/16 arXiv:2603.08523v1 zhifeiji