随着对长上下文大语言模型 (LLM) 的需求增加,上下文窗口高达 128K 或 1M 标记的模型变得越来越普遍。然而,长上下文 LLM 推理具有挑战性,因为推理速度随着序列长度的增长而显着降低。这种减慢主要是由于在 self-attention 期间加载大量 KV 缓存造成的。之前的研究表明,一小部分关键 Token 将主导注意力结果。然而,我们观察到 Token 的重要性很大程度上取决于查询。为此,我们提出了 Quest,一种查询感知的 KV 缓存选择算法。 Quest 跟踪 KV 缓存页面中的最小和最大 Key 值,并使用查询向量估计给定页面的关键性。通过仅加载 Top-K 关键 KV 缓存页面来进行关注,Quest 显着加快了自关注速度,同时又不牺牲准确性。我们表明,Quest 可以实现高达 2.23 倍的自注意力加速,从而将推理延迟减少 7.03 倍,同时在具有长依赖性的任务上表现良好,并且精度损失可以忽略不计。代码可从此 http URL 获取 ...

0 0 0 0 2026/03/17 arXiv:2406.10774v2 Daenerays

大规模网络爬取数据集包含噪声、偏差和不相关信息,需要数据选择技术。现有方法依赖于手工设计的启发式方法、下游数据集,或者需要昂贵的基于影响的计算——所有这些都限制了可扩展性并引入了不需要的数据依赖性。为了解决这个问题,我们引入了模仿分数,这是一种简单的基于几何的数据质量指标,通过测量样本梯度与预训练参考模型引起的目标方向之间的对齐来评估效用。这利用了现成的模型权重,避免了需要验证数据集,并产生最小的计算开销。在此指标的基础上,我们提出了 Grad-Mimic,这是一个两阶段框架,可以在线重新加权样本以加速训练,并离线聚合样本实用程序以构建有效的数据过滤器。根据经验,我们表明,使用模拟分数来指导训练可以提高数据效率,加速收敛,在六个图像数据集上获得一致的性能增益,并以减少 20.7% 的训练步骤增强 CLIP 模型。此外,基于模拟分数的过滤器增强了现有的过滤技术,从而能够使用减少 470 万个样本来训练改进的 CLIP 模型 ...

0 0 0 0 2026/03/17 arXiv:2501.06708v4 大红豆

3D 资产插入和新颖视图合成 (NVS) 是自动驾驶模拟的关键组成部分,可增强训练数据的多样性。有了更好的多样化、涵盖多种情况(包括长尾驾驶场景)的训练数据,自动驾驶模型可以变得更加稳健和安全。这催生了一个统一的模拟框架,可以共同处理插入的 3D 资产和 NVS 的实际集成。最近的 3D 资产重建方法可以从视频中重建动态演员,支持将其重新插入到模拟驾驶场景中。虽然整体结构和外观可能是准确的,但它仍然难以通过灯光或阴影捕捉 3D 资产的真实感,特别是在插入场景时。与此同时,NVS 方法的最新进展在综合超出原始记录轨迹的观点方面取得了有希望的结果。然而,现有方法在很大程度上孤立地对待资产插入和 NVS 功能。为了允许与场景的其余部分进行交互并能够创建更多样化的新训练场景,真实的 3D 资产插入应与 NVS 相结合。为了解决这个问题,我们推出了 SCPainter(Street Car Painter),这是一个统一的框架,它将 3D Gaussian Splat (GS) 汽车资产表示和 3D 场景点云与基于扩散的生成集成在一起,共同实现真实的 3D 资产插入和 NVS。 3D GS 资产和 3D 场景点云一起投影成新颖的视图,这些投影用于调节扩散模型以生成高质量图像。对 Waymo 开放数据集的评估证明了我们的框架能够实现 3D 资产插入和 NVS,从而促进创建多样化且真实的驾驶数据 ...

0 0 0 0 2026/03/17 arXiv:2512.22706v1 GUN

驾驶世界模型的最新进展使得能够可控地生成高质量 RGB 视频或多模态视频。现有方法主要关注与发电质量和可控性相关的指标。然而,他们经常忽视下游感知任务的评估,这对于自动驾驶的性能来说是$\mathbf{真正\至关重要}$。现有方法通常利用一种训练策略,首先对合成数据进行预训练,然后对真实数据进行微调,与基线(仅真实数据)相比,周期数是基线的两倍。当我们将基线的纪元加倍时,合成数据的好处就变得可以忽略不计。为了彻底展示合成数据的好处,我们引入了 Dream4Drive,这是一种新颖的合成数据生成框架,旨在增强下游感知任务。 Dream4Drive 首先将输入视频分解为多个 3D 感知引导图,然后将 3D 资源渲染到这些引导图上。最后,对驾驶世界模型进行微调以生成编辑后的多视图真实感视频,该视频可用于训练下游感知模型。 Dream4Drive 在大规模生成多视图极端情况方面提供了前所未有的灵活性,显着提高了自动驾驶中的极端情况感知。为了方便未来的研究,我们还贡献了一个名为DriveObj3D的大规模3D资产数据集,涵盖了驾驶场景中的典型类别,并支持多样化的3D感知视频编辑。我们进行了全面的实验,表明 Dream4Drive 可以有效提升下游感知模型在各种训练时期的性能。页面:此 https URL GitHub 链接:此 https URL ...

0 0 0 0 2026/03/17 arXiv:2510.19195v4 GUN

从单一的大型语言模型 (LLM) 到模块化的、配备技能的代理的转变代表了人工智能部署中的根本性架构转变。虽然通用模型在声明性知识方面表现出惊人的广度,但它们在自主工作流程中的实用性经常受到专业程序专业知识不足的限制。本报告研究了一个通过挖掘 GitHub 等平台上的开源存储库来自动获取高质量代理技能的系统框架。我们专注于从最先进的系统中提取可视化和教育功能,包括 TheoremExplainAgent 和 Code2Video,两者都利用 Manim 数学动画引擎。该框架包括存储库结构分析、通过密集检索进行语义技能识别以及转换为标准化的 http URL 格式。我们证明,从代理存储库中进行系统提取,结合严格的安全治理和多​​维评估指标,可以实现程序知识的可扩展获取,从而增强 LLM 的能力,而无需模型重新训练。我们的分析表明,代理生成的教育内容可以将知识转移效率提高 40%,同时保持与人工制作的教程相当的教学质量 ...

0 0 0 0 2026/03/17 arXiv:2603.11808v1 Suvigo

虽然检索增强生成 (RAG) 方法通常从非结构化文档中提取信息,但 GraphRAG 的新兴范例旨在利用知识图等结构化数据。大多数现有的 GraphRAG 工作都集中在资源描述框架 (RDF) 知识图上,依赖于三元组表示和 SPARQL 查询。然而,在当前的研究文献中,Cypher 和标签属性图 (LPG) 数据库作为 GraphRAG 管道中可扩展且有效的推理引擎的潜力仍未得到充分探索。为了填补这一空白,我们提出了 Multi-Agent GraphRAG,这是一种模块化的 LLM 代理系统,用于生成文本到 Cypher 查询,作为基于 LPG 的图形数据的自然语言接口。我们的概念验证系统采用基于 LLM 的工作流程,用于自动生成和执行 Cypher 查询,并使用 Memgraph 作为图形数据库后端。迭代的内容感知纠正和规范化,通过聚合反馈循环加强,确保生成的查询的语义和句法细化。我们在 CypherBench 图数据集上评估我们的系统,该数据集涵盖具有不同类型查询的几个通用领域。此外,我们还在从 IFC(工业基础类)数据派生的属性图上展示了所提出的工作流程的性能,代表了建筑物的数字孪生。这凸显了这种方法如何大规模地将人工智能与现实世界的应用程序联系起来,从而实现工业数字自动化用例 ...

0 0 0 0 2026/03/17 arXiv:2511.08274v1 Suvigo

人工智能生成图像的恶意滥用和广泛传播对在线信息的真实性构成重大威胁。当前的检测方法通常很难推广到看不见的生成模型,而生成技术的快速发展不断加剧了这一挑战。如果没有适应性,检测模型就有可能在现实应用中变得无效。为了解决这个关键问题,我们提出了一种新颖的三阶段领域持续学习框架,旨在持续适应不断发展的生成模型。在第一阶段,我们采用策略性参数高效微调方法来开发具有强大泛化能力的可转移离线检测模型。在此基础上,第二阶段将看不见的数据流集成到持续学习过程中。为了有效地从新颖生成模型的有限样本中学习并减轻过度拟合,我们设计了一个复杂性逐渐增加的数据增强链。此外,我们利用克罗内克因子近似曲率 (K-FAC) 方法来逼近 Hessian 矩阵并减轻灾难性遗忘。最后,第三阶段采用基于线性模式连接的线性插值策略,有效捕获不同生成模型的共性,进一步提高整体性能。我们建立了 27 个生成模型的综合基准,包括 GAN、深度伪造和扩散模型,按时间顺序排列,截至 2024 年 8 月,以模拟现实世界的场景。大量实验表明,我们最初的离线检测器在平均精度方面超出了领先基线 +5.51%。我们的持续学习策略平均准确率达到 92.20%,优于最先进的方法 ...

0 0 0 0 2026/03/17 arXiv:2601.05580v1 ranking666

视觉-语言-动作(VLA)模型已成为机器人学习的一种有前途的范例,但它们的表示仍然很大程度上继承自静态图像文本预训练,使得物理动力学只能从相对有限的动作数据中学习。相比之下,生成视频模型编码丰富的时空结构和隐式物理,使它们成为机器人操纵的引人注目的基础。但文献中并未充分探讨它们的潜力。为了弥补这一差距,我们引入了 DiT4DiT,这是一种端到端视频动作模型,它将视频扩散 Transformer 与动作扩散 Transformer 耦合在统一的级联框架中。 DiT4DiT 不依赖于重建的未来帧,而是从视频生成过程中提取中间去噪特征,并将它们用作动作预测的时间基础条件。我们进一步提出了一种双流匹配目标,具有解耦的时间步长和噪声尺度,用于视频预测、隐藏状态提取和动作推理,从而实现两个模块的连贯联合训练。在模拟和现实世界基准测试中,DiT4DiT 取得了最先进的结果,在 LIBERO 上达到 98.6% 的平均成功率,在 RoboCasa GR1 上达到 50.8% 的平均成功率,同时使用的训练数据却少得多。在 Unitree G1 机器人上,它还提供了卓越的现实世界性能和强大的零样本泛化能力。重要的是,DiT4DiT 将样本效率提高了 10 倍以上,并将收敛速度提高了 7 倍,这表明视频生成可以作为机器人策略学习的有效扩展代理。我们在此 https URL 发布代码和模型 ...

0 0 0 0 2026/03/17 arXiv:2603.10448v1 13718039169

直播在现代视觉通信中变得越来越普遍,其中自动摄像机质量调整对于提供卓越的用户体验质量 (QoE) 至关重要。这种调整需要准确的盲图像质量评估(BIQA)来指导参数优化决策。不幸的是,现有的 BIQA 模型通常只能预测总体粗粒度的质量分数,无法为精确的相机参数调整提供细粒度的感知指导。为了弥补这一差距,我们首先建立了 FGLive-10K,这是一个全面的细粒度 BIQA 数据库,其中包含在不同直播场景的不同相机参数配置下捕获的 10,185 张高分辨率图像。该数据集具有 50,925 个多属性质量注释和 19,234 个细粒度成对偏好注释。基于FGLive-10K,我们进一步开发了TuningIQA,一种用于直播摄像机调整的细粒度BIQA指标,它集成了人类感知特征提取和基于图的摄像机参数融合。大量的实验和比较表明,TuningIQA 在分数回归和细粒度质量排名方面都显着优于最先进的 BIQA 方法,在部署用于直播摄像机调整时实现了卓越的性能 ...

0 0 0 0 2026/03/17 arXiv:2508.17965v1 rich_eggs

长序列决策通常通过强化学习(RL)来解决,是优化动态环境中战略运营的关键组成部分,例如计算广告中的实时竞价。决策变换器 (DT) 通过将强化学习构建为自回归序列建模问题,引入了强大的范式。同时,大型语言模型(LLM)在复杂的推理和规划任务中取得了显着的成功。这启发了我们,共享相同 Transformer 基础但运行规模更大的 LLM 是否可以在长期顺序决策问题中解锁新的性能水平。这项工作研究了 LLM 在离线决策任务中的应用。该领域的一个基本挑战是 LLM 固有的无法解释连续值,因为当值表示为文本字符串时,他们缺乏对数值大小和顺序的原生理解。为了解决这个问题,我们建议将轨迹视为一种独特的模式。通过学习将轨迹数据与自然语言任务描述保持一致,我们的模型可以在我们称之为 DecisionLLM 的内聚框架内自回归预测未来的决策。我们建立了一套控制该范式的缩放法则,证明性能取决于三个因素:模型规模、数据量和数据质量。在离线实验基准和投标场景中,DecisionLLM取得了强劲的表现。具体来说,DecisionLLM-3B 在 Maze2D umaze-v1 上优于传统决策转换器 (DT) 69.4,在 AuctionNet 上优于传统决策转换器 (DT) 0.085。它扩展了 AIGB 范式,并为在线招标的未来探索指明了有希望的方向 ...

0 0 0 0 2026/03/17 arXiv:2601.10148v1 库奇