本文介绍了 Youtu-Parsing,这是一种高效、多功能的文档解析模型,专为高性能内容提取而设计。该架构采用原生 Vision Transformer (ViT),具有动态分辨率视觉编码器来提取共享文档特征,并结合提示引导的 Youtu-LLM-2B 语言模型进行布局分析和区域提示解码。利用这种解耦且功能可重用的框架,我们引入了一种高并行性解码策略,该策略包含两个核心组件: Token 并行性和查询并行性。 Token 并行策略在每个推理步骤中同时生成最多 64 个候选 Token ,随后通过验证机制对其进行验证。与传统自回归解码相比,这种方法的速度提高了 5--11 倍,特别适合高度结构化的场景,例如表格识别。为了进一步利用区域提示解码的优势,查询并行策略支持同时预测多个边界框(最多 5 个),提供额外 2 倍的加速,同时保持与标准解码相当的输出质量。优图解析包含多种文档元素,包括文本、公式、表格、图表、印章和层次结构。此外,该模型在处理罕见字符、多语言文本和手写内容时表现出很强的鲁棒性。广泛的评估表明,Youtu-Parsing 在 OmniDocBench 和 olmOCR-bench 基准测试中均实现了最先进 (SOTA) 的性能。总体而言,Youtu-Parsing 对于大规模文档智能应用展示了显着的实验价值和实用性 ...

0 0 0 0 2026/02/14 arXiv:2601.20430v1 moshmode

视觉-语言-动作(VLA)模型最近因其强大的推理能力和丰富的世界知识而在端到端自动驾驶领域引起了越来越多的关注。然而,现有的 VLA 往往受到有限的数值推理能力和过于简化的输入输出映射的影响,这阻碍了它们在需要逐步因果推理的复杂驾驶场景中的性能。为了应对这些挑战,我们提出了 CoT4AD,这是一种新颖的 VLA 框架,它引入了自动驾驶的思想链 (CoT) 推理,以增强视觉语言模型 (VLM) 中的数值和因果推理。 CoT4AD 集成了视觉观察和语言指令来执行语义推理、场景理解和轨迹规划。在训练过程中,它明确地建模了感知-问题-预测-动作 CoT,以将多个驾驶任务中的推理空间与动作空间保持一致。在推理过程中,它执行隐式 CoT 推理,以在动态环境中实现一致的数值推理和稳健的决策。对真实世界和模拟基准(包括 nuScenes 和 Bench2Drive)的大量实验表明,CoT4AD 在开环和闭环评估中均实现了最先进的性能。代码将在论文接受后发布 ...

0 0 0 0 2026/02/14 arXiv:2511.22532v1 Boom727

我们推出 ReasonIR-8B,这是第一个专门训练用于一般推理任务的检索器。现有的检索器在推理任务上表现出的收益有限,部分原因是现有的训练数据集侧重于与直接回答它们的文档相关的简短事实查询。我们开发了一个合成数据生成管道,对于每个文档,我们的管道都会创建一个具有挑战性且相关的查询,以及看似相关但最终无用的硬否定。通过对我们的合成数据和现有公共数据进行混合训练,ReasonIR-8B 在 BRIGHT(广泛使用的推理密集型信息检索 (IR) 基准)上实现了新的最先进水平:不带重新排序器的 29.9 nDCG@10 和带重新排序器的 36.9 nDCG@10。当应用于 RAG 任务时,相对于闭卷基线,ReasonIR-8B 的 MMLU 和 GPQA 性能分别提高了 6.4% 和 22.6%,优于其他检索器和搜索引擎。此外,ReasonIR-8B 更有效地使用测试时计算:在 BRIGHT 上,其性能随着更长、信息更丰富的重写查询而持续提高;当与 LLM 重新排序器结合使用时,它继续优于其他检索器。我们的培训方案是通用的,可以轻松扩展到未来的 LLM ;为此,我们开源我们的代码、数据和模型 ...

0 0 0 0 2026/02/14 arXiv:2504.20595v1 zhangnan

LLM 代理在软件开发方面表现出了卓越的能力,但其性能受到长交互上下文的阻碍,这会导致高昂的 API 成本和延迟。虽然已经出现了 LongLLMLingua 等各种上下文压缩方法来应对这一挑战,但它们通常依赖于 PPL 等固定指标,而忽略了代码理解的特定于任务的性质。因此,它们经常破坏语法和逻辑结构,并且无法保留关键的实现细节。在本文中,我们提出了 SWE-Pruner,一种专为编码代理量身定制的自适应上下文修剪框架。 SWE-Pruner 从人类程序员在开发和调试过程中“选择性浏览”源代码的方式中汲取灵感,对长上下文执行任务感知的自适应剪枝。给定当前任务,代理制定明确的目标(例如,“专注于错误处理”)作为指导修剪目标的提示。轻量级神经撇渣器(0.6B 参数)经过训练,可以根据目标从周围环境中动态选择相关行。对四个基准和多个模型的评估验证了 SWE-Pruner 在各种场景中的有效性,在 SWE-Bench Verified 等代理任务上实现了 23-54% 的 Token 减少,同时甚至提高了成功率,在 LongCodeQA 等单轮任务上实现了高达 14.84 倍的压缩,同时对性能影响最小 ...

0 0 0 0 2026/02/14 arXiv:2601.16746v2 tucaojun

我们基于与先前标记的局部相似性,通过对从大型语料库检索到的文档块进行调节来增强自回归语言模型。凭借价值 2 万亿美元的 Token 数据库​​,我们的检索增强型 Transformer (RETRO) 获得了与 Pile 上的 GPT-3 和 Jurassic-1 相当的性能,尽管使用的参数少了 25$\times$。经过微调后,RETRO 性能转化为下游知识密集型任务,例如问答。 RETRO 结合了冻结的 Bert 检索器、可微分编码器和分块交叉注意力机制,根据比训练期间通常消耗的数据多一个数量级的数据来预测 Token 。我们通常从头开始训练 RETRO,但也可以通过检索快速 RETROfit 预训练的 Transformer,并且仍然获得良好的性能。我们的工作开辟了通过外显记忆以前所未有的规模改进语言模型的新途径 ...

0 0 0 0 2026/02/13 arXiv:2112.04426v3 saliner

作为人工智能领域最先进的技术之一,检索增强生成(RAG)可以提供可靠且最新的外部知识,为众多任务提供巨大便利。特别是在人工智能生成内容(AIGC)时代,强大的检索能力提供额外的知识,使RAG能够协助现有的生成式人工智能产生高质量的输出。最近,大型语言模型(LLM)在语言理解和生成方面表现出了革命性的能力,但仍然面临着固有的局限性,例如幻觉和过时的内部知识。鉴于RAG在提供最新且有用的辅助信息方面的强大能力,检索增强大型语言模型(RA-LLM)应运而生,利用外部权威知识库,而不是仅仅依赖模型的内部知识,来提高LLM的生成质量。在本次调查中,我们全面回顾了 RA-LLM 的现有研究,涵盖三个主要技术视角:架构、培训策略和应用。作为预备知识,我们简要介绍了LLM的基础和最新进展。然后,为了说明RAG对LLM的实际意义,我们从架构、培训策略和应用领域系统地回顾了主流相关工作,具体详细说明了每个RA-LLM面临的挑战以及相应的能力。最后,为了提供更深入的见解,我们讨论了当前的局限性和未来研究的几个有希望的方向。有关此调查的更新信息可以在此 https URL 中找到 ...

0 0 0 0 2026/02/13 arXiv:2405.06211v3 saliner

本文提出了一种新的视觉 Transformer,称为 Swin Transformer,它能够作为计算机视觉的通用骨干。将 Transformer 从语言适应到视觉的挑战源于两个领域之间的差异,例如视觉实体的规模差异较大,以及图像中的像素与文本中的单词相比的高分辨率。为了解决这些差异,我们提出了一个分层 Transformer,其表示是用 \textbf{S}hifted \textbf{win}dows 计算的。移位窗口方案通过将自注意力计算限制在非重叠的本地窗口,同时还允许跨窗口连接,带来了更高的效率。这种层次结构具有在各种尺度上建模的灵活性,并且具有相对于图像大小的线性计算复杂性。 Swin Transformer 的这些品质使其能够兼容广泛的视觉任务,包括图像分类(ImageNet-1K 上的 87.3 top-1 准确率)和密集预测任务,例如对象检测(COCO test-dev 上的 58.7 box AP 和 51.1 mask AP)和语义分割(ADE20K val 上的 53.5 mIoU)。其性能在 COCO 上大大超过了之前的最先进水平,+2.7 box AP 和+2.6 mask AP,在 ADE20K 上超过+3.2 mIoU,展示了基于 Transformer 的模型作为视觉骨干的潜力。分层设计和移位窗口方法也被证明对全 MLP 架构有益。代码和模型可在 ~\url{this https URL} 处公开获取 ...

0 1 0 0 2026/02/13 arXiv:2103.14030v2 jerome.zhou

在这项工作中,我们介绍了 CineMaster,这是一种用于 3D 感知和可控文本到视频生成的新颖框架。我们的目标是为用户提供与专业电影导演相当的可控性:场景中对象的精确放置、3D 空间中对象和摄像机的灵活操作以及对渲染帧的直观布局控制。为了实现这一目标,CineMaster 分两个阶段运作。在第一阶段,我们设计了一个交互式工作流程,允许用户通过定位对象边界框并在 3D 空间内定义相机运动来直观地构建 3D 感知条件信号。在第二阶段,这些控制信号(包括渲染的深度图、相机轨迹和对象类标签)作为文本到视频扩散模型的指导,确保生成用户想要的视频内容。此外,为了克服具有 3D 对象运动和相机姿势注释的野外数据集的稀缺性,我们仔细建立了一个自动数据注释管道,从大规模视频数据中提取 3D 边界框和相机轨迹。广泛的定性和定量实验表明,CineMaster 显着优于现有方法,并实现了出色的 3D 感知文本到视频生成。项目页面:此 https URL ...

0 0 0 0 2026/02/13 arXiv:2502.08639v1 xf

为了实现实时交互式视频生成,当前的方法将预训练的双向视频扩散模型提炼为少步自回归(AR)模型,当完全注意力被因果注意力取代时,面临着架构差距。然而,现有的方法在理论上并不能弥合这一差距。他们通过 ODE 蒸馏来初始化 AR 学生,这需要帧级注入性,其中每个噪声帧必须映射到 AR 教师的 PF-ODE 下的唯一干净帧。从双向教师中提取 AR 学生违反了此条件,从而阻止了教师流程图的恢复,而是引入了条件期望解决方案,从而降低了性能。为了解决这个问题,我们提出因果强迫,它使用 AR 教师进行 ODE 初始化,从而弥合架构差距。实证结果表明,我们的方法在所有指标上都优于所有基线,在动态度上超过 SOTA 自强迫 19.3%,在 VisionReward 上超过 8.7%,在指令跟随上超过 16.7%。项目页面和代码:\href{这个 https URL}{这个 https URL} ...

0 0 0 0 2026/02/13 arXiv:2602.02214v2 xf

自动投标广泛应用于广告系统,为许多广告商服务。由于其强大的计划能力和概括性,生成招标正在逐渐获得吸引力。与传统的基于学习的招标相反,生成招标不依赖于马尔可夫决策过程(MDP)在长期胜利方案中表现出卓越的计划能力 ...

0 0 0 0 2026/02/13 arXiv:2508.08687v2 wenzheng