近年来,Transformer网络凭借全局感受野和对输入的适应性,在图像恢复领域表现出了出色的性能。然而,Softmax-attention 的二次计算复杂度对其在图像恢复任务中的广泛应用造成了重大限制,特别是对于高分辨率图像。为了应对这一挑战,我们提出了 Transformer 的一种新颖变体。该变体利用泰勒展开式来近似 Softmax-attention,并利用范数保持映射的概念来近似一阶泰勒展开式的其余部分,从而产生线性计算复杂度。此外,我们在所提出的 Transformer 中引入了一种具有多尺度补丁嵌入的多分支架构,它具有四个明显的优点:1)各种大小的感受野; 2)多层次语义信息; 3)灵活的感受野形状; 4)加速训练和推理速度。因此,所提出的模型被称为基于泰勒公式展开的 Transformer 的第二个版本(简称 MB-TaylorFormer V2),能够同时处理从粗到细的特征,以有限的计算成本捕获长距离像素交互,并改进泰勒展开余数的近似。不同图像恢复基准的实验结果表明,MB-TaylorFormer V2 在图像去雾、去雨、去雪、运动去模糊和去噪等多个图像恢复任务中实现了最先进的性能,且计算开销非常小。源代码可从此 https URL 获取 ...

0 0 0 0 2026/02/01 arXiv:2501.04486v2 15221575297

大型语言模型 (LLM) 扩展遇到了困难。加宽模型会产生收益递减,并且扩展上下文长度并不能提高基本表达能力。相比之下,深度缩放在理论上提供了卓越的表现力,但当前的 Transformer 架构很难在极端深度下进行可靠的训练。我们重新审视 Post-LayerNorm (Post-LN) 公式,其规模上的不稳定导致其在现代 LLM 中被 Pre-LN 取代。我们证明了 Post-LN 的中心失效模式源自 ResNet 式的残差路径,它在深度网络中引入了梯度消失。我们推出了 Keel,一种 Post-LN Transformer,它用高速公路式连接取代了这种剩余路径。这种修改保留了通过残余分支的梯度流,防止信号从顶层到底层消失。与之前的方法不同,Keel 可以在极深的深度进行稳定的训练,而不需要专门的初始化或复杂的优化技巧。 Keel 在超过 1000 层的深度上进行稳健训练,并持续改进 Pre-LN 的困惑度和深度缩放特性。这些发现表明,Post-LN 与高速公路式连接配合使用时,为构建深度可扩展的 LLM 提供了简单而有效的基础,为未来无限深度架构提供了可能性 ...

0 0 0 0 2026/02/01 arXiv:2601.19895v1 zxykbz

大型语言模型(LLM)由于缺乏足够的培训数据和最新知识而与推断期间的事实错误斗争,导致幻觉问题。通过从外部来源检索相关信息以为问题产生更准确的答案,检索授权的生成(RAG)已成为解决LLM的限制的有前途解决方案。鉴于外部来源中存在结构化知识的普遍存在,已经在抹布中取得了相当大的进步来采用与图形相关的技术,并根据知识实体之间的拓扑信息实现了更复杂的推理 ...

0 0 0 0 2026/02/01 arXiv:2504.10499v2 13766783701

我们推出了 ChatScene,这是一种基于大型语言模型 (LLM) 的代理,它利用 LLM 的功能为自动驾驶汽车生成安全关键场景。给定非结构化语言指令,代理首先使用 LLM 生成文本描述的交通场景。这些场景描述随后被分解为多个子描述,用于指定细节,例如车辆的行为和位置。然后,代理将文本描述的子场景独特地转换为特定于领域的语言,然后在模拟器中生成用于预测和控制的实际代码,从而促进在 CARLA 模拟环境中创建多样化且复杂的场景。我们的代理的关键部分是一个全面的知识检索组件,它通过训练包含场景描述和代码对的知识数据库,有效地将特定的文本描述转换为相应的特定领域的代码片段。大量的实验结果强调了 ChatScene 在提高自动驾驶汽车安全性方面的功效。例如,当针对不同的基于强化学习的自我车辆进行测试时,ChatScene 生成的场景显示,与最先进的基线相比,碰撞率增加了 15%。此外,我们还表明,通过使用我们生成的安全关键场景来微调不同的基于 RL 的自动驾驶模型,它们可以将碰撞率降低 9%,超过了当前的 SOTA 方法。 ChatScene 有效地弥合了交通场景的文本描述和实际 CARLA 模拟之间的差距,提供了一种统一的方法来方便地生成安全关键场景,以进行自动驾驶汽车的安全测试和改进 ...

0 0 0 0 2026/01/31 arXiv:2405.14062v1 chenzhuo-wang

将工具使用集成到大型语言模型 (LLM) 中,使代理系统能够对现实世界产生影响。与此同时,与独立的 LLM 不同,受感染的代理可以执行恶意工作流程,产生更严重的影响,这可以通过其工具使用能力来体现。我们提出了AgentGuard,一个自动发现和验证不安全的工具使用工作流程的框架,然后生成安全约束来限制代理的行为,实现部署时安全保证的基线。 AgentGuard 利用 LLM 协调器的固有功能(工具功能知识、可扩展且现实的工作流程生成以及工具执行权限)来充当自己的安全评估器。该框架通过四个阶段运行:识别不安全的工作流程、在现实执行中验证它们、生成安全约束以及验证约束效力。输出是包含不安全工作流程、测试用例和经过验证的约束的评估报告,可支持多个安全应用程序。我们通过实验实证证明了 AgentGuard 的可行性。通过这项探索性工作,我们希望能够启发LLM代理人建立标准化测试和强化程序,以增强他们在实际应用中的可信度 ...

0 0 0 0 2026/01/31 arXiv:2502.09809v1 chenzhuo-wang

我们提出了 Magic Insert,一种以物理合理的方式将主题从用户提供的图像拖放到不同风格的目标图像中的方法,同时匹配目标图像的风格。这项工作形式化了样式感知拖放问题,并提出了一种通过解决两个子问题来解决该问题的方法:样式感知个性化和风格化图像中的真实对象插入。对于风格感知个性化,我们的方法首先使用 LoRA 微调预训练的文本到图像扩散模型,并在主题图像上学习文本标记,然后将目标风格的 CLIP 表示注入其中。对于对象插入,我们使用引导域适应来使特定于域的真实感对象插入模型适应不同艺术风格的域。总体而言,该方法明显优于修复等传统方法。最后,我们提出了一个数据集,SubjectPlop,以促进该领域的评估和未来进展。项目页面:此 https URL ...

0 0 0 0 2026/01/31 arXiv:2407.02489v1 wtyang

尽管视觉语言模型(VLM)取得了显着的进步,但当前的架构在保留细粒度的视觉信息方面通常表现出局限性,从而导致粗粒度的多模态理解。我们将这种缺陷归因于流行的 VLM 固有的次优训练范式,该范式通过将视觉信号仅仅概念化为被动条件输入而不是监督目标,表现出文本主导的优化偏差。为了缓解这个问题,我们引入了 Youtu-VL,这是一个利用视觉语言统一自回归监督(VLUAS)范式的框架,它从根本上将优化目标从“视觉作为输入”转变为“视觉作为目标”。通过将视觉标记直接集成到预测流中,Youtu-VL 将统一的自回归监督应用于视觉细节和语言内容。此外,我们扩展了这一范式以涵盖以视觉为中心的任务,使标准 VLM 能够执行以视觉为中心的任务,而无需添加特定于任务的内容。广泛的实证评估表明,Youtu-VL 在一般多模态任务和以视觉为中心的任务上都取得了有竞争力的表现,为综合性通用视觉智能体的开发奠定了坚实的基础 ...

0 0 0 0 2026/01/31 arXiv:2601.19798v1 spw

大视觉语言模型的发展推动了对海量多模态数据的管理和应用的需求,使得从视觉图像中提取信息的OCR技术越来越受欢迎。然而,现有的 OCR 方法主要侧重于从图像或扫描文档中识别文本元素(\textbf{以文本为中心的 OCR}),忽略了从视觉信息密集的图像源(\textbf{以视觉为中心的 OCR})中识别视觉元素,例如图表、网页和科学绘图。事实上,这些视觉信息密集的图像在互联网上广泛存在,并且具有重要的现实应用价值,例如数据可视化和网页分析。在这份技术报告中,我们提出了 \textbf{OCRVerse},这是第一个端到端的整体 OCR 方法,可以实现统一的以文本为中心的 OCR 和以视觉为中心的 OCR。为此,我们构建了全面的数据工程,涵盖各种以文本为中心的文档,例如报纸、杂志和书籍,以及以视觉为中心的渲染复合材料,包括图表、网页和科学绘图。此外,我们还提出了一种针对 OCRVerse 的两阶段 SFT-RL 多域训练方法。 SFT直接混合跨领域数据来训练和建立初始领域知识,而RL则侧重于针对每个领域的特点设计个性化的奖励策略。具体来说,由于不同的领域需要不同的输出格式和预期输出,因此我们在 RL 阶段提供足够的灵活性,为每个领域定制灵活的奖励信号,从而提高跨领域融合并避免数据冲突。实验结果证明了 OCRVerse 的有效性,在以文本为中心和以视觉为中心的数据类型上取得了有竞争力的结果,甚至可以与大规模开源和闭源模型相媲美 ...

0 0 0 0 2026/01/31 arXiv:2601.21639v1 spw

我们提出了自然语言工具 (NLT),这是一个框架,它用自然语言输出取代了大型语言模型 (LLM) 中的编程 JSON 工具调用。通过将工具选择与响应生成分离,NLT 消除了会降低工具调用性能的任务干扰和格式限制。当对涵盖客户服务和心理健康领域的 10 个模型和 6,400 个试验进行评估时,NLT 将工具调用准确性提高了 18.4 个百分点,同时将输出方差降低了 70%。开放权重模型获得了最大的收益,超过了旗舰封闭权重模型,这对强化学习和监督微调阶段的模型训练都有影响。这些改进在即时扰动下持续存在,并将工具调用功能扩展到缺乏本机支持的模型 ...

0 0 0 0 2026/01/31 arXiv:2510.14453v1 jecc

由于参数化知识的限制,大型语言模型(LLM)经常在知识密集型 QA 中产生幻觉。虽然 KG-CoT 等现有方法通过集成知识图 (KG) 路径来提高可靠性,但它们存在严格的跳数选择(完全由问题驱动)和推理路径利用不足(缺乏指导)的问题。为了解决这个问题,我们提出了 RFKG-CoT:首先,它将严格的跳数选择器替换为关系驱动的自适应跳数选择器,该选择器通过激活 KG 关系(例如,直接“兄弟”关系的 1 跳,间接“父子”链的 2 跳)动态调整推理步骤,通过关系掩码形式化。其次,它引入了CoT(思考)的少量上下文学习路径引导机制,以“问题-路径-答案”的格式构建示例,以增强 LLM 理解推理路径的能力。对四个 KGQA 基准测试的实验表明,RFKG-CoT 的准确度比 KG-CoT 提高了 14.7 pp(WebQSP 上的 Llama2-7B)。消融确认跳数选择器和路径提示是互补的,共同将知识图谱证据转化为更忠实的答案 ...

0 0 0 0 2026/01/31 arXiv:2512.15219v1 13766783701