强化学习 (RL) 的后训练通过测试时间扩展显着改善了大型语言模型 (LLM) 的推理能力。然而,通过冗长的原理将这种范式扩展到多模式 LLM (MLLM)只会产生有限的感知收益,甚至会降低性能。我们提出了强化注意力学习(RAL),这是一种策略梯度框架,可以直接优化内部注意力分布而不是输出 Token 序列。通过将优化从生成内容转向参加地点,RAL 促进了有效的信息分配并改善了复杂多式联运输入的基础。跨不同图像和视频基准的实验显示,与 GRPO 和其他基准相比,其获得了一致的增益。我们进一步引入了策略注意力蒸馏,证明转移潜在注意力行为比标准知识蒸馏产生更强的跨模式对齐。我们的结果将注意力政策定位为多模式后培训的原则性和通用替代方案 ...

0 0 0 0 2026/02/09 arXiv:2602.04884v1 spw

在大型语言模型中推进复杂推理依赖于高质量、可验证的数据集,但人工注释仍然成本高昂且难以扩展。当前的综合范式经常面临反复出现的权衡:保持结构有效性通常会限制问题的复杂性,而放松约束以增加难度常常会导致不一致或无法解决的情况。为了解决这个问题,我们提出了代理提议,这是一个将问题综合建模为目标驱动的顺序决策过程的框架,其中专门代理动态选择和组合模块化推理技能。通过内部反思和工具使用的迭代工作流程,我们使用多粒度策略优化 (MGPO) 开发 Agentic-Proposer-4B,以生成跨数学、编码和科学的高精度、可验证的训练轨迹。实证结果表明,在代理合成数据上训练的下游求解器显着优于领先基线,并表现出强大的跨域泛化能力。值得注意的是,仅在 11,000 个合成轨迹上进行训练的 30B 求解器在 AIME25 上实现了最先进的 91.6% 准确率,可与 GPT-5 等前沿规模专有模型相媲美,并证明少量高质量合成信号可以有效替代大量人工管理的数据集 ...

0 0 0 0 2026/02/09 arXiv:2602.03279v1 manlinghun

最近的研究表明,语言模型通常可以通过强化学习来学习\textit{reason}。有些工作甚至训练低秩参数化进行推理,但传统的 LoRA 无法扩展到模型维度以下。我们质疑即使rank=1 LoRA对于学习推理是否是必要的,并提出了TinyLoRA,一种将低秩适配器缩放到小至一个参数的大小的方法。在我们的新参数化中,我们能够在 GSM8K 上将 Qwen2.5 的 8B 参数大小训练到 91% 的准确度,而 bf16 中仅需要 13 个经过训练的参数(总共 26 个字节)。我们发现这种趋势总体上是成立的:我们能够恢复 90% 的性能改进,同时在一系列更困难的推理学习基准(例如 AIME、AMC 和 MATH500)中训练更少 1000 美元的参数。值得注意的是,我们只能通过 RL 实现如此强大的性能:使用 SFT 训练的模型需要 100-1000 倍的更大更新才能达到相同的性能 ...

0 0 0 0 2026/02/09 arXiv:2602.04118v1 15122306087

尽管多模态大型语言模型 (MLLM) 精通一般任务,但在自动几何问题解决 (GPS) 方面却遇到了困难,这需要理解图表、解释符号并执行复杂的推理。这种限制源于他们对自然图像和文本的预训练,以及解决问题过程中缺乏自动验证。此外,当前的几何专家受到特定任务设计的限制,这使得他们在解决更广泛的几何问题时效率较低。为此,我们提出了 GeoX,一个专注于几何理解和推理任务的多模态大型模型。鉴于几何图符号和自然图像文本之间的显着差异,我们引入单模态预训练来开发图编码器和符号解码器,增强对几何图像和语料库的理解。此外,我们引入了几何语言对齐,这是一种有效的预训练范例,可以弥合单峰几何专家之间的模态差距。我们提出了一种生成器和采样器转换器(GS-Former)来生成判别性查询并消除不均匀分布的几何信号中的无信息表示。最后,GeoX 受益于视觉指令调整,使其能够将几何图像和问题作为输入并生成可验证的解决方案。实验表明,GeoX 在公共认可的基准测试(例如 GeoQA、UniGeo、Geometry3K 和 PGPS9k)上均优于通才和几何专家 ...

0 0 0 0 2026/02/08 arXiv:2412.11863v2 slen

意图检测是面向任务的对话系统 (TODS) 的关键组成部分,它能够识别合适的操作来处理每个对话轮次的用户话语。传统方法依赖于计算效率高的监督句子转换器编码器模型,该模型需要大量训练数据并且难以进行范围外(OOS)检测。具有内在世界知识的生成性大语言模型(LLM)的出现为应对这些挑战提供了新的机会。在这项工作中,我们使用自适应上下文学习和思想链提示来调整 7 个 SOTA LLM 以进行意图检测,并将它们的性能与对比微调的句子转换器 (SetFit) 模型进行比较,以突出预测质量和延迟权衡。我们提出了一种混合系统,使用基于不确定性的路由策略来结合这两种方法,再加上负数据增强,可以实现两全其美(即在本地 LLM 精度的 2% 内,延迟减少 50%)。为了更好地理解 LLM OOS 检测功能,我们进行了对照实验,结果表明该功能受到意图标签范围和标签空间大小的显着影响。我们还引入了利用内部 LLM 表示的两步方法,证明 Mistral-7B 模型的 OOS 检测精度和 F1 分数的经验增益> 5% ...

0 0 0 0 2026/02/08 arXiv:2410.01627v1 jeffreyliu

这项工作探讨了构建“能够记忆的机器”的挑战,将长期记忆视为高效的超长上下文建模问题。我们认为这需要三个关键属性:\textbf{稀疏性}、\textbf{随机访问灵活性}和\textbf{长度泛化}。为了解决超长上下文建模问题,我们利用分层稀疏注意力(HSA),这是一种满足所有三个属性的新颖注意力机制。我们将 HSA 集成到 Transformers 中,构建 HSA-UltraLong,这是一个在超过 8 万亿个 token 上训练的 8B 参数 MoE 模型,并在域内和域外上下文长度的不同任务上进行严格评估,以展示其处理超长上下文的能力。结果表明,我们的模型在域内长度上的表现与全注意力基线相当,同时在上下文高达 16M 的大多数上下文检索任务中实现了超过 90% 的准确率。本报告概述了我们的实验见解和未解决的问题,为超长上下文建模的未来研究奠定了基础 ...

0 1 0 0 2026/02/08 arXiv:2511.23319v1 huangyungao

近五年来,用于优化数据管理问题的机器学习(ML)技术得到了广泛研究和广泛部署。然而,传统的机器学习方法在泛化性(适应不同场景)和推理能力(理解上下文)方面存在局限性。幸运的是,大型语言模型(LLM)在理解上下文方面表现出了高度的通用性和人类竞争能力,这对于数据管理任务(例如数据库诊断、数据库调优)来说是有希望的。然而,现有的 LLM 有几个局限性:幻觉、成本高、复杂任务的准确性低。为了应对这些挑战,我们设计了LLMDB,一种LLM增强的数据管理范式,它具有通用性和高推理能力,同时避免幻觉,降低LLM成本,并实现高精度。 LLMDB嵌入了特定领域的知识,通过LLM微调和提示工程来避免产生幻觉。 LLMDB 通过提供语义搜索和缓存功能的矢量数据库降低了 LLM 的高成本。 LLMDB通过LLM代理提高了任务准确性,LLM代理提供多轮推理和管道执行。我们展示了 LLMDB 可以很好支持的三个现实场景,包括查询重写、数据库诊断和数据分析。我们还总结了 LLMDB 的开放研究挑战 ...

0 0 0 0 2026/02/08 arXiv:2402.02643v1 just_a_test

大型语言模型 (LLM) 已成为跨各种模式生成数据的强大工具。通过将数据从稀缺资源转变为可控资产, LLM 缓解了模型训练、评估和系统迭代的真实数据获取成本带来的瓶颈。然而,确保 LLM 生成的合成数据的高质量仍然是一个严峻的挑战。现有的研究主要集中在生成方法上,对结果数据质量的直接关注有限。此外,大多数研究仅限于单一模式,缺乏跨不同数据类型的统一视角。为了弥补这一差距,我们提出了 \textbf{LLM 数据审计框架}。在此框架中,我们首先描述如何利用 LLM 来跨六种不同模式生成数据。更重要的是,我们从质量和可信度两个维度对评估合成数据的内在指标进行系统分类。这种方法将焦点从依赖下游任务性能的外部评估转移到数据本身的固有属性。使用该评估系统,我们分析了每种模态的代表性生成方法的实验评估,并找出当前评估实践中的重大缺陷。基于这些发现,我们为社区提供了改进数据生成评估的具体建议。最后,该框架概述了跨不同模式的合成数据实际应用的方法 ...

0 0 0 0 2026/02/08 arXiv:2601.17717v2 just_a_test

迄今为止,大多数地点识别方法都集中于单一模态检索。虽然它们在特定环境中表现良好,但跨模式方法通过允许地图和查询源之间的无缝切换来提供更大的灵活性。它还承诺通过统一模型来减少计算要求,并通过共享参数来实现更高的样本效率。在这项工作中,我们开发了一种通用的地点识别解决方案 UniLoc,它适用于任何单一查询模式(自然语言、图像或点云)。 UniLoc 利用大规模对比学习的最新进展,通过两个级别的分层匹配进行学习:实例级匹配和场景级匹配。具体来说,我们提出了一种新颖的基于自注意力的池化(SAP)模块来评估实例描述符聚合到位置级描述符时的重要性。 KITTI-360 数据集上的实验证明了跨模态对于地点识别的优势,在跨模态设置中实现了卓越的性能,并且在单模态场景中也取得了有竞争力的结果。我们的项目页面可通过此 https URL 公开访问 ...

0 0 0 0 2026/02/08 arXiv:2412.12079v1 13766783701

视觉语言预训练中的大多数现有方法依赖于通过对象检测提取的以对象为中心的特征,并在提取的特征和文本之间进行细粒度的对齐。这些方法学习多个对象之间的关系具有挑战性。为此,我们提出了一种称为 X-VLM 的新方法来执行“多粒度视觉语言预训练”。学习多粒度对齐的关键是在给定相关文本的情况下在图像中定位视觉概念,同时将文本与视觉概念对齐,其中对齐是多粒度的。实验结果表明,X-VLM 有效地将学习到的多粒度对齐应用于许多下游视觉语言任务,并始终优于最先进的方法 ...

0 0 0 0 2026/02/08 arXiv:2111.08276v3 13766783701