由于其用于计算成本的亚线性缩放,因此越来越多地采用了稀疏激活的专家专家(MOE)结构来进一步扩展大型语言模型(LLM)。但是,随着训练量表,频繁的失败仍然构成重大挑战。即使是单个故障的成本也很明显,因为所有GPU都需要闲置直到解决故障,可能会失去相当大的培训进度,因为培训必须从检查站重新启动 ...

0 0 0 0 2026/01/23 arXiv:2407.04656v2 wenx

大型语言模型(LLM)因其在不同领域的令人印象深刻的表现而广受欢迎。然而, LLM 很容易产生不真实或无意义的输出,这些输出在许多现实应用中无法满足用户的期望。现有的检测 LLM 幻觉的工作要么依赖外部知识进行参考检索,要么需要对 LLM 的多个响应进行采样以进行一致性验证,使得这些方法成本高昂且效率低下。在本文中,我们提出了一种新颖的无参考、基于不确定性的方法来检测 LLM 的幻觉。我们的方法从三个方面模仿人类在事实性检查中的关注:1)关注给定文本中信息最丰富、最重要的关键词; 2)关注历史背景下不可靠的 Token ,这可能会导致一连串的幻觉; 3)关注 Token 属性,例如 Token 类型和 Token 频率。相关数据集的实验结果证明了我们提出的方法的有效性,该方法在所有评估指标上都实现了最先进的性能,并且不需要额外的信息 ...

0 0 0 0 2026/01/23 arXiv:2311.13230v1 huaizhe2000

我们提出了一个统一的多目标模型,用于在 Spotify 播客生态系统中定位广告和促销。我们的方法解决了个性化和冷启动初始化方面的关键挑战,特别是对于新的广告目标。通过利用多任务学习 (MTL) 框架内的大规模广告和内容交互的迁移学习,可以对单个联合模型进行微调或直接应用于新的或低数据的定位任务,包括应用内促销。这种多目标设计使用用户、内容、上下文和创意特征的共享表示来联合优化广告和促销的播客结果,例如流、点击和关注,从而有效支持不同的业务目标,同时改善用户体验。在线 A/B 测试显示,有效每流成本 (eCPS) 降低了 22%,特别是对于流媒体较少的播客,播客流速率提高了 18-24%。离线实验和消融强调了辅助目标和特征组对冷启动性能的贡献。我们的经验表明,统一的建模策略可以提高可维护性、冷启动性能和覆盖范围,同时打破历史上孤立的目标管道。我们讨论了现实世界广告系统中此类联合模型的实际权衡 ...

0 0 0 0 2026/01/23 arXiv:2601.02306v1 徐维廷

大型语言模型 (LLM) 在广泛的自然语言处理任务中表现出了卓越的能力。这些功能主要源于自注意力机制,它可以对远程依赖关系进行建模。然而,自注意力相对于序列长度的二次复杂度带来了巨大的计算和记忆挑战,特别是当序列长度延伸到极端时。虽然已经提出了各种稀疏注意力和 KV 缓存压缩方法来提高效率,但它们通常受到诸如依赖固定模式、无法处理预填充和解码阶段或需要额外训练等限制。在本文中,我们提出了免训练上下文自适应注意力(TCA-Attention),这是一种免训练稀疏注意力机制,有选择地仅关注信息标记以实现高效的长上下文推理。我们的方法由两个轻量级阶段组成:i)离线校准阶段,通过单个前向传递确定头部特定的稀疏预算;ii)在线 Token 选择阶段,使用轻量级冗余度量自适应地保留核心上下文 Token 。 TCA-Attention 提供了一个统一的解决方案,可加速预填充和解码,同时减少 KV 缓存内存占用,无需参数更新或架构更改。理论分析表明我们的方法保持有界近似误差。大量实验表明,TCA-Attention 在 128K 上下文长度下实现了 2.8 倍的加速,并将 KV 缓存减少了 61%,同时在各种基准测试中保持与完全注意力相当的性能,为高效的长上下文推理提供了实用的即插即用解决方案 ...

0 0 0 0 2026/01/23 arXiv:2512.09238v2 tea5

长上下文推理场景对于大型语言模型变得越来越重要,但它们引入了显着的计算延迟。虽然之前的研究已经通过算子、模型架构和系统框架优化了长序列推理,但标记化仍然是一个被忽视的瓶颈。现有的并行标记化方法通过文本分割和多进程标记化来加速处理,但由于合并后出现的边界伪影,它们会出现不一致的结果。为了解决这个问题,我们提出了 LoPT,一种新颖的无损并行标记化框架,可确保输出与标准顺序标记化相同。我们的方法采用基于字符位置的匹配和动态块长度调整来准确对齐和合并标记化片段。跨不同长文本数据集的大量实验表明,LoPT 在保证无损标记化的同时实现了显着的加速。我们还提供一致性的理论证明和全面的分析研究,以验证我们方法的稳健性 ...

0 0 0 0 2026/01/23 arXiv:2511.04952v1 tea5

尽管 Transformer 在自然语言处理方面表现出色,但由于没有充分考虑文本和时间模态之间的差异,因此将其扩展到时间序列预测仍然具有挑战性。在本文中,我们开发了一种专为时间序列数据设计的新型 Transformer 架构,旨在最大化其表示能力。我们确定了时间序列的两个关键但经常被忽视的特征:(1)从过去到未来的单向影响,以及(2)随着时间的推移影响力衰减的现象。引入这些特征是为了增强 Transformers 的注意力机制。我们提出了 TimeFormer,其核心创新是具有两个调制项(MoSA)的自注意力机制,旨在在霍克斯过程和因果屏蔽的约束下捕获时间序列的这些时间先验。此外,TimeFormer引入了基于多尺度和子序列分析的框架来捕获不同时间尺度的语义依赖关系,丰富了时间依赖关系。对多个真实数据集进行的大量实验表明,TimeFormer 的性能显着优于最先进的方法,与最佳基线相比,MSE 降低了 7.45%,并为 94.04\% 的评估指标设定了新基准。此外,我们证明 MoSA 机制可以广泛应用于增强其他基于 Transformer 的模型的性能 ...

0 0 0 0 2026/01/23 arXiv:2510.06680v1 kkkkk

大型语言模型(LLM)预计将被训练为在各种现实环境中充当代理,但这个过程依赖于丰富多样的工具交互沙箱。然而,对真实系统的访问通常受到限制; LLM模拟的环境容易产生幻觉和不一致的情况;而且手动构建的沙箱很难扩展。在本文中,我们提出了 EnvScaler,这是一种通过编程综合实现可扩展工具交互环境的自动化框架。 EnvScaler 由两个组件组成。首先,SkelBuilder通过主题挖掘、逻辑建模、质量评估构建多样化的环境骨架。然后,ScenGenerator 为每个环境生成多个任务场景和基于规则的轨迹验证函数。通过EnvScaler,我们综合了191个环境和大约7K个场景,并将它们应用于Qwen3系列模型的监督微调(SFT)和强化学习(RL)。三个基准测试的结果表明,EnvScaler 显着提高了 LLM 在涉及多回合、多工具交互的复杂环境中解决任务的能力。我们在此 https URL 发布我们的代码和数据 ...

0 0 0 0 2026/01/23 arXiv:2601.05808v1 tianji

强化学习 (RL) 最近在多模态大型语言模型 (MLLM) 中引发视觉推理方面取得了显着的成功。然而,现有的方法通常为不同的任务训练单独的模型,并将图像和视频推理视为不相交的领域。这导致多模态推理通才的可扩展性有限,限制了实际的多功能性并阻碍了跨任务和模态的潜在知识共享。为此,我们提出了 OneThinker,这是一种一体化推理模型,可以统一跨不同基本视觉任务的图像和视频理解,包括问答、字幕、空间和时间基础、跟踪和分割。为了实现这一目标,我们构建了涵盖所有这些任务的 OneThinker-600k 训练语料库,并采用商业模型进行 CoT 注释,从而产生了用于 SFT 冷启动的 OneThinker-SFT-340k。此外,我们提出 EMA-GRPO 通过跟踪奖励标准差的任务级移动平均值来处理多任务强化学习中的奖励异质性,以实现平衡优化。对各种视觉基准的广泛实验表明,OneThinker 在 31 个基准、10 项基本视觉理解任务中提供了强大的性能。此外,它表现出某些任务之间的有效知识转移和初步的零样本泛化能力,标志着向统一的多模态推理通才迈出了一步。所有代码、模型和数据均已发布 ...

0 0 0 0 2026/01/23 arXiv:2512.03043v2 ravencaffeine

检索增强生成 (RAG) 使大型语言模型 (LLM) 能够访问更广泛的知识源,但由于检索文档中的噪音,事实不一致仍然存在,即使使用高级检索方法也是如此。我们证明,增强生成模型处理噪声内容的能力对于稳健的性能同样重要。在本文中,我们提出了 KARE-RAG(RAG 的知识感知细化和增强),它通过三个关键创新提高知识利用率:(1)促进训练期间错误检测的结构化知识表示,(2)密集直接偏好优化(DDPO) - 优先纠正关键错误的细化训练目标,以及(3)对比数据生成管道,在纠正事实错误的同时保持语义一致性。实验表明,我们的方法显着增强了跨模型规模的标准 RAG 管道,在不影响一般功能的情况下提高了域内和域外任务性能。值得注意的是,这些收益是通过适度的训练数据实现的,这表明通过有针对性的学习策略可以实现数据高效的优化。我们的研究结果为 RAG 改进确立了新的方向:通过改进模型学习处理检索到的内容的方式,我们可以提高跨不同推理范式的性能。所有数据和代码都将在 Github 上公开 ...

0 0 0 0 2026/01/23 arXiv:2506.02503v1 落叶

旋转物体检测在光学遥感领域取得了重大进展。然而,合成孔径雷达(SAR)领域的进展却相对滞后,这主要是由于缺乏大规模数据集。注释这样的数据集效率低下且成本高昂。一个有前途的解决方案是采用弱监督模型(例如,仅使用可用的水平框进行训练)来生成伪旋转框以供手动校准之前参考。不幸的是,现有的弱监督模型在预测物体角度方面表现出有限的准确性。之前的工作尝试通过使用角度解析器来增强角度预测,角度解析器将角度解耦为余弦和正弦编码。在这项工作中,我们首先从维度映射的统一角度重新评估这些解析器,并发现它们具有相同的缺点:这些方法忽略了这些编码固有的单位周期约束,很容易导致预测偏差。为了解决这个问题,我们提出了单位循环解析器,它结合了单位圆约束损失来提高角度预测精度。我们的方法可以有效提高现有最先进的弱监督方法的性能,甚至超越现有光学基准(即 DOTA-v1.0 数据集)上的完全监督模型。在 UCR 的帮助下,我们进一步注释并介绍了迄今为止最大的多类旋转 SAR 目标检测数据集 RSAR。对 RSAR 和光学数据集的大量实验表明,我们的 UCR 提高了角度预测的准确性。我们的数据集和代码可以在以下位置找到:此 https URL ...

0 0 0 0 2026/01/23 arXiv:2501.04440v1 SGN001