检索增强生成(RAG)已成为一种有前景的解决方案,可通过检索外部知识来减轻大语言模型(LLM)的幻觉。自适应 RAG 通过在生成期间启用动态检索来增强此方法,仅当查询超出 LLM 的内部知识时才激活检索。现有方法主要侧重于通过统计不确定性来检测 LLM 的置信度。相反,我们提出了从表示角度解决自适应 RAG 的首次尝试,并开发了一个固有的基于控制的框架,称为 \name。具体来说,我们提取代表LLM诚实和置信方向的特征,并采用它们来控制LLM行为并指导检索时间决策。我们还设计了一个简单而有效的查询制定策略来支持自适应检索。实验表明,\name 在多种任务上优于现有的自适应 RAG 方法,诚实引导可以有效地使 LLM 更加诚实,而置信度监控是检索此 http URL 代码的一个有希望的指标,可在 \url{this https URL} 获得 ...

0 0 0 0 2026/02/13 arXiv:2405.18727v2 18751957996

视频生成正在快速发展为统一的音视频生成。在本文中,我们提出了 ALIVE,一种生成模型,它将预训练的文本到视频 (T2V) 模型应用于 Sora 风格的音频视频生成和动画。特别是,与 T2V 基础模型相比,该模型解锁了文本到视频和音频 (T2VA) 以及参考到视频和音频(动画)功能。为了支持视听同步和参考动画,我们通过联合音视频分支增强了流行的 MMDiT 架构,其中包括用于时间对齐跨模态融合的 TA-CrossAttn 和用于精确视听对齐的 UniTemp-RoPE。同时,精心设计了由音视频字幕、质量控制等组成的综合数据管道,以收集高质量的微调数据。此外,我们引入了一个新的基准来执行全面的模型测试和比较。经过百万级高质量数据的持续预训练和微调,ALIVE表现出了出色的性能,持续优于开源模型,并匹配或超越最先进的商业解决方案。通过详细的配方和基准,我们希望 ALIVE 能够帮助社区更有效地开发音视频生成模型。官方页面:此 https URL ...

0 0 0 0 2026/02/13 arXiv:2602.08682v2 xf

随着生活各个领域对数据库查询的需求不断增长,研究人员对数据库的自然语言接口(NLIDB)投入了极大的关注。本文对最近提出的 NLIDB 进行了全面调查。我们首先简要介绍自然语言处理技术、可执行数据库语言以及自然语言和可执行语言之间的中间表示,然后概述从自然语言到可执行数据库语言的翻译过程。翻译过程分为三个阶段:(i)自然语言预处理,(ii)自然语言理解,(iii)自然语言翻译。预处理阶段采用传统的数据驱动方法。传统方法依赖于预定义的规则和语法,并涉及正则表达式、依存分析和命名实体识别等技术。数据驱动的方法依赖于大规模数据和机器学习模型,使用包括词嵌入和模式链接在内的技术。自然语言理解方法分为三类:(i)基于规则,(ii)基于机器学习,以及(iii)混合。然后,我们描述了关系数据库和时空数据库上可执行语言的一般构建过程。随后,提出了将自然语言转换为可执行语言的通用基准和评估指标,并探索了生成新基准的方法。最后,我们总结了 NLIDB 系统的分类、开发和增强,并讨论了与 NLIDB 相关的深度语言理解和数据库交互技术,包括(i)使用 LLM 执行 Text2SQL 任务,(ii)从 SQL 生成自然语言解释,以及(iii)将语音查询转换为 SQL ...

0 0 0 0 2026/02/13 arXiv:2503.02435v2 shami2025

本文对深度伪造检测任务的缩放定律进行了系统研究。具体来说,我们根据真实图像域的数量、深度伪造生成方法和训练图像来分析模型性能。由于现有数据集无法满足本研究的规模要求,因此我们构建了该领域迄今为止最大的数据集 ScaleDF,其中包含来自 51 个不同数据集(域)的超过 580 万张真实图像以及由 102 种 Deepfake 方法生成的超过 880 万张假图像。使用 ScaleDF,我们观察到类似于大型语言模型 (LLM) 中显示的幂律缩放。具体来说,随着真实域数量或深度伪造方法数量的增加,平均检测误差遵循可预测的幂律衰减。这一关键观察不仅使我们能够预测达到目标性能所需的额外真实域或深度伪造方法的数量,而且激励我们以数据为中心的方式对抗不断发展的深度伪造技术。除此之外,我们还研究了预训练和数据增强在缩放下的深度伪造检测中的作用,以及缩放本身的局限性 ...

0 0 0 0 2026/02/13 arXiv:2510.16320v1 donking

大型语言模型(LLM)在文本生成、问答、语言翻译、推理等许多任务中表现出了卓越的能力。它持续快速发展,在从科技、商业到教育和娱乐等各个领域的影响力越来越大。尽管 LLM 在多个领域取得了成功,但其玩抽象游戏(例如国际象棋)的能力尚未得到充分开发。下棋需要语言模型根据文本输入输出合法合理的走法。在这里,我们提出了大型语言模型 ChessLLM 来玩完整的国际象棋游戏。我们将游戏转换为文本格式,并以 Forsyth-Edwards 表示法表示最佳着法。我们证明,通过简单的监督微调,在允许采样 10 次的情况下,我们的模型在与标准 Elo 评级 Stockfish 的比赛中达到了 1788 的专业水平 Elo 评级。我们进一步表明数据质量很重要。长轮数据监管比短轮数据提升了 350 Elo 评级 ...

0 0 0 0 2026/02/13 arXiv:2501.17186v2 w007425y

有效处理长上下文是语言模型面临的严峻挑战。虽然标准 Transformer 受到二次复杂度和较差的长度外推的限制,但滑动窗口注意力和状态空间模型等替代架构由于其固定大小的内存而牺牲了有效利用完整上下文的能力。基于块的稀疏注意力已成为极长泛化的一种有前途的范例,但支撑其成功的关键架构原则尚未完全理解。在这项工作中,我们对这些模型进行了系统剖析,以确定驱动其性能的核心组件。通过统一的框架和全面的消融研究,我们证明了三个设计原则的结合至关重要:(1) 一个富有表现力的非线性块编码器,带有专用的 CLS Token 来生成用于检索的表示; (2)绕过残差路径,稳定地整合检索到的全局信息,而不会被本地残差流覆盖; (3) 在预训练期间强制选择稀疏性,以弥合训练-测试分布差距。我们为块内信息处理和地标生成提供了理论动机。通过结合这些原则,我们建立了一种新的最先进的免训练长度外推方法,成功地将在 4K 上下文上训练的模型推广到 RULER 和 BABILong 上的 3200 万个标记。我们的研究结果为开发未来的高性能长上下文语言模型提供了一套清晰且以经验为基础的设计原则 ...

0 0 0 0 2026/02/13 arXiv:2510.17196v2 huangyungao

近年来,大型推荐模型的尺度规律研究逐渐受到关注。 Wukong、HiFormer 和 DHEN 等作品试图增加排序模型中交互结构的复杂性,并通过堆叠多层来验证性能和参数/FLOP 之间的缩放法则。然而,他们的实验规模仍然相对有限。我们之前的工作介绍了 TokenMixer 架构,这是标准 Transformer 的高效变体,其中自注意力机制被简单的重塑操作取代,前馈网络适应 pertoken FFN。 RankMixer 论文中提出的模型在排名阶段证明了该架构的有效性。然而,这个基础的 TokenMixer 架构本身有一些设计限制。在本文中,我们提出了 TokenMixer-Large,它系统地解决了这些核心问题:次优残差设计、深度模型中梯度更新不足、MoE 稀疏化不完整以及可扩展性探索有限。通过利用混合和恢复操作、层间残差、辅助损失和新颖的 Sparse-Pertoken MoE 架构,TokenMixer-Large 成功地将在线流量和离线实验的参数分别扩展到 70 亿和 150 亿。目前,TokenMixer -Large已部署在字节跳动的多个场景中,取得了显着的离线和在线性能提升 ...

0 0 0 0 2026/02/13 arXiv:2602.06563v2 Eternity_base

在快速发展的视觉语言导航(VLN)领域,确保物理主体的安全仍然是一个开放的挑战。为了使人机交互语言操作的无人机能够安全导航,它必须理解自然语言命令、感知环境,同时实时避免危险。控制屏障函数 (CBF) 是强制执行安全操作条件的正式方法。模型预测控制 (MPC) 是一种优化框架,可在预测范围内规划一系列未来行动,确保在遵守约束的同时实现平滑的轨迹跟踪。在这项工作中,我们考虑了一个 VLN 操作的无人机平台,并通过制定一种新颖的场景感知 CBF 来增强其安全性,该 CBF 利用来自具有红-绿-蓝以及深度 (RGB-D) 通道的相机的以自我为中心的观察。无 CBF 基线系统使用具有跨模式注意力的视觉语言编码器将命令转换为有序的地标序列。对象检测模型识别并验证捕获图像中的这些地标以生成规划路径。为了进一步增强安全性,提出了自适应安全裕度算法(ASMA)。 ASMA 跟踪移动对象并实时执行场景感知 CBF 评估,这作为 MPC 框架内的附加约束。通过不断识别潜在风险的观察结果,系统对不安全状况进行实时预测,并主动调整其控制动作,以保持整个轨迹的安全导航。使用机器人操作系统 (ROS) 在 Gazebo 环境中的 Parrot Bebop2 四旋翼飞行器上部署后,与基线无 CBF VLN 相比,ASMA 的成功率提高了 64%-67%,而轨迹长度仅略有增加 (1.4%-5.8%) ...

0 0 0 0 2026/02/13 arXiv:2409.10283v4 13766783701

开发能够根据语言指令和视觉信息导航到目标位置的智能体(称为视觉语言导航(VLN))引起了广泛的兴趣。大多数研究都集中在地面代理上,而基于无人机的 VLN 仍然相对未得到充分开发。最近在无人机视觉语言导航方面的努力主要采用基于地面的 VLN 设置,依赖于预定义的离散动作空间,并忽略了代理运动动力学的固有差异以及地面和空中环境之间导航任务的复杂性。为了解决这些差异和挑战,我们从平台、基准和方法论三个角度提出解决方案。为了在 VLN 任务中实现真实的无人机轨迹模拟,我们提出了 OpenUAV 平台,该平台具有多样化的环境、真实的飞行控制和广泛的算法支持。我们进一步在此平台上构建了一个由大约 12k 轨迹组成的面向目标的 VLN 数据集,作为第一个专门为现实无人机 VLN 任务设计的数据集。为了应对复杂空中环境带来的挑战,我们提出了一种名为 UAV-Need-Help 的辅助引导无人机目标搜索基准,它提供不同级别的引导信息,帮助无人机更好地完成现实的 VLN 任务。我们还提出了一种无人机导航LLM,在给定多视图图像、任务描述和辅助指令的情况下,利用MLLM的多模态理解能力来联合处理视觉和文本信息,并执行分层轨迹生成。我们方法的评估结果显着优于基线模型,但我们的结果与人类操作员取得的结果之间仍然存在相当大的差距,这凸显了无人机需要帮助任务带来的挑战 ...

0 0 0 0 2026/02/13 arXiv:2410.07087v2 13766783701

如今,无人机(UAV)通常用于搜索和救援场景,以收集搜索区域的信息。在航拍镜头中自动识别搜索者可以提高此类系统的自主性,减少搜索时间,从而增加失踪者的生存机会。在本文中,我们提出了一种执行语义条件开放词汇对象跟踪的新方法,该方法是专门为应对无人机硬件的限制而设计的。我们的方法有几个优点。它可以通过对失踪人员的口头描述(例如衬衫的颜色)来运行,不需要专门的培训来执行任务,并且可以有效地跟踪可能移动的人员。我们的实验结果证明了我们方法的多功能性和有效性 ...

0 0 0 0 2026/02/13 arXiv:2409.16111v3 13766783701