当前的视觉语言导航(VLN)方法面临着语义理解和控制精度之间的权衡。虽然多模态大型语言模型 (MLLM) 提供卓越的推理能力,但将它们部署为低级控制器会导致高延迟、轨迹振荡以及由于几何基础薄弱而导致泛化能力差。为了解决这些限制,我们提出了 Fly0,一个将语义推理与几何规划分离的框架。所提出的方法通过三级管道进行操作:(1)MLLM 驱动模块,用于将自然语言指令转化为 2D 像素坐标; (2)几何投影模块,利用深度数据在3D空间中定位目标; (3) 生成无碰撞轨迹的几何规划器。即使失去视觉接触,这种机制也能实现稳健的导航。通过消除连续推理的需要,Fly0 减少了计算开销并提高了系统稳定性。模拟和现实环境中的大量实验表明,Fly0 的性能优于最先进的基线,在非结构化环境中将成功率提高了 20% 以上,并将导航错误 (NE) 减少了约 50%。我们的代码可以在这个 https URL 上找到 ...
我们推出了 LongCat-Flash-Thinking-2601,这是一个具有 5600 亿参数的开源混合专家 (MoE) 推理模型,具有卓越的代理推理能力。 LongCat-Flash-Thinking-2601 在各种代理基准上实现了开源模型中最先进的性能,包括代理搜索、代理工具使用和工具集成推理。除了基准性能之外,该模型还展示了对复杂工具交互的强大泛化能力以及嘈杂的现实环境下的稳健行为。其先进能力源于统一的训练框架,将领域并行专家训练与后续融合相结合,以及从训练前到训练后的数据构建、环境、算法和基础设施的端到端协同设计。特别是,该模型在复杂工具使用方面的强大泛化能力是由我们对环境扩展和原则性任务构建的深入探索驱动的。为了优化长尾、倾斜生成和多轮代理交互,并实现跨 20 多个领域的 10,000 多个环境的稳定训练,我们系统地扩展了异步强化学习框架 DORA,以实现稳定高效的大规模多环境训练。此外,认识到现实世界的任务本质上是有噪声的,我们对现实世界的噪声模式进行系统分析和分解,并设计有针对性的训练程序,以明确地将这些缺陷纳入训练过程,从而提高现实世界应用的鲁棒性。为了进一步提高复杂推理任务的性能,我们引入了重思考模式,通过密集的并行思维共同扩展推理深度和宽度,从而实现有效的测试时间扩展 ...
多模态大语言模型 (MLLM) 最近在多模态理解、推理和交互方面表现出了令人印象深刻的能力。然而,现有的 MLLM 普遍存在严重的幻觉问题,生成的文本实际上并不基于相关图像。这个问题使得现有的 MLLM 不值得信任,因此在现实世界(尤其是高风险)应用中不切实际。为了应对这一挑战,我们提出了 RLHF-V,它通过细粒度的矫正人类反馈的行为调整来增强 MLLM 的可信度。具体来说,RLHF-V 以对幻觉进行分段级校正的形式收集人类偏好,并对人类反馈进行密集的直接偏好优化。对自动和人工评估中五个基准的综合实验表明,RLHF-V 可以实现更值得信赖的 MLLM 行为,并具有良好的数据和计算效率。值得注意的是,使用 1.4k 个带注释的数据样本,RLHF-V 将基础 MLLM 的幻觉率显着降低了 34.8%,优于在 10k 个带注释数据上训练的并发 LLaVA-RLHF。最终模型在开源 MLLM 中的可信度方面达到了最先进的性能,并且在防止过度泛化引起的幻觉方面表现出比 GPT-4V 更好的鲁棒性。我们在此 https URL 开源我们的代码、模型和数据 ...
医疗对话人工智能(AI)在开发更安全、更有效的医疗对话系统中发挥着关键作用。然而,现有的用于评估医学大语言模型(LLM)信息收集和诊断推理能力的基准和评估框架尚未经过严格评估。为了弥补这些差距,我们推出了 MedDialogRubrics,这是一个新颖的基准,包含 5,200 个综合构建的患者病例和 60,000 多个由 LLM 生成并随后由临床专家完善的细粒度评估标准,专门用于评估 LLM 的多轮诊断能力。我们的框架采用多代理系统来合成真实的患者记录和来自潜在疾病知识的主诉,而无需访问现实世界的电子健康记录,从而减轻隐私和数据治理问题。我们设计了一个强大的患者代理,它仅限于一组原子医学事实,并通过动态指导机制进行增强,该机制在整个对话过程中不断检测和纠正幻觉,确保模拟病例的内部一致性和临床合理性。此外,我们提出了一个基于 LLM 和专家注释的结构化标题生成管道,该管道检索循证医学 (EBM) 指南,并利用拒绝抽样为每个案例导出一组优先的标题项目(“必须询问”项目)。我们对最先进的模型进行了全面评估,并证明,在多个评估维度上,当前模型面临着巨大的挑战。我们的结果表明,改善医疗对话需要对话管理架构的进步,而不仅仅是对基本模型的增量调整 ...
指令微调是利用大型语言模型 (LLM) 来增强任务性能的关键进步。然而,指令数据集的注释传统上是昂贵且费力的,通常依赖于手动注释或专有 LLM 的昂贵的 API 调用。为了应对这些挑战,我们引入了 FANNO,这是一个完全自主的开源框架,它彻底改变了注释过程,而无需预先存在的注释数据。 FANNO 利用 Mistral-7b-instruct 模型,通过涉及文档预筛选、指令生成和响应生成的结构化流程,高效生成多样化且高质量的数据集。 Open LLM Leaderboard 和 AlpacaEval 基准测试表明,FANNO 可以免费生成具有多样性和复杂性的高质量数据,可与人工注释或清理的数据集(如 Alpaca-GPT4-Cleaned)相媲美 ...
随着大型语言模型 (LLM) 越来越多地集成到现实世界的应用程序中,确保其安全性、稳健性和隐私合规性变得至关重要。我们推出 OpenGuardrails,这是第一个完全开源的平台,它统一了基于大型模型的安全检测、操纵防御和可部署的护栏基础设施。 OpenGuardrails 可防范三类主要风险:(1) 内容安全违规,例如有害或显式文本生成;(2) 模型操纵攻击,包括提示注入、越狱和代码解释器滥用;(3) 涉及敏感或私人信息的数据泄露。与之前的模块化或基于规则的框架不同,OpenGuardrails 引入了三个核心创新:(1)可配置的策略适应机制,允许根据请求自定义不安全类别和敏感度阈值; (2) 基于 LLM 的统一防护架构,可在单个模型中执行内容安全和操纵检测; (3) 量化、可扩展的模型设计,通过 GPTQ 将 14B 密集基础模型压缩到 3.3B,同时保留超过 98 的基准精度。该系统支持 119 种语言,在多语言安全基准上实现了最先进的性能,并且可以部署为安全网关或基于 API 的服务供企业使用。所有模型、数据集和部署脚本均在 Apache 2.0 许可证下发布 ...
标量奖励模型将多维人类偏好压缩为单个不透明分数,从而产生信息瓶颈,通常导致开放式对齐中的脆弱性和奖励黑客行为。我们认为,对不可验证任务的鲁棒对齐从根本上来说是一个原则泛化问题:奖励不应该是内化到法官中的学习函数,而应该是在可检查原则下执行的显式推理过程。为了实现这一观点,我们提出了开放Rubric系统(OpenRS),这是一个即插即用、基于Rubrics的LLM作为法官框架,围绕成对自适应元Rubrics(PAMR)和轻量级逐点可验证Rubrics(PVR)构建,当地面真相或程序化检查可用时,它提供硬约束护栏和可验证的奖励组件。 OpenRS 使用显式的元标准(一种类似于宪法的规范,用于管理如何实例化、加权和执行标准),并通过调节两个候选响应之间的语义差异来动态实例化自适应标准。然后,它执行标准的成对比较并在外部聚合标准级别的偏好,避免逐点加权标量化,同时提高开放式设置中的可辨别性。为了保持原则在不同领域的一致性和可编辑性,我们引入了一个两级元标准细化管道(一般原则的自动进化细化和领域原则的可重复的人机循环程序),并辅以逐点可验证的标准,这些标准既可以作为防止退化行为的护栏,也可以作为目标子任务的可验证奖励的来源。最后,我们将 OpenRS 实例化为成对 RL 训练中的奖励监督 ...
大型语言模型(LLM)的快速缩放已在当前的硬件体系结构中揭示了关键限制,包括记忆容量,计算效率和互连带宽的限制。 DeepSeek-V3接受了2,048个NVIDIA H800 GPU培训,展示了硬件感知模型共同设计如何有效地应对这些挑战,从而实现了成本效益的培训和规模的推论。 This paper presents an in-depth analysis of the DeepSeek-V3/R1 model architecture and its AI infrastructure, highlighting key innovations such as Multi-head Latent Attention (MLA) for enhanced memory efficiency, Mixture of Experts (MoE) architectures for optimized computation-communication trade-offs, FP8 mixed-precision training to unlock the full potential of hardware capabilities, and a Multi-Plane Network Topology to最小化集群级网络开销 ...
使用交互式工具的代理必须通过与人类和外部环境的多轮交互来解决现实世界的任务,需要对话状态跟踪、多步骤工具执行,同时遵循复杂的指令。此类智能体的后训练具有挑战性,因为高质量多轮工具使用数据的合成难以扩展,并且强化学习(RL)可能面临用户模拟引起的噪声信号,从而导致训练效率下降。我们提出了一个统一的框架,将自我进化的数据代理与基于验证者的强化学习相结合。我们的系统 EigenData 是一个分层多代理引擎,它将基于工具的对话与可执行的每个实例检查器综合在一起,并通过更新提示和工作流程的闭环自我进化过程来提高生成可靠性。基于合成数据,我们开发了一种 RL 配方,首先对用户模型进行微调,然后应用具有轨迹级组相对优势和动态过滤的 GRPO 式训练,从而产生超越 SFT 的持续改进。在 tau^2-bench 上进行评估,我们的最佳模型在航空公司上达到 73.0% 通过^1,在电信上达到 98.3% 通过^1,匹配或超过前沿模型。总的来说,我们的结果提出了一种可扩展的途径,可以引导复杂的工具使用行为,而无需昂贵的人工注释 ...
随着工业推荐系统进入扩展驱动的状态,Transformer 架构对于将模型扩展到更大容量和更长序列变得越来越有吸引力。然而,现有的基于 Transformer 的推荐模型在结构上仍然是碎片化的,其中序列建模和特征交互是作为具有独立参数化的单独模块实现的。这种设计引入了基本的协同缩放挑战,因为在有限的计算预算下,模型容量必须在密集特征交互和序列建模之间进行次优分配。在这项工作中,我们提出了 MixFormer,这是一种为推荐系统量身定制的统一 Transformer 风格的架构,它在单个主干内联合建模顺序行为和特征交互。通过统一的参数化,MixFormer 能够在密集容量和序列长度上实现有效的共缩放,从而减轻解耦设计中观察到的权衡。此外,集成架构促进了顺序表示和非顺序表示之间的深度交互,允许高阶特征语义直接通知序列聚合并增强整体表达能力。为了确保工业实用性,我们进一步引入了用于效率优化的用户-项目解耦策略,可显着减少冗余计算和推理延迟。对大规模工业数据集的大量实验表明,MixFormer 始终表现出卓越的准确性和效率。此外,对抖音和抖音精简版这两个生产推荐系统进行的大规模在线 A/B 测试显示,用户参与度指标(包括活跃天数和应用内使用时长)持续改善 ...