口语对话系统通常依赖于转录、处理和重新合成语音的级联管道。虽然有效,但这种设计放弃了副语言线索并限制了表达能力。最近的端到端方法减少了延迟并更好地保留了这些线索,但仍然依赖文本中间体,从而造成了根本瓶颈。我们提出了 MOSS-Speech,这是一种真正的语音到语音大语言模型,可以直接理解并生成语音,而不需要依赖文本指导。我们的方法将基于模态的层分割架构与冻结预训练策略相结合,保留预训练文本 LLM 的推理和知识,同时添加本机语音功能。实验表明,我们的模型在语音问答方面取得了最先进的结果,并提供了与现有文本引导系统相当的语音到语音性能,同时仍然保持有竞争力的文本性能。通过缩小文本引导和直接语音生成之间的差距,我们的工作为富有表现力和高效的端到端语音交互建立了新的范式 ...

0 0 0 0 2026/03/25 arXiv:2510.00499v2 ston

抽象推理,即从问题的抽象本质进行推理的能力,是人类推理泛化的关键。然而,引发语言模型来执行抽象推理仍有待探索。本文试图通过引入一种称为抽象思想(AoT)的新颖的结构化推理格式来弥补这一差距。 AoT 的独特性在于其对推理过程中不同抽象级别的明确要求。这种方法可以引发语言模型在合并具体细节之前首先在抽象层面上进行思考,而这一点被流行的分步思想链(CoT)方法所忽视。为了使模型与 AoT 格式保持一致,我们推出了 AoT Collection,这是一个通用的微调数据集,由通过自动化且可扩展的管道收集的 348k 高质量样本组成,具有 AoT 推理过程。我们使用 AoT Collection 对各种语言模型进行微调,并对来自具有挑战性的基准 Big-Bench Hard 的 23 个未见过的任务进行广泛的评估。实验结果表明,在许多推理任务中,符合 AoT 推理格式的模型明显优于符合 CoT 的模型 ...

0 0 0 0 2026/03/25 arXiv:2406.12442v2 hxh123

应用大型语言模型 (LLM) 时,代码生成的安全性仍然是一个关键挑战。本文介绍了 RefleXGen,这是一种创新方法,通过将检索增强生成 (RAG) 技术与 LLM 固有的引导自反射机制相集成,显着增强了代码安全性。与依赖微调 LLM 或开发专门的安全代码数据集(可能会占用资源的过程)的传统方法不同,RefleXGen 通过自我评估和反思迭代优化代码生成过程,而不需要大量资源。在此框架内,模型不断积累和完善其知识库,从而逐步提高生成代码的安全性。实验结果表明,RefleXGen 大幅增强了多个模型的代码安全性,GPT-3.5 Turbo 提高了 13.6%,GPT-4o 提高了 6.7%,CodeQwen 提高了 4.5%,Gemini 提高了 5.8%。我们的研究结果强调,提高模型自我反思的质量是加强人工智能生成代码安全性的有效且实用的策略 ...

0 0 0 0 2026/03/25 arXiv:2510.23674v1 蛙isme

传统的目标检测模型受到封闭集数据集的限制,仅检测训练期间遇到的类别。虽然多模态模型通过对齐文本和图像模态来扩展类别识别,但由于跨模态融合,它们引入了显着的推理开销,并且仍然受到预定义词汇的限制,使得它们在开放世界场景中处理未知对象时无效。在这项工作中,我们引入了通用开放世界对象检测(Uni-OWD),这是一种统一开放词汇和开放世界对象检测任务的新范式。为了应对这种环境的挑战,我们提出了 YOLO-UniOW,这是一种突破效率、多功能性和性能界限的新颖模型。 YOLO-UniOW 采用自适应决策学习,用 CLIP 潜在空间中的轻量级对齐取代计算成本高昂的跨模态融合,从而在不影响泛化的情况下实现高效检测。此外,我们设计了一种通配符学习策略,可以将分布外的对象检测为“未知”,同时无需增量学习即可实现动态词汇扩展。这种设计使 YOLO-UniOW 能够无缝适应开放世界环境中的新类别。大量实验验证了YOLO-UniOW的优越性,在LVIS上实现了34.6 AP和30.0 APr,推理速度为69.6 FPS。该模型还为 M-OWODB、S-OWODB 和 nuScenes 数据集设定了基准,展示了其在开放世界对象检测方面无与伦比的性能。代码和模型可从此 https URL 获取 ...

0 0 0 0 2026/03/25 arXiv:2412.20645v1 18804024672

导出控制模型性能和计算投资之间关系的可预测缩放法则对于大规模推荐系统中的设计和资源分配至关重要。虽然这些法则是为大型语言模型建立的,但它们对于推荐系统仍然具有挑战性,尤其是那些同时处理用户历史和上下文特征的推荐系统。我们认为,较差的扩展效率是可预测幂律扩展的主要障碍,其根源在于低模型浮点运算利用率 (MFU) 和次优资源分配的低效模块。我们引入了昆仑,一个可扩展的架构,可以系统地提高模型效率和资源分配。我们的低级优化包括广义点积注意力(GDPA)、分层种子池(HSP)和滑动窗口注意力。我们的高级创新包括计算跳过 (CompSkip) 和事件级个性化。这些进步将 NVIDIA B200 GPU 上的 MFU 从 17% 提高到 37%,并且缩放效率比最先进的方法提高了一倍。昆仑万维现已部署在主要元广告模型中,产生了显着的生产影响 ...

0 0 0 0 2026/03/25 arXiv:2602.10016v2 zhangyuepeng

我们推出了 SWE-Bench Pro,这是一个更具挑战性的基准测试,它建立在 SWE-BENCH [25] 的最佳实践之上,但明确设计用于捕获超出 SWE-BENCH 范围的现实、复杂的企业级问题。 SWE-BENCH PRO 包含 1,865 个问题,这些问题来自 41 个积极维护的不同存储库,涵盖业务应用程序、B2B 服务和开发人员工具。该基准测试分为一组可开放访问来自 11 个存储库的问题的公共组、一组由 12 个存储库组成的保留组和一组由 18 个专有存储库组成的商业组,我们在其中与早期初创公司签订了正式的合作伙伴协议。保留组和商业组中的问题不能公开访问,但我们会在商业组上发布结果。我们的基准测试具有长期任务,专业软件工程师可能需要数小时到数天才能完成,通常涉及跨多个文件的补丁和大量代码修改。所有任务均经过人工验证,并通过足够的上下文进行增强,以确保可解决性。为了更好地理解这些局限性,我们对收集的代理轨迹中观察到的故障模式进行了聚类,以便更清晰地表征当前模型所表现出的错误模式。总体而言,SWE-BENCH PRO 提供了一个抗污染的测试平台,可以更忠实地捕捉现实世界软件开发的复杂性和多样性,推动对专业水平上真正自主的软件工程代理的追求 ...

0 0 0 0 2026/03/25 arXiv:2509.16941v2 hellogdc

随着大型音频语言模型(LALM)的快速发展,音频问答(AQA)已成为一项具有挑战性的任务,需要细粒度的音频理解和复杂的推理。虽然当前的方法主要依赖于通过字幕或推理轨迹构建新的数据集,但现有的高质量 AQA 数据仍未得到充分利用。为了解决这个问题,我们提出了 Omni-CLST,一种具有引导选择性思维链的错误感知课程学习框架。该框架通过两个关键策略有效地利用现有的高质量数据集:按难度组织样本的错误感知课程,以及将推理重点放在具有挑战性的案例上的引导思想退出机制。实验表明,Omni-CLST 在 MMAU-mini 上达到了 73.80%,在 MMAR 上达到了 64.30% 的新水平,证明了多模态音频语言理解的强大泛化能力 ...

0 0 0 0 2026/03/25 arXiv:2509.12275v3 Du

我们介绍了Kimi K2,这是Experts的混合物(MOE)大型语言模型,具有320亿个激活参数和1万亿个总参数。我们提出了MUONCLIP优化器,该优化器通过新颖的QK-CLIP技术来改进MUON,以解决训练不稳定性,同时享受Muon的先进 Token 效率。基于MuonClip,K2在15上进行了预培训 ...

0 0 0 0 2026/03/25 arXiv:2507.20534v2 pipixiadian

我们提出了多模态 OCR (MOCR),这是一种文档解析范例,可将文本和图形联合解析为统一的文本表示。与专注于文本识别并将图形区域保留为裁剪像素的传统 OCR 系统不同,我们的方法(称为此 http URL)将图表、图表、表格和图标等视觉元素视为一流的解析目标,使系统能够解析文档,同时保留元素之间的语义关系。它具有以下几个优点:(1)它将文本和图形重建为结构化输出,从而实现更忠实的文档重建; (2)它支持异构文档元素的端到端训练,允许模型利用文本和视觉组件之间的语义关系; (3)它将以前丢弃的图形转换为可重用的代码级监督,解锁嵌入现有文档中的多模式监督。为了使这种范式大规模实用,我们从 PDF、渲染的网页和本机 SVG 资源构建了一个全面的数据引擎,并通过分阶段预训练和监督微调来训练紧凑的 3B 参数模型。我们从两个角度评估这个http URL:文档解析和结构化图形解析。在文档解析基准测试中,它在我们的 OCR Arena Elo 排行榜上排名第二,仅次于 Gemini 3 Pro,超越了现有的开源文档解析系统,并在 olmOCR Bench 上创下了 83.9 的新水平。在结构化图形解析方面,该 http URL 在图像到 SVG 基准测试中实现了比 Gemini 3 Pro 更高的重建质量,在图表、UI 布局、科学图表和化学图表上展示了强大的性能。这些结果展示了为多模式预训练构建大规模图像到代码语料库的可扩展路径。代码和模型可通过此 https URL 公开获得 ...

0 0 0 0 2026/03/25 arXiv:2603.13032v2 chenlei

这项工作引入了 DiffuseLoco,这是一个框架,用于训练基于多技能扩散的策略,用于从离线数据集进行动态腿部运动,从而实现对现实世界中机器人的各种技能的实时控制。大规模离线学习带来了计算机视觉、自然语言处理和机器人操作领域的突破。然而,扩大腿式机器人运动的学习,特别是在单一策略中使用多种技能,对先前的在线强化学习方法提出了重大挑战。为了应对这一挑战,我们提出了一种新颖的、可扩展的框架,该框架利用扩散模型直接从具有多种运动技能的离线多模态数据集中学习。通过为动态系统中的实时控制量身定制的设计选择,包括后退地平线控制和延迟输入,DiffuseLoco 能够在执行各种运动技能时再现多模态,零镜头传输到真正的四足机器人,并且可以部署在边缘计算设备上。此外,DiffuseLoco 展示了技能和针对环境变化的鲁棒性之间的自由转换。通过在现实世界实验中进行广泛的基准测试,与之前的强化学习和非基于扩散的行为克隆基线相比,DiffuseLoco 表现出更好的稳定性和速度跟踪性能。设计选择通过全面的消融研究得到验证。这项工作通过扩展大型、富有表现力的模型和多样化的离线数据集,为扩展基于学习的腿式运动控制器开辟了新的可能性 ...

0 0 0 0 2026/03/25 arXiv:2404.19264v1 ziyanhuang