我们推出 MiMo-V2-Flash,这是一种专家混合 (MoE) 模型,具有 309B 总参数和 15B 活动参数,专为快速、强大的推理和代理功能而设计。 MiMo-V2-Flash采用混合注意力架构,将滑动窗口注意力(SWA)与全局注意力交错,在5:1的混合比例下具有128个token的滑动窗口。该模型通过多 Token 预测 (MTP) 对 27 万亿个 Token 进行了预训练,采用原生 32k 上下文长度,随后扩展到 256k。为了有效扩展训练后计算,MiMo-V2-Flash 引入了一种新颖的多教师按策略蒸馏 (MOPD) 范例。在此框架中,领域专业教师(例如,通过大规模强化学习进行培训)提供密集且 Token 级别的奖励,使学生模型能够完美掌握教师的专业知识。 MiMo-V2-Flash 可以与 DeepSeek-V3.2 和 Kimi-K2 等顶级开放权重模型相媲美,尽管它们分别只使用了它们总参数的 1/2 和 1/3。在推理过程中,通过将 MTP 重新用作推测解码的草案模型,MiMo-V2-Flash 通过三个 MTP 层实现了高达 3.6 的接受长度和 2.6 倍的解码加速。我们开源模型权重和三层 MTP 权重,以促进开放研究和社区协作 ...
我们推出 Cambrian-1,这是一个采用以视觉为中心的方法设计的多模式 LLM (MLLM) 系列。虽然更强大的语言模型可以增强多模态能力,但视觉组件的设计选择通常没有得到充分探索,并且与视觉表示学习研究脱节。这种差距阻碍了现实场景中准确的感官基础。我们的研究使用 LLM 和视觉指令调整作为评估各种视觉表示的界面,基于 20 多个视觉编码器的实验,为不同模型和架构(自监督、强监督或其组合)提供新的见解。我们严格检查现有的 MLLM 基准,解决整合和解释各种任务结果所涉及的困难,并引入新的以视觉为中心的基准 CV-Bench。为了进一步改善视觉基础,我们提出了空间视觉聚合器(SVA),这是一种动态的空间感知连接器,它将高分辨率视觉功能与 LLM 集成在一起,同时减少了 Token 的数量。此外,我们讨论了来自公开来源的高质量视觉指令调整数据的管理,强调数据源平衡和分配比例的重要性。总的来说,Cambrian-1 不仅实现了最先进的性能,而且还可以作为指令调整 MLLM 的全面、开放的食谱。我们提供模型权重、代码、支持工具、数据集以及详细的指令调整和评估方法。我们希望我们的发布能够激发并加速多模式系统和视觉表示学习的进步 ...
基于角色的对话(又称角色扮演)使用户可以自由定制角色进行交互,而这往往依赖于LLM,因此需要评估LLM的角色定制能力。然而,现有的基准无法确保稳健的评估,因为它们通常只涉及单个字符类别或评估有限的维度。此外,响应中角色特征的稀疏性使得以特征为中心的生成评估既无效又低效。为了解决这些问题,我们提出了最大的双语生成基准 CharacterBench,其中包含 22,859 个人工注释样本,涵盖 25 个详细字符类别的 3,956 个字符。我们定义了6个方面的11个维度,根据特定维度评估的字符特征是否在每个响应中体现,分为稀疏维度和稠密维度。我们通过为每个维度精心设计定制查询来诱导角色与特定维度相关的响应,从而实现有效且高效的评估。此外,我们开发了CharacterJudge模型,以实现经济有效且稳定的评估。实验表明它比 SOTA 自动判断器(例如 GPT-4)具有优越性,并且我们的基准测试具有优化 LLM 角色定制的潜力。我们的存储库位于此 https URL ...
最先进的视觉-语言-动作(VLA)模型擅长语义泛化,但很难泛化到新环境中看不见的物理运动。我们介绍 DreamZero,这是一种基于预训练视频传播主干的世界动作模型 (WAM)。与 VLA 不同,WAM 通过预测未来世界状态和行为来学习物理动力学,并使用视频作为世界如何演变的密集表示。通过对视频和动作进行联合建模,DreamZero 可以从异构机器人数据中有效地学习各种技能,而无需依赖重复演示。与真实机器人实验中最先进的 VLA 相比,这使得对新任务和环境的泛化能力提高了 2 倍以上。至关重要的是,通过模型和系统优化,我们使 14B 自回归视频扩散模型能够以 7Hz 执行实时闭环控制。最后,我们演示了两种形式的跨实体传输:来自其他机器人或人类的纯视频演示仅用 10-20 分钟的数据就可以使看不见的任务性能相对提高 42% 以上。更令人惊讶的是,DreamZero 实现了少样本实施例适应,仅用 30 分钟的播放数据转移到新实施例,同时保留零样本泛化 ...
基于指令的图像编辑数据集的质量和多样性不断提高,但用于基于指令的视频编辑的大规模、高质量数据集仍然稀缺。为了解决这一差距,我们引入了 OpenVE-3M,这是一个用于基于指令的视频编辑的开源、大规模、高质量的数据集。它包括两个主要类别:空间对齐编辑(全局样式、背景更改、本地更改、本地删除、本地添加和字幕编辑)和非空间对齐编辑(相机多重拍摄编辑和创意编辑)。所有编辑类型都是通过精心设计的数据管道和严格的质量过滤生成的。 OpenVE-3M 在规模、编辑类型多样性、指令长度和整体质量方面超越了现有的开源数据集。此外,为了解决该领域缺乏统一基准的问题,我们构建了 OpenVE-Bench,其中包含 431 个视频编辑对,涵盖了各种编辑任务,其中三个关键指标与人类判断高度一致。我们提出了 OpenVE-Edit,这是一个在我们的数据集上训练的 5B 模型,通过在 OpenVE-Bench 上设置新的最先进技术,展示了卓越的效率和有效性,优于包括 14B 基线在内的所有先前开源模型。项目页面位于此 https URL ...
通过顺序模型从用户交互历史中学习已成为大规模推荐系统的基石。大型语言模型的最新进展揭示了有希望的缩放定律,引发了对长序列建模和推荐任务的更深层次架构的研究浪潮。然而,最近的许多方法严重依赖交叉注意力机制来解决顺序建模中的二次计算瓶颈,这可能限制从自注意力中获得的表示能力。我们提出了 ULTRA-HSTU,这是一种通过端到端模型和系统协同设计开发的新型顺序推荐模型。通过在输入序列、稀疏注意力机制和模型拓扑的设计上进行创新,ULTRA-HSTU在模型质量和效率上都取得了实质性的提高。全面的基准测试表明,ULTRA-HSTU 实现了显着的扩展效率提升——与传统模型相比,训练扩展速度快了 5 倍,推理扩展速度快了 21 倍——同时提供了卓越的推荐质量。我们的解决方案已大规模全面部署,每天为数十亿用户提供服务,并推动实际生产环境中的消费和参与度显着提高 4% 至 8% ...
精神健康风险是一项重大的全球公共卫生挑战,需要创新且可靠的评估方法。随着大语言模型(LLM)的发展,它们成为可解释的心理健康护理应用的有前途的工具。然而,现有的方法主要依赖于主观的文本心理记录,这些记录可能会被固有的心理不确定性所扭曲,从而导致不一致和不可靠的预测。为了解决这些限制,本文引入了 ProMind-LLM。我们研究了一种创新方法,将客观行为数据作为补充信息与主观心理记录结合起来,以进行稳健的心理健康风险评估。具体来说,ProMind-LLM 整合了一个全面的管道,其中包括针对心理健康背景定制 LLM 的特定领域预训练、优化数值行为数据处理的自我完善机制,以及增强其预测的可靠性和可解释性的因果思维链推理。对两个现实世界数据集 PMData 和 Globem 的评估证明了我们提出的方法的有效性,与一般 LLM 相比取得了实质性改进。我们预计 ProMind-LLM 将为更可靠、可解释和可扩展的心理健康案例解决方案铺平道路 ...
地图构建任务对于提供自动驾驶系统必需的精确且全面的静态环境信息起着至关重要的作用。主要传感器包括摄像头和激光雷达,基于成本性能考虑,其配置在仅摄像头、仅激光雷达或摄像头-激光雷达融合之间变化。虽然基于融合的方法通常表现最好,但现有的方法经常忽略模态交互并依赖于简单的融合策略,这会遇到错位和信息丢失的问题。为了解决这些问题,我们提出了 MapFusion,一种用于地图构建的新型多模态鸟瞰(BEV)特征融合方法。具体来说,为了解决相机和 LiDAR BEV 特征之间的语义错位问题,我们引入了跨模态交互变换(CIT)模块,实现两个 BEV 特征空间之间的交互,并通过自注意力机制增强特征表示。此外,我们提出了一种有效的双动态融合(DDF)模块来自适应地从不同模态中选择有价值的信息,这可以充分利用不同模态之间的固有信息。此外,MapFusion 设计简单且即插即用,可轻松集成到现有管道中。我们在两个地图构建任务上评估 MapFusion,包括高清 (HD) 地图和 BEV 地图分割,以展示其多功能性和有效性。与最先进的方法相比,MapFusion 在 nuScenes 数据集上的 HD 地图构建和 BEV 地图分割任务上分别实现了 3.6% 和 6.2% 的绝对改进,证明了我们方法的优越性 ...
工业控制系统 (ICS) 严重依赖可编程逻辑控制器 (PLC) 来管理关键基础设施,但由于专有编译器多种多样且对源代码的访问有限,分析 PLC 可执行文件仍然具有挑战性。为了弥补这一差距,我们引入了 PLC-BEAD,这是一个综合数据集,包含来自 4 个主要工业编译器(CoDeSys、GEB、OpenPLC-V2、OpenPLC-V3)的 700 多个 PLC 程序的 2431 个编译二进制文件。这个新颖的数据集将每个二进制文件与其原始结构化文本源代码和标准化功能标签独特地配对,从而实现二进制级别和源代码级别的分析。我们通过 PLCEmbed 演示了该数据集的实用性,PLCEmbed 是一种基于 Transformer 的二进制代码分析框架,在编译器来源识别方面实现了 93% 的准确度,在 22 个工业控制类别的细粒度功能分类方面实现了 42% 的准确度。通过全面的消融研究,我们分析了编译器优化级别、代码模式和类分布如何影响模型性能。我们提供数据集创建过程、标签分类和基准协议的详细文档,以确保可重复性。 PLC-BEAD 和 PLCEmbed 均作为开源资源发布,以促进 PLC 安全、逆向工程和 ICS 取证研究,为数据驱动的工业网络安全方法建立新的基线 ...
我们引入了一种新颖的风格化运动扩散模型,称为 SMooDi,用于生成由内容文本和风格运动序列驱动的风格化运动。与生成各种内容的运动或将风格从一个序列转移到另一个序列的现有方法不同,SMooDi 可以快速生成跨广泛内容和不同风格的运动。为此,我们定制了一个预先训练的文本到运动模型以进行风格化。具体来说,我们提出风格指导,以确保生成的运动与参考风格紧密匹配,同时使用轻量级风格适配器将运动引导至所需的风格,同时确保真实感。各种应用程序的实验表明,我们提出的框架在风格化运动生成方面优于现有方法 ...