2019 年推出的通用人工智能抽象与推理语料库 (ARC-AGI) 建立了一个具有挑战性的基准,通过一组仅需要最少先验知识的独特、新颖的任务来评估人工系统的通用流体智能。虽然 ARC-AGI 在过去五年中激发了重要的研究活动,但最近的人工智能进展需要能够在更高水平的认知复杂性上进行更细粒度评估的基准。我们推出 ARC-AGI-2,这是基准测试的升级版本。 ARC-AGI-2 保留了其前身的输入输出对任务格式,确保研究人员的连续性。它包含了一组新策划和扩展的任务,专门设计用于提供更精细的信号,以评估更高水平的流体智力的抽象推理和解决问题的能力。为了说明 ARC-AGI-2 的难度和特征,我们展示了人类测试的广泛结果,提供了一个可靠的基线,突出了该基准对人类智能的可访问性,但对当前人工智能系统来说却很困难。 ARC-AGI-2 旨在成为下一代工具,用于严格衡量更通用和类人人工智能能力的进展 ...
最近的训练后量化(PTQ)方法采用了块旋转来在舍入之前扩散异常值。虽然这减少了全矢量旋转的开销,但块结构对异常值抑制的影响仍然知之甚少。为了填补这一空白,我们提出了第一个对块哈达玛旋转的异常值抑制的系统性非渐近分析。我们的分析表明,异常值抑制从根本上受到输入向量的几何形状的限制。特别是,当旋转前 $\ell_1$ 范数质量均匀分布在块之间时,旋转后异常值确定性最小化。在这些见解的指导下,我们引入了 MixQuant,这是一个块旋转感知的 PTQ 框架,可在旋转之前通过排列重新分配激活质量。我们提出了一种贪婪质量扩散算法,通过均衡预期的块式 $\ell_1$ 范数来校准排列。为了避免增加推理开销,我们在 Transformer 架构中识别排列等变区域,以便在部署之前将结果排列合并到模型权重中。实验表明,MixQuant 始终如一地提高了所有块大小的准确性,在将块大小为 16 的 Llama3 1B 量化为 INT4 时,恢复了高达 90% 的全矢量旋转困惑度,而没有排列的情况下恢复了 46% ...
深度研究 (DR) 代理通过自动检索大型网络语料库中的证据并将其合成为长格式报告,将大型语言模型 (LLM) 扩展到参数知识之外,从而实现长期代理范式。然而,与实时对话助理不同,灾难恢复的计算成本昂贵且耗时,从而造成自主交互困境:对模糊用户查询的高度自主通常会导致执行时间延长,结果不令人满意。为了解决这个问题,我们提出了 IntentRL,这是一个框架,可以训练主动代理以在开始长期研究之前澄清潜在的用户意图。为了克服开放式研究数据的稀缺性,我们引入了一个可扩展的管道,通过从浅到深的意图细化图将一些种子样本扩展到高质量的对话回合。我们进一步采用两阶段强化学习(RL)策略:第一阶段将强化学习应用于离线对话,以有效学习一般用户交互行为,而第二阶段使用经过训练的代理和用户模拟器进行在线部署,以加强对不同用户反馈的适应。大量实验表明,IntentRL 显着提高了意图命中率和下游任务性能,优于闭源 DR 代理和主动 LLM 基线的内置澄清模块 ...
由于动态工作负载、严格的延迟/吞吐量目标以及快速扩展的配置空间,优化生产系统中的大型语言模型 (LLM) 推理变得越来越困难。这种复杂性不仅涉及分布式并行策略(张量/管道/专家),还涉及复杂的特定于框架的运行时参数,例如与 CUDA 图的启用、可用的 KV 缓存内存分数和最大 Token 容量相关的参数,这些参数会极大地影响性能。现代推理框架(例如 TRT-LLM、vLLM、SGLang)的多样性,每个框架都采用不同的内核和执行策略,使得手动调整既特定于框架又在计算上令人望而却步。我们推出了 AIConfigurator,这是一个统一的性能建模系统,可实现快速、与框架无关的推理配置搜索,而无需基于 GPU 的分析。 AIConfigurator 结合了 (1) 将推理分解为分析可建模原语的方法 - GEMM、注意力、通信和内存操作,同时捕获特定于框架的调度动态; (2) 跨各种硬件平台和流行的开放权重模型(GPT-OSS、Qwen、DeepSeek、LLama、Mistral)的这些原语的校准内核级性能数据库; (3) 一个抽象层,可自动解析目标后端的最佳启动参数,无缝集成到生产级编排系统中。对生产 LLM 服务工作负载的评估表明,AIConfigurator 识别出卓越的服务配置,可将密集模型(例如 Qwen3-32B)的性能提高高达 40%,将 MoE 架构(例如 DeepSeek-V3)的性能提高 50%,同时平均在 30 秒内完成搜索。能够快速探索广阔的设计空间 - 从集群拓扑到引擎特定标志 ...
在人形机器人中实现人类水平的竞争智力和身体敏捷性仍然是一个重大挑战,特别是在拳击等接触丰富且高度动态的任务中。虽然多智能体强化学习(MARL)为策略交互提供了原则框架,但其在人形控制中的直接应用受到高维接触动力学和缺乏强物理运动先验的阻碍。我们提出了 RoboStriker,这是一个分层的三阶段框架,通过将高级战略推理与低级物理执行分离来实现完全自主的人形拳击。该框架首先通过根据人体动作捕捉数据训练单代理运动跟踪器来学习全面的拳击技能。这些技能随后被提炼成结构化的潜在流形,通过将高斯参数化分布投影到单位超球面上来进行正则化。这种拓扑约束有效地将探索限制在物理上合理运动的子空间中。在最后阶段,我们引入了潜在空间神经虚构自我游戏(LS-NFSP),其中竞争智能体通过在潜在动作空间而不是原始运动空间内交互来学习竞争策略,从而显着稳定多智能体训练。实验结果表明,RoboStriker 在仿真中取得了优异的竞争性能,并具有模拟到真实的迁移能力。我们的网站位于 RoboStriker ...
SkyReels V4 是一个统一的多模态视频基础模型,用于联合视频音频生成、修复和编辑。该模型采用双流多模态扩散 Transformer (MMDiT)架构,其中一个分支合成视频,另一个分支生成时间对齐的音频,同时共享基于多模态大语言模型(MMLM)的强大文本编码器。 SkyReels V4 接受丰富的多模式指令,包括文本、图像、视频剪辑、蒙版和音频参考。通过将 MMLM 多模态指令跟随功能与视频分支 MMDiT 中的上下文学习相结合,该模型可以在复杂条件下注入细粒度的视觉指导,而音频分支 MMDiT 同时利用音频参考来指导声音生成。在视频方面,我们采用通道串联公式,将图像到视频、视频扩展和视频编辑等多种修复风格任务统一在一个界面下,并通过多模式提示自然扩展到视觉参考修复和编辑。 SkyReels V4 支持高达 1080p 的分辨率、32 FPS 和 15 秒的持续时间,可生成具有同步音频的高保真、多镜头、影院级视频。为了使这种高分辨率、长时间的生成在计算上可行,我们引入了一种效率策略:联合生成低分辨率全序列和高分辨率关键帧,然后是专用的超分辨率和帧插值模型。据我们所知,SkyReels V4是第一个同时支持多模态输入、联合视频音频生成以及生成、修复和编辑统一处理的视频基础模型,同时在电影分辨率和时长上保持强大的效率和质量 ...
物理原理是现实视觉模拟的基础,但在基于 Transformer 的视频生成中仍然是一个重要的监督。这一差距凸显了渲染刚体运动的关键限制,而刚体运动是经典力学的核心原则。虽然计算机图形和基于物理的模拟器可以使用牛顿公式轻松地对此类碰撞进行建模,但现代预训练微调范式在像素级全局去噪期间放弃了对象刚性的概念。在训练后的模型优化过程中,即使是完全正确的数学约束也会被视为次优解(即条件),从根本上限制了生成视频的物理真实感。出于这些考虑,我们首次引入了用于视频生成模型的物理感知强化学习范例,该范例直接在高维空间中强制执行物理碰撞规则,确保物理知识被严格应用而不是被视为条件。随后,我们将此范式扩展到一个统一的框架,称为拟态发现循环(MDcycle),它允许进行大量微调,同时完全保留模型利用基于物理的反馈的能力。为了验证我们的方法,我们构建了新的基准 PhysRVGBench 并进行了广泛的定性和定量实验以彻底评估其有效性 ...
使 VLA 模型能够预测环境动态(称为世界建模)已被认为对于改进机器人推理和泛化至关重要。然而,当前的方法面临两个主要问题: 1. 训练目标迫使模型过分强调像素级重建,这限制了语义学习和泛化 2. 推理过程中对预测未来观察的依赖往往会导致错误累积。为了应对这些挑战,我们引入了通过并行渐进扩展的未来表示对齐(FRAPPE)。我们的方法采用两阶段微调策略:在训练中期,模型学习预测未来观察的潜在表示;在训练后阶段,我们并行扩展计算工作量,并同时将表示与多个不同的视觉基础模型对齐。通过显着提高微调效率并减少对动作注释数据的依赖,FRAPPE 提供了一种可扩展且数据高效的途径来增强通用机器人政策的世界意识。 RoboTwin 基准测试和现实世界任务的实验表明,FRAPPE 的性能优于最先进的方法,并在长期和未见过的场景中表现出强大的泛化能力 ...
我们推出了 Muses,这是第一个无需训练的方法,可以在前馈范式中生成奇妙的 3D 生物。以前的方法依赖于零件感知优化、手动组装或 2D 图像生成,由于复杂的零件级操作和有限的域外生成的挑战,通常会产生不切实际或不连贯的 3D 资产。相比之下,Muses 利用 3D 骨架(生物形态的基本表示)来明确、合理地组成不同的元素。这个骨架基础将 3D 内容创建形式化为设计、合成和生成的结构感知管道。 Muses 首先通过图形约束推理构建一个具有连贯布局和比例的创意组合 3D 骨架。然后,该骨架在结构化潜在空间内引导基于体素的组装过程,整合来自不同对象的区域。最后,应用骨骼条件下的图像引导外观建模,为组装后的形状生成风格一致且和谐的纹理。大量的实验确立了 Muses 在视觉保真度、与文本描述的一致性以及灵活 3D 对象编辑潜力方面的最先进性能。项目页面:此 https URL ...
渐进式可视化分析旨在通过可视化以及与中间结果的交互来提高现有分析技术的交互性。数据分析的一种关键方法是降维,例如,生成可以有效可视化和分析的 2D 嵌入。 t 分布随机邻域嵌入 (tSNE) 是一种非常适合多个高维数据可视化的技术。 tSNE 可以创建有意义的中间结果,但初始化速度慢,限制了其在渐进式视觉分析中的应用。我们引入了可控 tSNE 近似(A-tSNE),它权衡速度和准确性,以实现交互式数据探索。我们提供实时可视化技术,包括基于密度的解决方案和用于检查近似程度的魔镜。通过此反馈,用户可以决定局部细化并在分析过程中控制近似水平。我们在现实世界的研究场景中使用多个数据集展示了我们的技术,并用于高维流的实时分析,以说明其对交互式数据分析的有效性 ...