用于 3D 网格生成的自回归模型存在一个基本限制:它们将网格展平为长顶点坐标序列。这导致计算成本过高,阻碍了高保真几何的有效合成。我们认为这个瓶颈源于错误的语义级别的操作。我们引入了 FACE,这是一种新颖的自回归自动编码器 (ARAE) 框架,它通过在面部级别生成网格来重新概念化任务。我们的一面一 Token 策略将每个三角形面(网格的基本构建块)视为一个统一的 Token 。这种简单而强大的设计将序列长度减少了九倍,从而实现了前所未有的 0.11 压缩比,将之前最先进的技术减半。这种显着的效率提升并不会影响质量;通过将我们的面部级解码器与强大的 VecSet 编码器配对,FACE 在标准基准上实现了最先进的重建质量。通过训练实现高保真、单图像到网格生成的潜在扩散模型,进一步证明了所学习的潜在空间的多功能性。 FACE 提供了一个简单、可扩展且功能强大的范例,降低了创建高质量结构化 3D 内容的障碍 ...
离线联邦强化学习(FRL)是联邦学习和离线强化学习的结合,最近引起了越来越多的兴趣。尽管取得了一些进步,但我们发现大多数现有离线 FRL 方法的性能在提供混合质量数据时会急剧下降,也就是说,日志记录行为(离线数据)是由跨客户端的不同质量的策略收集的。为了克服这一限制,本文引入了一种新的基于投票的离线 FRL 框架,名为 FOVA。它利用\emph{投票机制}来识别本地政策评估期间的高回报行为,减轻不同本地学习政策的低质量行为的负面影响。此外,在优势加权回归(AWR)的基础上,我们构建了一致的局部和全局训练目标,显着提高了 FOVA 的效率和稳定性。此外,我们进行了广泛的理论分析,并严格证明 FOVA 学习的策略比行为策略具有严格的策略改进。大量的实验证实了我们提出的算法在广泛使用的基准上相对于现有基线的显着性能提升 ...
空间数据流加速器是下一代计算机系统的一个有前途的方向,因为它们可以减少CPU和GPU等传统冯诺依曼机器的内存瓶颈。它们通过围绕片上网络上显式的、编译器管理的数据移动组织计算来实现这一点,允许操作数在处理元件之间直接转发,并减少对高延迟、带宽有限的全局共享内存的依赖。与重复的片外存储器访问相比,这种局部通信可以提供更高的吞吐量和效率。然而,它们的端到端性能在很大程度上取决于工作负载如何映射到硬件。简单的映射可能表现很差,并且大多数用户依赖于手动调整的供应商库。在实践中,尽管现有的空间数据流加速器在高性能、能源效率和成本效率方面具有强大的潜力,但其有限的可编程性仍然是其更广泛采用的主要障碍。本文介绍了 TL,一种将基于图块的程序(例如 Triton 内核)编译到空间数据流架构上的端到端框架。与大多数现有的专注于优化单个瓦片内代码生成的编译器框架不同,TL 解决了跨空间分布式核心分配瓦片实例以及利用片上网络和分布式存储器来增加数据重用并减少通信的核心挑战。 TL 提出了一种硬件表示形式,可捕获互连拓扑、内存层次结构和计算功能,从而实现特定于架构的专门优化并支持不同的空间数据流目标。 TL 建立在 MLIR 生态系统之上,定义了不同前端的通用入口点和不同后端的端点 ...
人工智能代理越来越多地部署在多租户云环境中,它们在沙盒容器中执行各种工具调用,每个调用都有不同的资源需求和快速波动。我们提出了沙盒 AI 编码代理中操作系统级资源动态的系统特征,分析了跨两个 LLM 模型的 SWE-rebench 基准的 144 个软件工程任务。我们的测量表明,(1) 操作系统级执行(工具调用、容器和代理初始化)占端到端任务延迟的 56-74%; (2)并发瓶颈是内存,而不是CPU; (3) 内存峰值由工具调用驱动,峰值平均值比高达 15.4 倍; (4) 跨任务、运行和模型的资源需求是高度不可预测的。将这些特征与无服务器、微服务和批处理工作负载进行比较,我们发现了现有资源控制中的三个不匹配:粒度不匹配(容器级策略与工具调用级动态)、响应性不匹配(用户空间反应与亚秒级不可预测突发)以及适应性不匹配(基于历史的预测与非确定性状态执行)。我们提出了 AgentCgroup,一种意图驱动的基于 eBPF 的资源控制器,它利用代理声明资源需求和重建执行策略的能力,使用与工具调用边界对齐的分层 cgroup 结构,通过 sched_ext 和 memcg_bpf_ops 进行内核内执行,以及运行时自适应策略。初步评估表明,改善了多租户隔离并减少了资源浪费。 AgentCgroup 在此 https URL 处开源 ...
编程是一种强大且无处不在的解决问题的工具。开发可以帮助程序员甚至独立生成程序的系统可以使编程更加高效和易于访问,但迄今为止,整合人工智能创新已被证明具有挑战性。最近的大规模语言模型已经展示了令人印象深刻的生成代码的能力,并且现在能够完成简单的编程任务。然而,当对更复杂、看不见的问题进行评估时,这些模型仍然表现不佳,这些问题需要解决问题的技能,而不仅仅是将指令转换为代码。例如,需要理解算法和复杂自然语言的竞争性编程问题仍然极具挑战性。为了解决这一差距,我们引入了 AlphaCode,这是一种代码生成系统,可以为这些需要更深入推理的问题创建新颖的解决方案。在Codeforces平台近期的编程竞赛模拟评测中,AlphaCode在超过5000人参与的竞赛中平均排名前54.3%。我们发现三个关键组件对于实现良好且可靠的性能至关重要:(1) 用于训练和评估的广泛而干净的竞争性编程数据集,(2) 基于 Transformer 的大型且高效采样的架构,以及 (3) 大规模模型采样以探索搜索空间,然后根据程序行为过滤一小部分提交 ...
在短视频推荐的排名阶段准确建模长期价值(LTV)仍然具有挑战性。尽管已经探索了延迟反馈和扩展参与,但十亿规模的细粒度归因和稳健的位置标准化仍然不够发达。我们提出了一个实用的排名阶段 LTV 框架,解决三个挑战:位置偏差、归因模糊性和时间限制。 (1) 位置偏差:我们引入了位置感知 Debias Quantile (PDQ) 模块,该模块通过基于分位数的分布标准化参与度,从而无需更改架构即可实现位置稳健的 LTV 估计。 (2) 归因模糊性:我们提出了一个多维归因模块,该模块可以学习跨上下文、行为和内容信号的连续归因强度,取代静态规则以捕获细微的视频间影响。具有显式噪声过滤的定制混合损失提高了因果清晰度。 (3) 时间限制:我们提出了一个跨时间作者建模模块,该模块构建审查感知的日级 LTV 目标,以捕获创作者驱动的更长期的重新参与;该设计可以扩展到其他维度(例如主题、风格)。离线研究和在线 A/B 测试显示 LTV 指标显着改善,并且与短期目标进行稳定权衡。该框架作为现有排名模型中的任务增强实施,支持高效的培训和服务,并已在淘宝的生产系统中进行了数十亿规模的部署,在保持与行业限制兼容的同时提供持续的参与度收益 ...
在原始波形上训练的自回归“语言”模型 (LM) 可以重新用于无损音频压缩,但之前的工作仅限于 8 位音频,因此此类方法是否适用于实际设置(16/24 位)以及是否可以与现有编解码器竞争尚不确定。我们对跨不同领域(音乐、语音、生物声学)、采样率(16kHz-48kHz)和位深度(8、16、24 位)的全保真音频的基于 LM 的压缩进行基准测试。由于词汇大小(16 位为 65K;24 位为 16.7M),标准样本级标记化在较高位深度下变得棘手。我们提出 Trilobyte,一种用于全分辨率音频的字节级标记化模式,将词汇量从 $O(2^{b})$ 提高到 $O(1)$,并实现第一个易于处理的基于 LM 的 24 位无损压缩。虽然 LM 的性能始终优于 FLAC,并在 8 位和 16 位下产生最先进的压缩,但我们观察到,随着位深度增加到超过 8 位,压缩增益变得更加温和 ...
张量并行性 (TP) 使大型语言模型 (LLM) 能够跨多个 GPU 有效扩展推理,但其紧密耦合使系统变得脆弱:单个 GPU 故障可能会停止执行、触发代价高昂的 KVCache 重新计算,并引入长期计算和内存不平衡。我们推出了 FailSafe,这是一种容错 TP 服务系统,可以在不规则的 GPU 可用性下保持高性能。 FailSafe 引入了三种技术来平衡 GPU 之间的计算和内存:(1) 循环 KVCache 放置,以实现统一的内存利用率;(2) 结合张量和数据并行注意力的混合注意力,以消除落后者;(3) 细粒度负载感知路由,以动态平衡请求。它还采用主动 KVCache 备份和按需权重恢复,以避免昂贵的重新计算和冗余数据传输。我们在与现有 LLM 基础设施兼容的轻量级服务引擎中实施这些技术。在具有真实故障跟踪和代表性工作负载的 8xH100 DGX 系统上进行评估后,与标准故障处理方法相比,FailSafe 的吞吐量提高了 2 倍,恢复延迟降低了两个数量级。即使出现多达三个 GPU 故障,FailSafe 仍能维持高吞吐量和平衡利用率,从而在动态和不可靠的硬件条件下展示强大且高效的 LLM 服务 ...
3D 语义占用预测对于自动驾驶感知至关重要,可提供全面的几何场景理解和语义识别。然而,由于缺乏像素级精确深度估计,以及语义类别表现出强空间各向异性的严重空间类不平衡,现有方法在视图变换中面临几何错位的问题。为了应对这些挑战,我们提出了 Dr. Occ,一种深度和区域引导的占用预测框架。具体来说,我们引入了深度引导的 2D 到 3D 视图变换器 (D$^2$-VFormer),它有效地利用 MoGe-2 的高质量密集深度线索来构建可靠的几何先验,从而实现体素特征的精确几何对齐。此外,受混合专家(MoE)框架的启发,我们提出了一种区域引导的专家转换器(R/R$^2$-EFormer),它自适应地分配特定于区域的专家来关注不同的空间区域,有效地解决空间语义变化。因此,这两个组件做出了互补的贡献:深度指导确保几何对齐,而区域专家则增强语义学习。 Occ3D--nuScenes 基准测试表明,Occ 博士在全视觉设置下将强基线 BEVDet4D 提高了 7.43% mIoU 和 3.09% IoU ...
随着视觉语言模型 (VLM) 的最新发展,视频异常检测 (VAD) 得到了迅速发展。虽然这些模型提供了卓越的零样本检测能力,但其巨大的计算成本和不稳定的视觉基础性能阻碍了实时部署。为了克服这些挑战,我们引入了 Cerberus,这是一个两级级联系统,专为高效而准确的实时 VAD 而设计。 Cerberus 离线学习正常的行为规则,并在在线推理过程中将轻量级过滤与细粒度 VLM 推理相结合。 Cerberus 的性能提升来自两项关键创新:运动遮罩提示和基于规则的偏差检测。前者将 VLM 的注意力引导到与运动相关的区域,而后者将异常识别为与习得规范的偏差,而不是枚举可能的异常。对四个数据集的广泛评估表明,与最先进的基于 VLM 的 VAD 方法相比,Cerberus 在 NVIDIA L40S GPU 上平均达到 57.68 fps、151.79$\times$ 的加速和 97.2\% 的准确度,使其成为实时视频分析的实用解决方案 ...