近年来,大型语言模型(LLM)推动了语言理解的重大进步,标志着向通用人工智能(AGI)迈出了重要一步。随着对高级语义和跨模态融合的需求不断增加,多模态大语言模型(MLLM)应运而生,它集成了不同的信息源(例如文本、视觉和音频)以增强复杂场景中的建模和推理。在科学人工智能领域,多模态情感识别和推理已成为一个快速发展的前沿领域。尽管 LLM 和 LLM 在这一领域取得了显着进展,但该领域仍然缺乏巩固最新发展的系统回顾。为了解决这一差距,本文对用于情感识别和推理的 LLM 和 MLLM 进行了全面的调查,涵盖模型架构、数据集和性能基准。我们进一步强调了关键挑战并概述了未来的研究方向,旨在为研究人员提供推动该领域发展的权威参考和实践见解。据我们所知,本文是首次尝试全面调查 MLLM 与多模态情感识别和推理的交叉点。提到的现有方法的摘要在我们的 Github 中:\href{this https URL}{this https URL} ...

0 0 0 0 2026/01/13 arXiv:2509.24322v1 iris

从单个图像中恢复多人人体网格是一项具有挑战性的任务,受到野外训练数据稀缺的阻碍。流行的野外人体网格伪地面实况(pGT)生成管道是以单人为中心的,其中每个人都是单独处理的,没有联合优化。这种疏忽导致缺乏场景级一致性,从而在同一图像中产生具有冲突深度和尺度的个体。为了解决这个问题,我们引入了深度条件平移优化(DTO),这是一种基于优化的新颖方法,可以共同细化人群中所有个体的相机空间平移。通过利用来自单眼深度估计器的人体身高和深度线索的人体测量先验,DTO 解决了原则性最大后验 (MAP) 框架内所有对象的场景一致放置问题。将 DTO 应用于 4D-Humans 数据集,我们构建了 DTO-Humans,这是一个新的大规模 pGT 数据集,包含 0.56M 高质量、场景一致的多人图像,其特点是密集的人群,平均每张图像有 4.8 人。此外,我们提出了 Metric-Aware HMR,这是一种端到端网络,可以直接估计公制尺度的人体网格和相机参数。这是通过相机分支和相对度量损失来实现的,该相对度量损失强制执行合理的相对比例。大量的实验表明,我们的方法在相对深度推理和人体网格恢复方面实现了最先进的性能。代码可在以下位置获得:此 https URL ...

0 0 0 0 2026/01/13 arXiv:2511.13282v2 小小卡拉米

随着模型规模的扩大和硬件计算吞吐量的改进超过了互连带宽的改进,GPU 间通信已成为现代人工智能工作负载的主要瓶颈。现有系统通过计算通信重叠来缓解这一问题,但通常无法满足异构工作负载和新加速器的理论峰值性能。我们询问一小组简单、可重用的原则是否可以系统地指导最佳多 GPU 内核的设计,而不是特定于操作员的技术。我们推出了 ParallelKittens (PK),这是一个最小的 CUDA 框架,可以极大地简化重叠多 GPU 内核的开发。 PK 扩展了 ThunderKittens 框架,通过八个核心原语和统一编程模板体现了多 GPU 内核设计原则,这些原则源自对控制多 GPU 性能$\unicode{x2014}$数据传输机制、资源调度和设计开销的因素的全面分析。我们在 Hopper 和 Blackwell 架构上验证 PK。使用不到 50 行设备代码,PK 可为数据和张量并行工作负载实现高达 2.33 美元的加速,为序列并行工作负载实现 4.08 美元的加速,为专家并行工作负载实现 1.22 美元的加速 ...

0 0 0 0 2026/01/13 arXiv:2511.13940v1 muuuchen

开放词汇对象检测 (OVD) 已与视觉语言模型 (VLM) 一起研究,以检测预训练类别之外的新对象。以前的方法通过使用带有附加“类”名称(例如袜子、iPod 和鳄鱼)的“正”伪标签来提高扩展检测器知识的泛化能力。为了在两个方面扩展以前的方法,我们提出了检索增强损失和视觉特征(RALF)。我们的方法检索相关的“负”类并增强损失函数。此外,视觉特征还通过类别的“语言化概念”得到增强,例如穿在脚上、手持音乐播放器和锋利的牙齿。具体来说,RALF由两个模块组成:检索增强损失(RAL)和检索增强视觉特征(RAF)。 RAL 构成了两个损失,反映了与否定词汇的语义相似性。此外,RAF 通过大型语言模型 (LLM) 中的语言化概念增强了视觉特征。我们的实验证明了 RALF 在 COCO 和 LVIS 基准数据集上的有效性。我们在 COCO 数据集的新类别上实现了高达 3.4 box AP$_{50}^{\text{N}}$ 的改进,在 LVIS 数据集上实现了 3.6 mask AP$_{\text{r}}$ 的增益。代码可在此 https URL 获取 ...

0 0 0 0 2026/01/13 arXiv:2404.05687v1 whcjb

尽管在 RGB 图像的 3D 人体网格估计方面取得了重大进展; RGBD 相机可提供额外的深度数据,但仍未得到充分利用。在本文中,我们提出了一种从单个 RGBD 视图进行精确 3D 人体网格估计的方法,利用 RGBD 相机在实际应用中的经济性和广泛采用。针对此问题的完全监督方法需要包含 RGBD 图像和 3D 网格标签对的数据集。然而,收集这样的数据集成本高昂且具有挑战性,因此现有数据集很小,并且姿势和形状多样性有限。为了克服这种数据稀缺的问题,我们利用现有的动作捕捉 (MoCap) 数据集。我们首先从 MoCap 数据集中找到的身体模型获取完整的 3D 网格,并通过投影到虚拟相机来创建它们的部分单视图版本。这模拟了 RGBD 相机从单个视点提供的深度数据。然后,我们训练一个屏蔽自动编码器来完成部分单视图网格。在推理过程中,我们的方法(我们将其命名为“蒙面网格建模”的 M$^3$)将来自传感器的深度值与模板人体网格的顶点进行匹配,从而创建部分单视图网格。我们有效地恢复 3D 人体网格模型中不可见的部分,从而形成全身网格。 M$^3$ 在 SURREAL 和 CAPE 数据集上分别实现了 16.8 mm 和 22.0 mm 的每顶点误差 (PVE);优于使用全身点云作为输入的现有方法。我们在 BEHAVE 数据集上获得了具有竞争力的 70.9 PVE,比最近发布的基于 RGB 的方法高出 18.4 mm,凸显了深度数据的有用性。代码将被发布 ...

0 0 0 0 2026/01/13 arXiv:2508.08178v2 小小卡拉米

矛盾的多模态输入在现实世界中很常见,但现有的基准通常假设输入一致性,而无法评估跨模态矛盾检测——这是防止幻觉和确保可靠性的基本能力。我们引入了 CLASH,一种多模态矛盾检测的新颖基准,其特点是 COCO 图像与包含受控对象级或属性级矛盾的矛盾标题配对。这些样本包括以多项选择和开放式形式评估的有针对性的问题。该基准提供了通过自动质量检查过滤的广泛微调集,以及较小的人工验证诊断集。我们对最先进模型的分析揭示了在识别跨模态冲突、暴露系统模态偏差和特定类别弱点方面的巨大局限性。此外,我们凭经验证明,对 CLASH 进行有针对性的微调可以显着增强冲突检测能力 ...

0 0 0 0 2026/01/13 arXiv:2511.19199v1 iris

在本文中,我们全面概述了现有的机器人场景表示方法,涵盖点云、体素、符号距离函数 (SDF) 和场景图等传统表示,以及神经辐射场 (NeRF)、3D 高斯分布 (3DGS) 和新兴基础模型等最新的神经表示。虽然当前的 SLAM 和定位系统主要依赖于点云和体素等稀疏表示,但密集的场景表示预计将在导航和避障等下游任务中发挥关键作用。此外,NeRF、3DGS 和基础模型等神经表示非常适合集成高级语义特征和基于语言的先验,从而实现更全面的 3D 场景理解和体现智能。在本文中,我们将机器人技术的核心模块分为五个部分(感知、建图、定位、导航、操纵)。我们首先提出不同场景表示方法的标准制定,并比较不同模块的场景表示的优缺点。本次调查围绕以下问题展开:机器人技术的最佳 3D 场景表示是什么?然后,我们讨论 3D 场景表示的未来发展趋势,特别关注 3D 基础模型如何取代当前方法,作为未来机器人应用的统一解决方案。还探讨了完全实现该模型的剩余挑战。我们的目标是为新手和经验丰富的研究人员提供宝贵的资源,以探索 3D 场景表示的未来及其在机器人技术中的应用。我们已经在 GitHub 上发布了一个开源项目,并将继续为该项目添加新的作品和技术 ...

0 0 0 0 2026/01/13 arXiv:2512.03422v2 xyyandhtl

随着带有外部工具的增强型大语言模型 (LLM) 在 Web 应用程序中变得越来越流行,提高增强型 LLM 推理服务效率和优化服务级别目标 (SLO) 对于增强用户体验至关重要。为了实现这一目标,推理系统必须在延迟限制内最大化请求处理,称为增加有效吞吐量。然而,现有系统面临两大挑战:(i)依赖先到先服务(FCFS)调度会导致严重的队头阻塞,导致许多请求的排队延迟超过 SLO; (ii) 静态批量 Token 限制,无法适应波动的负载和硬件条件。这两个因素都会降低有效吞吐量和服务质量。本文介绍了 AugServe,这是一种高效的推理框架,旨在减少排队延迟并提高增强 LLM 推理服务的有效吞吐量。 AugServe的核心思想是两阶段自适应请求调度策略。具体来说,AugServe 结合了增强 LLM 请求的推理功能来优化调度决策的顺序(第一阶段)。这些决策根据运行时信息(第二阶段)不断完善,以适应请求特征和系统功能。此外,AugServe根据硬件状态和实时负载动态调整 Token 批量机制,进一步增强吞吐量性能。实验结果表明,AugServe 的有效吞吐量比 vLLM 和 InferCept 高 4.7 倍和 3.3 倍,同时首次 Token 时间 (TTFT) 分别缩短了 96.3% 和 95.0% ...

0 0 0 0 2026/01/13 arXiv:2512.04013v2 AquupAQ

一个持续的争论是考虑预填充解码 (PD) 聚合还是分解对于服务大型语言模型 (LLM) 是否更有利。这推动了这两种方法的优化,每种方法都显示出独特的优势。本文比较了 PD 聚合和分解,表明每种方法在不同的服务级别目标 (SLO) 下都表现出色:聚合对于严格的首次 Token 时间 (TTFT) 和宽松的每个输出 Token 时间 (TPOT) 是最佳的,而分解则适合严格的 TPOT 和宽松的 TTFT。然而,在平衡 TTFT 和 TPOT SLO 下,这两种方法都无法提供最佳吞吐量。本文提出了 TaiChi,这是一种 LLM 服务系统,它统一了 PD 分解和聚合,以在 TTFT 和 TPOT SLO 的任意组合下实现最佳吞吐量。 TaiChi 采用统一的分解聚合架构,具有差异化能力的 GPU 实例:预填充(快速预填充,高干扰解码)和解码(低干扰解码,慢速预填充)。三个可配置滑块控制这些实例及其块大小之间的比率。 TaiChi 通过调整滑块来适应各种 SLO 机制。当 TTFT 约束很严格时,TaiChi 类似于 PD 聚合配置;当 TPOT 占主导地位时,它会适应 PD 分解。至关重要的是,在平衡的 SLO 下,TaiChi 可实现混合模式以实现卓越的吞吐量。这种混合模式背后的关键创新是延迟转移:有选择地将 GPU 资源从满足 SLO 的请求重新分配给那些有违规风险的请求,从而最大限度地提高满足 SLO 的请求数量。这种细粒度的延迟偏移是由两种调度机制精心安排的:用于控制 TPOT 的流式解码调度和用于管理 TTFT 的长度感知预填充调度,这两种机制共同优化了请求分配。我们的实验表明,在平衡 TTFT 和 TPOT SLO 下,TaiChi 的吞吐量比最先进的系统提高了 77% ...

0 0 0 0 2026/01/13 arXiv:2508.01989v1 AquupAQ

面向复杂分布式架构的大型语言模型 (LLM) 的发展——特别是 P/D 分离的大规模 DP+EP 范式——带来了独特的调度挑战。与调度程序将实例视为黑匣子的传统部署不同,DP+EP 架构表现出较高的内部同步成本。我们发现,此类系统中的即时请求分派会导致严重的引擎内排队和并行化气泡,从而降低首次 Token 时间 (TTFT)。为了解决这个问题,我们提出了交错批处理调度(SBS),这是一种故意缓冲请求以形成最佳执行批次的机制。这种时间解耦消除了内部排队气泡,而不会影响吞吐量。此外,利用缓冲创建的调度窗口,我们引入了负载感知全局分配策略,该策略可以平衡预填充和解码阶段的 DP 单元之间的计算负载。与最先进的即时调度基准相比,我们的系统部署在服务 Deepseek-V3 的生产 H800 集群上,将 TTFT 减少了 30%-40%,并将吞吐量提高了 15%-20% ...

0 0 0 0 2026/01/13 arXiv:2512.16134v1 AquupAQ