在大型语言模型(LLM)的背景下,当前的高级推理方法在各种推理任务中取得了令人印象深刻的进步。但是,当涉及逻辑推理任务时,疗效和效率既有主要挑战。这是基于这样一个事实,即这些系统无法在整个推理过程中(例如分解,搜索和分辨率)充分利用逻辑任务的固有结构 ...
图像匹配是 3D 视觉中所有性能最佳算法和管道的核心组件。然而,尽管匹配从根本上来说是一个 3D 问题,与相机姿态和场景几何结构有内在联系,但它通常被视为一个 2D 问题。这是有道理的,因为匹配的目标是建立 2D 像素字段之间的对应关系,但也似乎是一个潜在危险的选择。在这项工作中,我们采取了不同的立场,并建议使用 DUSt3R(一种基于 Transformers 的最新且强大的 3D 重建框架)将匹配作为 3D 任务。基于点图回归,该方法在匹配具有极端视点变化的视图方面显示出令人印象深刻的鲁棒性,但精度有限。我们的目标是提高这种方法的匹配能力,同时保持其稳健性。因此,我们建议用一个新的头来增强 DUSt3R 网络,该头输出密集的局部特征,并用额外的匹配损失进行训练。我们进一步解决了密集匹配的二次复杂度问题,如果不仔细处理,下游应用程序的速度会变得非常慢。我们引入了一种快速相互匹配方案,该方案不仅可以将匹配速度提高几个数量级,而且还具有理论保证,最后,可以产生改进的结果。大量实验表明,我们的方法(称为 MASt3R)在多个匹配任务上显着优于现有技术。特别是,在极具挑战性的无地图定位数据集上,它的 VCRE AUC 比最好的已发布方法高出 30%(绝对改进) ...
传统的检测跟踪系统通常采用卡尔曼滤波器(KF)进行状态估计。然而,KF 需要特定领域的设计选择,并且不适合处理非线性运动模式。为了解决这些限制,我们提出了两种创新的数据驱动过滤方法。我们的第一种方法采用带有可训练运动模型的贝叶斯滤波器来预测对象的未来位置,并将其预测与从对象检测器获得的观察结果相结合,以提高边界框预测的准确性。此外,它省去了 KF 所特有的大多数特定领域的设计选择。第二种方法是端到端可训练滤波器,它更进一步,通过学习纠正检测器错误,进一步最大限度地减少对领域专业知识的需求。此外,我们还介绍了一系列基于循环神经网络、神经常微分方程和条件神经过程的运动模型架构,并与所提出的滤波方法相结合。我们对多个数据集的广泛评估表明,我们提出的滤波器在对象跟踪方面优于传统的 KF,特别是在非线性运动模式的情况下——我们的滤波器最适合的用例。我们还对滤波器进行噪声鲁棒性分析,并取得了令人信服的积极结果。我们进一步提出了一种新的成本函数,用于将观测值与轨迹相关联。根据运动丰富的 DanceTrack 和 SportsMOT 数据集上的多个指标,我们的跟踪器将这种新的关联成本与我们提出的过滤器相结合,在多对象跟踪中优于传统的 SORT 方法和其他基于运动的跟踪器 ...
大型语言模型 (LLM) 推理已成为一种基本范式。在现实场景中,输出长度的变化会导致解码阶段的工作负载严重不平衡,特别是对于长输出推理任务。现有系统(例如 PD 分解架构)依赖于静态预填充到解码调度,这通常会导致在不断变化的解码工作负载下出现 SLO 违规和 OOM 失败。在本文中,我们提出了 ARES,这是一种由长度预测支持的自适应解码重新调度系统,可预测未来的工作负载。我们的核心贡献包括:(1)一种轻量级、连续的LLM原生预测方法,利用LLM隐藏状态以高精度(减少MAE 49.42%)和低开销(减少93.28%的预测器参数)对剩余生成长度进行建模; (2) 解码阶段的重新调度解决方案:集成当前和预测工作负载的动态平衡机制,将 P99 TPOT 降低 74.77%,并实现高达 2.24 倍的吞吐量提升 ...
为了满足严格的服务级别目标 (SLO),当代大型语言模型 (LLM) 将预填充和解码阶段解耦,并将它们放置在单独的 GPU 上,以缓解每个阶段固有的不同瓶颈。然而,LLM 工作负载的异构性导致这种分解架构中两种实例类型之间的生产者消费者不平衡。为了解决这个问题,我们提出了 DOPD(动态最佳预填充/解码),这是一种动态 LLM 推理系统,可根据实时负载监控调整实例分配以实现最佳预填充与解码(P/D)比率。结合适当的请求调度策略,DOPD有效解决了预填充和解码实例之间的不平衡,并缓解了高并发下由于混合长度请求而导致的资源分配不匹配。实验评估表明,与 vLLM 和 DistServe(代表性的基于聚合和分解的方法)相比,DOPD 将整个系统的吞吐量提高了 1.5 倍,将 P90 首次 Token 时间(TTFT)减少了 67.5%,并将 P90 每个输出 Token 时间(TPOT)减少了 22.8%。此外,我们的动态 P/D 调整技术根据历史负载执行主动重新配置,在使用更少的额外资源的情况下实现超过 99% 的 SLO ...
我们对多模态大型语言模型 (MLLM) 在自动驾驶中的应用进行了冷静的审视,挑战了有关其解释动态驾驶场景能力的常见假设。尽管 GPT-4o 等模型取得了进步,但它们在复杂驾驶环境中的性能在很大程度上仍未得到探索。我们的实验研究使用车载摄像头视角评估各种 MLLM 作为世界模型,并揭示虽然这些模型擅长解释单个图像,但它们难以合成跨帧的连贯叙述,导致在理解(i)自我车辆动力学、(ii)与其他道路参与者的交互、(iii)轨迹规划和(iv)开放场景推理方面存在相当大的不准确性。我们引入了 Eval-LLM-Drive 数据集和 DriveSim 模拟器来增强我们的评估,强调当前 MLLM 功能的差距以及动态现实环境中改进模型的需求 ...
我们通过多次越狱 (MSJ) 调查大型语言模型 (LLM) 中的长上下文漏洞。我们的实验使用最多 128K 个 Token 的上下文长度。通过对不同指令风格、镜头密度、主题和格式的各种多镜头攻击设置的综合分析,我们发现上下文长度是决定攻击有效性的主要因素。至关重要的是,我们发现成功的攻击不需要精心制作的有害内容。即使是重复的镜头或随机的虚拟文本也可以规避模型安全措施,这表明 LLM 的长上下文处理能力存在根本局限性。良好对齐的模型的安全行为与较长的上下文变得越来越不一致。这些发现凸显了 LLM 背景扩展能力方面的重大安全差距,强调了对新安全机制的需求 ...
长上下文语言模型 (LM) 的最新进展已经实现了百万个 Token 输入,从而扩展了其跨复杂任务(例如计算机使用代理)的功能。然而,这些扩展环境的安全影响仍不清楚。为了弥补这一差距,我们引入了 NINJA(大海捞针越狱攻击的缩写),这种方法通过将良性的、模型生成的内容附加到有害的用户目标来越狱对齐的 LM。我们的方法的关键是观察到有害目标的位置在安全中发挥着重要作用。标准安全基准 HarmBench 上的实验表明,NINJA 显着提高了最先进的开放和专有模型(包括 LLaMA、Qwen、Mistral 和 Gemini)的攻击成功率。与之前的越狱方法不同,我们的方法资源匮乏、可转移且不易被发现。此外,我们表明 NINJA 是计算最优的——在固定的计算预算下,增加上下文长度可以优于增加 best-of-N 越狱中的试验次数。这些发现表明,即使是良性的长上下文——当精心设计目标定位时——也会给现代语言模型带来根本性的漏洞 ...
生成高保真、物理交互的 3D 模拟桌面场景对于实体 AI 至关重要,尤其是对于机器人操作策略学习和数据合成而言。然而,当前文本或图像驱动的 3D 场景生成方法主要关注大规模场景,难以捕捉桌面场景的高密度布局和复杂的空间关系。为了应对这些挑战,我们提出了 TabletopGen,这是一种无需训练的全自动框架,可以生成多样化的实例级交互式 3D 桌面场景。 TabletopGen 接受参考图像作为输入,可以通过文本到图像模型合成该参考图像以增强场景多样性。然后,我们对参考执行实例分割和补全以获得每个实例的图像。每个实例都被重建为 3D 模型,然后进行规范坐标对齐。然后,对齐的 3D 模型会进行姿态和比例估计,然后组装成无碰撞、可用于模拟的桌面场景。我们框架的一个关键组成部分是一种新颖的姿态和尺度对齐方法,它将复杂的空间推理分解为两个阶段:用于精确旋转恢复的可微旋转优化器和用于鲁棒平移和尺度估计的顶视图空间对齐机制,从而实现从 2D 参考进行精确的 3D 重建。大量的实验和用户研究表明,TabletopGen 实现了最先进的性能,在视觉保真度、布局准确性和物理合理性方面明显超越了现有方法,能够生成具有丰富风格和空间多样性的逼真桌面场景。我们的代码将公开 ...
体现智能的曙光迎来了跨下一代生态系统的弹性,支持认知的多代理协作的前所未有的当务之急,彻底改变了自主制造业,自适应服务机器人技术和网络物理生产架构的范式。但是,当前的机器人系统面临着重大局限性,例如有限的跨体型适应性,效率低下的任务调度以及动态误差校正不足。尽管端到端的VLA模型表明长期计划和任务概括不足,但层次VLA模型缺乏跨体和多代理协调功能 ...