我们提出了一个用于命名实体识别(NER)的双编码器框架,它应用对比学习将候选文本范围和实体类型映射到相同的向量表示空间中。先前的工作主要将 NER 作为序列标记或跨度分类。相反,我们将 NER 构建为一个表示学习问题,最大化实体提及的向量表示与其类型之间的相似性。这使得处理嵌套和平面 NER 变得很容易,并且可以更好地利用嘈杂的自监督信号。这种 NER 的双编码器公式的一个主要挑战在于将非实体跨度与实体提及分开。我们引入了一种新颖的动态阈值损失,而不是像大多数现有方法那样将所有非实体跨度显式标记为同一类 $\texttt{Outside}$ ($\texttt{O}$)。实验表明,我们的方法在监督和远程监督设置中都表现良好,对于嵌套和平面 NER 都适用,在一般领域(例如 ACE2004、ACE2005)和高价值垂直领域(例如生物医学(例如 GENIA、NCBI、BC5CDR、JNLPBA))的标准数据集上建立了新的最先进技术。我们在此 http URL 发布代码 ...
在使用计算机视觉模型处理图像之前将图像大小调整为固定分辨率的普遍且明显次优的选择尚未成功受到挑战。然而,诸如 Vision Transformer (ViT) 之类的模型提供了灵活的基于序列的建模,因此可以改变输入序列长度。我们利用 NaViT(原生分辨率 ViT)来利用这一点,它在训练期间使用序列打包来处理任意分辨率和宽高比的输入。除了灵活的模型使用之外,我们还展示了大规模监督和对比图像文本预训练的训练效率的提高。 NaViT 可以有效地转移到图像和视频分类、对象检测和语义分割等标准任务,并提高鲁棒性和公平性基准的结果。在推理时,输入分辨率的灵活性可用于平稳地进行测试时的成本性能权衡。我们相信 NaViT 标志着与大多数计算机视觉模型使用的标准、CNN 设计的输入和建模管道的背离,并代表了 ViT 的一个有前途的方向 ...
运动结构 (SfM) 是计算机视觉领域中一个长期存在的问题,其目的是从一组无约束的 2D 图像中重建相机姿势和场景的 3D 结构。经典框架通过检测和匹配关键点、配准图像、对 3D 点进行三角测量以及进行捆绑调整,以增量方式解决这个问题。最近的研究工作主要围绕利用深度学习技术的力量来增强特定元素(例如关键点匹配),但仍然基于原始的不可微分的管道。相反,我们提出了一种新的深度管道 VGGSfM,其中每个组件都是完全可微的,因此可以以端到端的方式进行训练。为此,我们引入了新的机制和简化措施。首先,我们基于深度 2D 点跟踪的最新进展来提取可靠的像素精确轨迹,从而消除了链接成对匹配的需要。此外,我们根据图像和跟踪特征同时恢复所有摄像机,而不是逐渐注册摄像机。最后,我们优化相机并通过可微束调整层对 3D 点进行三角测量。我们在三个流行数据集 CO3D、IMC Phototourism 和 ETH3D 上获得了最先进的性能 ...
大型语言模型 (LLM) 在各种自然语言处理 (NLP) 任务中实现了最先进的准确度。然而,这种成功是以增加模型大小为代价的,这会导致额外的计算负担。专家混合 (MoE) 通过仅激活参数或“专家”的子集,将模型容量与计算解耦,从而克服了这一瓶颈。然而,这些模型需要这些专家与路由器进行联合预训练,并且不建模多步推理。相比之下,多智能体框架通过将复杂问题分解为模块化子任务来改进推理。然而,这些框架依赖于顺序的“计划--行动--观察”循环,这会引入显着的延迟。我们的工作 Comp-LLM 通过引入可组合推理框架来解决这些挑战,该框架通过显式子查询依赖图实现跨专家协作。 Comp-LLM 由三个组件组成:(1)子查询生成器,分解输入查询,使用嵌入相似性将每个子查询分配给适当的专家,并构建依赖图; (2) 查询执行器,处理图中的节点并根据依赖关系和资源限制识别并行机会; (3) 响应聚合器,将中间专家响应合成为连贯的最终答案。在多个基准测试中,Comp-LLM 比类似尺寸的整体 LLM 精度提高了 11.01%,同时模型尺寸减小了 1.67 倍--3.56 倍,并且相对于其系列中最大的模型没有显着退化。此外,与顺序子查询处理相比,Comp-LLM 的延迟时间缩短了 1.1 倍--1.7 倍 ...
主动学习作为一种替代方案出现,可以减轻为数据密集型应用程序(例如图像/视频索引和检索、自动驾驶等)标记大量数据的工作量。主动学习的目标是根据获取函数(根据预算)自动选择大量未标记的样本进行注释,获取函数表明样本对于训练模型的价值有多大。学习损失方法是一种与任务无关的方法,它附加一个模块来学习预测未标记数据的目标损失,并选择损失最高的数据进行标记。在这项工作中,我们遵循这一策略,但我们将获取函数定义为学习排序问题,并使用简单但有效的列表方法重新思考损失预测模块的结构。四个数据集的实验结果表明,我们的方法在图像分类和回归任务方面都优于最新的主动学习方法 ...
在大型语言模型(LLM)的背景下,当前的高级推理方法在各种推理任务中取得了令人印象深刻的进步。但是,当涉及逻辑推理任务时,疗效和效率既有主要挑战。这是基于这样一个事实,即这些系统无法在整个推理过程中(例如分解,搜索和分辨率)充分利用逻辑任务的固有结构 ...
图像匹配是 3D 视觉中所有性能最佳算法和管道的核心组件。然而,尽管匹配从根本上来说是一个 3D 问题,与相机姿态和场景几何结构有内在联系,但它通常被视为一个 2D 问题。这是有道理的,因为匹配的目标是建立 2D 像素字段之间的对应关系,但也似乎是一个潜在危险的选择。在这项工作中,我们采取了不同的立场,并建议使用 DUSt3R(一种基于 Transformers 的最新且强大的 3D 重建框架)将匹配作为 3D 任务。基于点图回归,该方法在匹配具有极端视点变化的视图方面显示出令人印象深刻的鲁棒性,但精度有限。我们的目标是提高这种方法的匹配能力,同时保持其稳健性。因此,我们建议用一个新的头来增强 DUSt3R 网络,该头输出密集的局部特征,并用额外的匹配损失进行训练。我们进一步解决了密集匹配的二次复杂度问题,如果不仔细处理,下游应用程序的速度会变得非常慢。我们引入了一种快速相互匹配方案,该方案不仅可以将匹配速度提高几个数量级,而且还具有理论保证,最后,可以产生改进的结果。大量实验表明,我们的方法(称为 MASt3R)在多个匹配任务上显着优于现有技术。特别是,在极具挑战性的无地图定位数据集上,它的 VCRE AUC 比最好的已发布方法高出 30%(绝对改进) ...
传统的检测跟踪系统通常采用卡尔曼滤波器(KF)进行状态估计。然而,KF 需要特定领域的设计选择,并且不适合处理非线性运动模式。为了解决这些限制,我们提出了两种创新的数据驱动过滤方法。我们的第一种方法采用带有可训练运动模型的贝叶斯滤波器来预测对象的未来位置,并将其预测与从对象检测器获得的观察结果相结合,以提高边界框预测的准确性。此外,它省去了 KF 所特有的大多数特定领域的设计选择。第二种方法是端到端可训练滤波器,它更进一步,通过学习纠正检测器错误,进一步最大限度地减少对领域专业知识的需求。此外,我们还介绍了一系列基于循环神经网络、神经常微分方程和条件神经过程的运动模型架构,并与所提出的滤波方法相结合。我们对多个数据集的广泛评估表明,我们提出的滤波器在对象跟踪方面优于传统的 KF,特别是在非线性运动模式的情况下——我们的滤波器最适合的用例。我们还对滤波器进行噪声鲁棒性分析,并取得了令人信服的积极结果。我们进一步提出了一种新的成本函数,用于将观测值与轨迹相关联。根据运动丰富的 DanceTrack 和 SportsMOT 数据集上的多个指标,我们的跟踪器将这种新的关联成本与我们提出的过滤器相结合,在多对象跟踪中优于传统的 SORT 方法和其他基于运动的跟踪器 ...
大型语言模型 (LLM) 推理已成为一种基本范式。在现实场景中,输出长度的变化会导致解码阶段的工作负载严重不平衡,特别是对于长输出推理任务。现有系统(例如 PD 分解架构)依赖于静态预填充到解码调度,这通常会导致在不断变化的解码工作负载下出现 SLO 违规和 OOM 失败。在本文中,我们提出了 ARES,这是一种由长度预测支持的自适应解码重新调度系统,可预测未来的工作负载。我们的核心贡献包括:(1)一种轻量级、连续的LLM原生预测方法,利用LLM隐藏状态以高精度(减少MAE 49.42%)和低开销(减少93.28%的预测器参数)对剩余生成长度进行建模; (2) 解码阶段的重新调度解决方案:集成当前和预测工作负载的动态平衡机制,将 P99 TPOT 降低 74.77%,并实现高达 2.24 倍的吞吐量提升 ...
为了满足严格的服务级别目标 (SLO),当代大型语言模型 (LLM) 将预填充和解码阶段解耦,并将它们放置在单独的 GPU 上,以缓解每个阶段固有的不同瓶颈。然而,LLM 工作负载的异构性导致这种分解架构中两种实例类型之间的生产者消费者不平衡。为了解决这个问题,我们提出了 DOPD(动态最佳预填充/解码),这是一种动态 LLM 推理系统,可根据实时负载监控调整实例分配以实现最佳预填充与解码(P/D)比率。结合适当的请求调度策略,DOPD有效解决了预填充和解码实例之间的不平衡,并缓解了高并发下由于混合长度请求而导致的资源分配不匹配。实验评估表明,与 vLLM 和 DistServe(代表性的基于聚合和分解的方法)相比,DOPD 将整个系统的吞吐量提高了 1.5 倍,将 P90 首次 Token 时间(TTFT)减少了 67.5%,并将 P90 每个输出 Token 时间(TPOT)减少了 22.8%。此外,我们的动态 P/D 调整技术根据历史负载执行主动重新配置,在使用更少的额外资源的情况下实现超过 99% 的 SLO ...