大规模基础模型为下游对象分割任务提供强大的特征表示。然而,当通过全参数微调适应特定任务时,更新的大量参数往往会导致巨大的计算开销,造成训练效率的瓶颈。尽管现有方法试图通过直接嵌入可训练提示来微调冻结模型,但这些提示缺乏固有的语义先验,限制了大规模模型的适应性。在本文中,我们提出了一种新颖的基于动态先验的微调范例,可训练参数较少,称为 Controllable-LPMoE,它通过动态控制局部先验来自适应调制冻结基础模型,以增强对特定分割任务的细粒度感知。更具体地说,我们构建了一个轻量级动态混合局部先验提取器,它通过异构卷积从输入图像中捕获不同的局部先验,同时采用门控网络动态输出后续微调所需的专家先验。此外,我们设计了一种双向交互适配器,采用余弦对齐的可变形注意力和面向通道的自适应尺度增强来在冻结特征和可训练特征之间进行交互和重组,从而实现高效的微调。大量实验验证了我们的 \href{this https URL} {Controllable-LPMoE} 方法的优越性,与 31 种最先进的 (SOTA) 方法相比,展示了出色的分割性能以及对多个二进制对象分割任务的适应性 ...
现有的视觉定位方法通常要么是基于 2D 图像的,易于构建和维护,但在有效的几何推理方面受到限制;要么是基于 3D 结构的,其精度高,但需要集中重建,并且难以更新。在这项工作中,我们重新审视了基于 2D 图像表示的视觉定位,并建议使用估计的深度图来增强每个图像以捕获几何结构。在有效使用密集匹配器的支持下,这种表示不仅易于构建和维护,而且在具有挑战性的条件下实现了最高的准确性。通过紧凑的压缩和 GPU 加速的 LO-RANSAC 实现,整个管道在存储和计算方面都很高效,并且允许在准确性和最高内存效率之间进行灵活的权衡。我们的方法在各种标准基准上实现了新的最先进的精度,并且在可比较的地图大小下优于现有的内存高效方法。代码将在此 https URL 中提供 ...
将驾驶员、车内和外部环境的上下文线索整合到车辆决策中是半自动车辆安全的核心。已经开发了多种系统来为车辆提供背景信息,这些系统通常依赖于捕获驾驶员的身体和环境状态的视频流。虽然视频流是丰富的信息源,但它们提供上下文的能力在某些情况下可能具有挑战性,例如低照度环境(例如夜间驾驶),并且它们高度侵犯隐私。在这项研究中,我们通过智能手表利用被动传感来对驾驶环境的元素进行分类。具体来说,通过使用自然驾驶研究中的 15 名参与者收集的数据,并使用随机森林等多种机器学习算法,我们对驾驶员的活动(例如,使用电话和吃饭)、外部事件(例如,通过十字路口和变道)和外部道路属性(例如,在城市与高速公路中驾驶)进行分类,平均 F1 分数分别为 94.55、98.27 和 97.86%,通过10倍交叉验证。我们的研究结果表明,通过智能可穿戴设备检索的多模态数据在提供现实驾驶场景背景方面的适用性,并为未来自动驾驶汽车更好地共享自主和隐私意识驾驶数据收集、分析和反馈铺平了道路 ...
通用视觉异常检测(AD)旨在识别异常图像并将异常区域分割为开放和动态场景,遵循零镜头和少镜头范例,无需任何特定于数据集的微调。在最近的方法中,我们见证了视觉语言基础模型的广泛使用取得了重大进展。然而,当前的方法经常与复杂的提示工程、复杂的适应模块和具有挑战性的训练策略作斗争,最终限制了它们的灵活性和通用性。为了解决这些问题,本文重新思考了 AD 视觉语言模型背后的基本机制,并提出了一个极其简单、通用且有效的通用视觉异常检测 (UniADet) 框架。具体来说,我们首先发现语言编码器用于导出异常分类和分割的决策权重,然后证明它对于通用AD来说是不必要的。其次,我们提出了一种极其简单的方法来完全解耦分类和分割,解耦跨级特征,即学习不同任务和层次特征的独立权重。 UniADet 在涵盖工业和医学领域的 14 个真实世界 AD 基准上非常简单(仅学习解耦权重)、参数高效(仅 0.002M 可学习参数)、通用(适应各种基础模型)和有效(大幅超越最先进的零/少样本甚至首次全样本 AD 方法)。我们将在此 https URL 提供 UniADet 的代码和模型 ...
近年来,由于大型语言模型(LLM)的发展,计算机视觉领域取得了显着的进步。这些模型使得人类和机器之间的交互更加有效和复杂,为模糊人类和机器智能之间界限的新技术铺平了道路。在本文中,我们引入了一种新的对象检测范例,我们称之为基于推理的对象检测。与依赖特定对象名称的传统对象检测方法不同,我们的方法使用户能够使用自然语言指令与系统交互,从而实现更高级别的交互性。我们提出的方法称为 DetGPT,利用最先进的多模态模型和开放词汇对象检测器在用户指令和视觉场景的上下文中执行推理。这使得 DetGPT 能够根据用户表达的愿望自动定位感兴趣的对象,即使该对象没有明确提及。例如,如果用户表达想要一杯冷饮,DetGPT 可以分析图像、识别冰箱,并利用其对典型冰箱内容物的了解来定位饮料。这种灵活性使我们的系统适用于从机器人和自动化到自动驾驶的广泛领域。总的来说,我们提出的范例和 DetGPT 展示了人与机器之间更复杂和直观交互的潜力。我们希望我们提出的范例和方法将为社区提供灵感,并为更具交互性和多功能的对象检测系统打开大门。我们的项目页面在此 http URL 启动 ...
将语音表示为离散单元在支持下游口语处理任务方面具有许多好处。然而,在普通话等声调语言的语音合成中,这种方法的探索较少。我们对中文语音合成的初步实验揭示了“音调转换”的问题,即合成的语音包含正确的基本音节,但包含错误的声调。为了解决这个问题,我们提出了 ToneUnit 框架,它利用带有声调标签的注释数据作为 CTC 监督来学习普通话语音的声调感知离散语音单元。我们的研究结果表明,通过 TonUnit 获取的离散单元解决了合成中文语音中的“音调转换”问题,并在英语合成中产生了良好的结果。此外,实验结果表明有限标量量化增强了 ToneUnit 的有效性。值得注意的是,即使使用最少的注释数据,ToneUnit 也可以有效地工作 ...
损失函数学习是一种新的元学习范式,旨在自动化为机器学习模型设计损失函数的基本任务。现有的损失函数学习技术已经显示出有希望的结果,通常可以提高模型的训练动态和最终的推理性能。然而,这些技术的一个显着限制是损失函数是以离线方式元学习的,其中元目标仅考虑训练的前几个步骤,这比通常用于训练深度神经网络的时间范围要短得多。这会导致对在训练开始时表现良好但在训练结束时表现不佳的损失函数产生显着偏差。为了解决这个问题,我们提出了一种新的损失函数学习技术,用于在每次更新基本模型参数后自适应地在线更新损失函数。实验结果表明,我们提出的方法在各种神经网络架构和数据集上始终优于交叉熵损失和离线损失函数学习技术 ...
众所周知,神经网络是一类高度表达的函数,甚至能够以 100\%$ 的精度拟合随机输入输出映射。在这项工作中,我们提出了神经网络的特性,以补充表达能力的这一方面。通过使用傅立叶分析工具,我们表明深度 ReLU 网络偏向于低频函数,这意味着它们不可能在不影响其全局行为的情况下出现局部波动。直观上,此属性与过度参数化网络发现可泛化到数据样本的简单模式的观察结果一致。我们还通过证明学习高频随着流形复杂性的增加而变得更容易来研究数据流形的形状如何影响表达性,并提出了对此行为的理论理解。最后,我们研究频率分量相对于参数扰动的鲁棒性,以形成必须对参数进行微调才能表达高频函数的直觉 ...
我们识别并形式化了一种基本的梯度下降现象,导致过度参数化神经网络的学习倾向。尽管存在无法发现的其他预测特征,但通过仅捕获与任务相关的特征子集来最小化交叉熵损失时,就会出现梯度饥饿。这项工作为神经网络中这种特征不平衡的出现提供了理论解释。使用动态系统理论的工具,我们识别了梯度下降过程中导致这种不平衡的学习动态的简单属性,并证明在训练数据中给定某些统计结构的情况下可以预期这种情况。基于我们提出的形式主义,我们为一种新颖的正则化方法提供了保证,该方法旨在解耦特征学习动态,在梯度饥饿阻碍的情况下提高准确性和鲁棒性。我们通过简单且真实的分布外 (OOD) 泛化实验来说明我们的发现 ...
物理护理机器人有望改善全球数百万人需要喂养帮助的生活质量。然而,由于活动(例如,吃饭、喝水、擦嘴)、环境(例如,社交、看电视)、食物和部署过程中出现的用户偏好的多样性,家庭膳食援助仍然具有挑战性。在这项工作中,我们提出了 FEAST,这是一种灵活的进餐辅助系统,可以在野外进行个性化,以满足个人护理接受者的独特需求。我们的系统是与两名社区研究人员合作开发的,并通过对不同的护理接受者群体进行的形成性研究提供信息,以野外个性化的三个关键原则为指导:适应性、透明度和安全性。 FEAST 通过以下方式体现了这些原则:(i) 模块化硬件,可以在辅助喂食、喝水和擦嘴之间进行切换;(ii) 多样化的交互方法,包括网络界面、头部姿势和物理按钮,以适应不同的功能能力和偏好;(iii) 参数化行为树,可以使用大型语言模型安全、透明地进行调整。我们根据形成性研究中确定的个性化要求评估我们的系统,证明 FEAST 提供了广泛的透明和安全的适应性,并且优于仅限于固定定制的最先进的基准。为了证明现实世界的适用性,我们对两名护理对象(他们是社区研究人员)进行了一项家庭用户研究,在三种不同的场景中为他们每人提供三餐。我们通过与先前不熟悉该系统的职业治疗师进行评估,进一步评估 FEAST 的生态有效性。在所有情况下,用户都成功地个性化 FEAST 以满足他们的个人需求和偏好。网站:此 https URL ...