大型视觉语言模型中视觉标记中建立的冗余允许修剪以有效地减少其大量的计算需求。以前的方法通常采用启发式的特定于层的剪枝策略,尽管在解码器层之间删除的 Token 数量可能有所不同,但总体剪枝时间表是固定的并统一应用于所有输入样本和任务,无法将 Token 消除与模型的整体推理轨迹保持一致。认知科学表明,人类视觉处理通常从广泛探索开始,以积累证据,然后随着目标变得清晰而缩小焦点。我们的实验揭示了这些模型中的类似模式。这一观察结果表明,固定的修剪计划和启发式分层策略都无法最佳地适应不同输入中固有的不同复杂性。为了克服这一限制,我们引入了复杂性自适应剪枝(AutoPrune),这是一种免训练、即插即用的框架,可以根据不同的样本和任务复杂性定制剪枝策略。具体来说,AutoPrune 量化视觉和文本标记之间的相互信息,然后将该信号投射到预算受限的逻辑保留曲线上。每条这样的逻辑曲线由其独特的形状定义,对应于不同任务的特定复杂性,并且可以保证遵守预定义的计算约束。我们在标准视觉语言任务和自动驾驶视觉语言动作模型上评估 AutoPrune。值得注意的是,当应用于 LLaVA-1.5-7B 时,我们的方法修剪了 89% 的视觉标记,并将推理失败次数减少了 76.8%,同时保留了所有任务平均原始准确度的 96.7%。这相当于比最近的工作 PDrop 提高了 9.1%,证明了有效性。代码可从此 https URL 获取 ...
机器学习方法努力在训练过程中获得稳健的模型,即使存在分布变化,该模型也可以有效地推广到测试样本。然而,这些方法常常由于未知的测试分布而导致性能下降。测试时间适应 (TTA) 是一种新兴范例,有可能在进行预测之前在测试期间使预训练模型适应未标记的数据。这一范式的最新进展凸显了在推理之前使用未标记数据来训练自适应模型的显着好处。在本次调查中,我们根据测试数据的形式将TTA分为几个不同的组,即测试时域适应、测试时批量适应和在线测试时适应。对于每个类别,我们提供了高级算法的全面分类,并讨论了各种学习场景。此外,我们分析了 TTA 的相关应用,并讨论了未来研究的开放挑战和有前景的领域。有关 TTA 方法的完整列表,请参阅 \url{此 https URL} ...
当代推荐系统主要依靠 ID 嵌入来捕获用户和项目之间的潜在关联。然而,这种方法忽略了项目文本描述中嵌入的丰富语义信息,导致性能不佳和泛化能力较差。利用大型语言模型的能力来理解和推理文本内容为推进推荐系统提供了一条有希望的途径。为了实现这一目标,我们提出了一个 LLM 驱动的知识自适应推荐(LEARN)框架,该框架将开放世界知识与协作知识相结合。我们通过利用预训练的 LLM 作为项目编码器并冻结 LLM 参数来解决计算复杂性问题,以避免灾难性遗忘并保留开放世界知识。为了弥合开放世界和协作领域之间的差距,我们设计了一个由推荐任务监督并针对实际工业应用量身定制的双塔结构。通过在真实的大规模工业数据集上的实验和在线A/B测试,我们证明了我们的方法在工业应用中的有效性。我们还在六个 Amazon Review 数据集上实现了最先进的性能,以验证我们方法的优越性 ...
为了减少误用,文本到图像(T2I)模型通常包含安全过滤器以防止生成敏感图像。不幸的是,最近的越狱攻击方法使用 LLM 生成对抗性提示,在生成敏感图像的同时有效绕过安全过滤器,揭示了 T2I 模型中的安全漏洞。然而,现有的基于LLM的攻击方法缺乏明确的指导,依赖大量查询来实现成功的攻击,这限制了它们在现实场景中的实用性。在这项工作中,我们引入了\textbf{MJA},一种受禁忌游戏启发的基于\textbf{m}隐喻的\textbf{j}ailbreak \textbf{a}攻击方法,旨在通过生成基于隐喻的对抗性提示来平衡攻击有效性和查询效率。具体来说,MJA由两个模块组成:基于LLM的多智能体生成模块~(MLAG)和对抗性提示优化模块~(APO)。 MLAG 将基于隐喻的对抗性提示的生成分解为三个子任务:隐喻检索、上下文匹配和对抗性提示生成。随后,MLAG 协调三个基于 LLM 的代理,通过探索各种隐喻和上下文来生成不同的对抗性提示。为了提高攻击效率,APO首先训练代理模型来预测对抗性提示的攻击结果,然后设计获取策略来自适应地识别最佳对抗性提示。实验表明,与基线方法相比,MJA 实现了更好的攻击有效性,同时需要更少的查询。此外,我们的对抗性提示在各种开源和商业 T2I 模型中表现出强大的可移植性。 \textcolor{red}{本文包含模型生成的内容,可能包含令人反感或令人痛苦的材料。} ...
视觉-语言-动作模型(VLA)的迅速出现对机器人技术产生了重大影响。然而,由于分散的接口和分布式设置中固有的通信延迟,它们的部署仍然很复杂。为了解决这个问题,我们引入了 VLAgents,这是一种模块化策略服务器,它在统一的 Gymnasium 风格协议背后抽象出 VLA 推理。至关重要的是,其通信层通过支持用于高速仿真的零拷贝共享内存和用于远程硬件的压缩流来透明地适应上下文。在这项工作中,我们展示了 VLAgents 的架构,并通过集成七个策略(包括 OpenVLA 和 Pi Zero)来验证它。在本地和远程通信的基准测试中,我们进一步展示了它如何优于 OpenVLA、OpenPi 和 LeRobot 提供的默认策略服务器。 VLAgents 可通过此 https URL 获取 ...
我们对空间利用优化(SUO)的原理进行了系统的探索,作为在解耦的多机器人路径规划器中规划更好的个体路径的启发式方法,并应用于一次性和终生的多机器人路径规划问题。我们表明,去中心化启发式集 SU-I 保留了单一路径最优性,并显着减少了在没有协调的情况下规划许多路径时自然发生的拥塞。将 SU-I 集成到完整的规划器中,由于冲突数量显着减少,因此大大减少了计算时间,并在具有中型和大型地图的各种评估场景中,对于一次性和终身问题设置,带来了可观的解决方案最优性收益 ...
不成对图像去雾因其在模型训练过程中灵活的数据需求而受到越来越多的关注。基于对比学习的主导方法不仅引入了与雾霾无关的内容信息,而且忽略了频域中雾霾特定的属性(即~雾霾相关的退化主要表现在幅度谱中)。为了解决这些问题,我们提出了一种新颖的基于频域的扩散模型,名为 \ours,用于充分利用不成对的清晰数据中的有益知识。特别是,受到扩散模型(DM)所表现出的强大生成能力的启发,我们从频域重建的角度来处理去雾任务,并执行扩散模型以产生与清晰图像分布一致的幅度谱。为了实现它,我们提出了一种幅度残差编码器(ARE)来提取幅度残差,它有效地补偿了从模糊域到清晰域的幅度差距,并为 DM 训练提供监督。此外,我们提出了相位校正模块(PCM),通过使用简单的注意机制在去雾过程中进一步细化相位谱来消除伪影。实验结果表明,我们的方法在合成数据集和现实数据集上都优于其他最先进的方法 ...
图像地理定位任务旨在利用视觉线索预测地球上任何地方拍摄图像的位置。现有的大型视觉语言模型(LVLM)方法利用了世界知识、思维链推理和代理能力,但忽略了人类使用的常见策略——使用地图。在这项工作中,我们首先配备模型 \textit{Thinking with Map} 能力,并将其制定为地图中的代理循环。我们为其开发了一个两阶段优化方案,包括代理强化学习(RL)和并行测试时间缩放(TTS)。 RL 增强了模型的代理能力以提高采样效率,并行 TTS 使模型能够在做出最终预测之前探索多个候选路径,这对于地理定位至关重要。为了评估我们在最新和野外图像上的方法,我们进一步提出了 MAPBench,这是一个完全由真实世界图像组成的综合地理定位训练和评估基准。实验结果表明,我们的方法在大多数指标上都优于现有的开源和闭源模型,特别是与具有 Google 搜索/地图接地模式的 \textit{Gemini-3-Pro} 相比,将 Acc@500m 从 8.0% 提高到 22.1% ...
扩散模型的大量计算成本,特别是由于高质量图像生成所需的重复去噪步骤,是其广泛采用的主要障碍。虽然一些研究尝试通过使用高级 ODE 求解器而不进行微调来减少评分函数评估 (NFE) 的数量来解决此问题,但去噪迭代次数的减少错过了更新精细细节的机会,导致质量明显下降。在我们的工作中,我们引入了一种先进的加速技术,该技术利用扩散模型中固有的时间冗余。重用具有高时间相似性的特征图开辟了节省计算资源而不影响输出质量的新机会。为了实现这种直觉的实际好处,我们进行了广泛的分析并提出了一种新方法:FRDiff。 FRDiff 旨在利用减少 NFE 和功能重用的优势,实现在各种生成任务中平衡保真度和延迟权衡的帕累托前沿 ...
得益于深度学习技术在遥感领域点云处理中的应用,点云分割成为近年来的研究热点,可应用于现实世界3D、智慧城市等领域。现有的解决方案虽然取得了前所未有的进步,但忽略了遥感领域点云严格按照经纬度、高度排列的固有特征,这给遥感领域点云的分割带来了极大的便利。为了巧妙地考虑这一特性,我们提出了新颖的卷积算子,称为双变形点卷积(TDConvs),其目的是通过分别学习经纬度平面和高度方向上的可变形采样点来实现自适应特征学习。首先,为了对经纬度平面的特征进行建模,我们提出了一种圆柱可变形点卷积(CyDConv)算子,它通过在经纬度方向构造圆柱状网格来生成二维圆柱图。此外,为了更好地融合经纬度平面特征和空间几何特征,我们对提取的经纬度特征和空间几何特征进行多尺度融合,通过不同尺度的相邻点特征的聚合来实现。此外,引入球体可变形点卷积(SpDConv)算子,通过构建球体网格结构自适应地偏移三维空间中的采样点,旨在对高度方向的特征进行建模。对现有流行基准的实验得出的结论是,我们的 TDConv 实现了最佳分割性能,超越了现有的最先进方法 ...