在自动驾驶中,强大的位置识别对于全局定位和闭环检测至关重要。虽然多模态位置识别 (MPR) 中相机和 LiDAR 数据的模态间融合在克服单模态对应方法的局限性方面表现出了希望,但现有的 MPR 方法基本上只关注手工制作的融合策略和需要昂贵的再训练的高度参数化的主干网。为了解决这个问题,我们提出了 VGGT-MPR,这是一种多模态地点识别框架,采用视觉几何接地变换器(VGGT)作为统一的几何引擎,用于全局检索和重新排序。在全局检索阶段,VGGT通过先前的深度感知和点图监督提取几何丰富的视觉嵌入,并用预测的深度图致密稀疏的LiDAR点云以改善结构表示。这增强了融合多模态特征的辨别能力,并生成用于快速检索的全局描述符。除了全局检索之外,我们还设计了一种免训练的重新排序机制,该机制利用 VGGT 的跨视图关键点跟踪功能。通过将掩模引导的关键点提取与置信感知对应评分相结合,我们提出的重新排序机制有效地细化了检索结果,而无需额外的参数优化。对大规模自动驾驶基准的大量实验和我们自行收集的数据表明,VGGT-MPR 实现了最先进的性能,对严重的环境变化、视角转换和遮挡表现出强大的鲁棒性。我们的代码和数据将公开 ...

0 0 0 0 2026/03/15 arXiv:2602.19735v1 13766783701

当前的多视图室内 3D 物体检测器依赖于获取成本高昂的传感器几何形状(即精确校准的多视图相机姿态)来将多视图信息融合到全局场景表示中,从而限制了在现实世界场景中的部署。我们的目标是更实用的设置:无传感器几何(SG-Free)多视图室内 3D 物体检测,其中没有传感器提供的几何输入(多视图姿势或深度)。最近的视觉几何接地 Transformer (VGGT) 表明,可以直接从图像推断出强烈的 3D 线索。基于这一见解,我们提出了 VGGT-Det,这是第一个专为无 SG 多视图室内 3D 物体检测而定制的框架。我们的方法不是仅仅使用 VGGT 预测,而是将 VGGT 编码器集成到基于 Transformer 的管道中。为了有效地利用 VGGT 内部的语义和几何先验,我们引入了两个新颖的关键组件:(i)注意力引导查询生成(AG):利用 VGGT 注意力图作为语义先验来初始化对象查询,通过关注对象区域来改进定位,同时保留全局空间结构; (ii) 查询驱动的特征聚合 (QD):可学习的 See-Query 与对象查询交互以“查看”它们所需的内容,然后跨 VGGT 层动态聚合多级几何特征,逐步将 2D 特征提升为 3D。实验表明,VGGT-Det 在 ScanNet 和 ARKitScenes 上分别显着超过了 SG-Free 设置中性能最佳的方法 4.4 和 8.6 mAP@0.25。消融研究表明,我们的 AG 和 QD 可以有效地利用 VGGT 内部学习的语义和几何先验 ...

0 0 0 0 2026/03/15 arXiv:2603.00912v1 13766783701

作为强大的生成模型,文本到图像的扩散模型最近被探索用于判别任务。一系列研究的重点是使预训练的扩散模型适应语义分割,而无需任何进一步的训练,从而产生免训练的扩散分割器。这些方法通常依赖于模型注意力层的交叉注意力图,假设这些图能够捕获图像像素和文本标记之间的语义关系。理想情况下,此类方法应该受益于更强大的扩散模型,即更强的生成能力应该导致更好的分割。然而,我们观察到现有的方法往往无法相应地扩展。为了理解这个问题,我们确定了两个潜在的差距:(i)跨多个头和层计算交叉注意力,但这些单独的注意力图和统一的全局表示之间存在差异。 (ii) 即使全局地图可用,由于不同文本标记之间的分数不平衡,它也不能直接转化为准确的语义相关性以进行分割。为了弥补这些差距,我们提出了两种技术:自动聚合和每像素重新缩放,它们共同实现了免训练分割,以更好地利用生成能力。我们在标准语义分割基准上评估我们的方法,并将其进一步集成到生成技术中,展示了改进的性能和广泛的适用性。代码位于此 https URL ...

0 0 0 0 2026/03/15 arXiv:2603.06178v2 turret

视觉定位传统上被表述为成对姿势回归问题。现有方法主要估计两幅图像之间的相对姿态,并采用后期融合策略来获得绝对姿态估计。然而,后期运动平均往往不足以有效地整合空间信息,并且在复杂环境下其准确性会下降。在本文中,我们提出了第一个视觉定位框架,该框架通过早期融合机制执行多视图空间集成,从而在结构化和非结构化环境中实现稳健的操作。我们的框架建立在 VGGT 主干之上,该主干对多视图 3D 几何进行编码,并且我们引入了姿势标记器和投影模块,以更有效地利用多个数据库视图的空间关系。此外,我们提出了一种新颖的稀疏掩模注意力策略,通过避免全局注意力的二次复杂度来降低计算成本,从而实现大规模的实时性能。 Reloc-VGGT 经过大约 800 万个姿势图像对的训练,表现出强大的准确性和卓越的泛化能力。跨不同公共数据集的广泛实验一致验证了我们方法的有效性和效率,实时提供高质量的相机姿态估计,同时保持对不可见环境的鲁棒性。我们的代码和模型将在此 http URL://github.com/dtc111111/Reloc-VGGT 上公开发布 ...

0 0 0 0 2026/03/15 arXiv:2512.21883v1 13766783701

视觉几何接地 Transformer (VGGT) 是一种 3D 基础模型,可在单次前馈传递中推断相机几何和场景结构。 VGGT 在大型数据集上以有监督的单步方式进行训练,提出了一个关键问题:它是建立在传统多视图方法等几何概念的基础上,还是主要依赖于学习的基于外观的数据驱动先验?在这项工作中,我们对 VGGT 的内部机制进行了系统分析,以揭示几何理解是否出现在其表示中。通过探索中间特征、分析注意力模式和执行干预,我们检查模型如何实现其功能。我们的研究结果表明,尽管 VGGT 在没有显式几何约束的情况下进行训练,但它在其全局注意力层中隐式地执行对应匹配并编码对极几何。我们进一步研究 VGGT 对其学习数据先验的依赖。使用空间输入掩蔽和扰动实验,我们评估其对遮挡、外观变化和相机配置的鲁棒性,并将其与经典的多级管道进行比较。这些见解共同强调了 VGGT 如何在使用学习的数据驱动先验的同时内化几何结构 ...

0 0 0 0 2026/03/15 arXiv:2512.11508v1 13766783701

多视图图像的 3D 重建是计算机视觉的核心挑战。最近,前馈方法已成为传统按场景优化技术的高效且稳健的替代方案。其中,像视觉几何接地 Transformer (VGGT)这样最先进的模型利用对所有图像标记的完全自注意力来捕获全局关系。然而,由于自注意力的二次复杂度和长图像序列中生成的大量标记,这种方法的可扩展性较差。在这项工作中,我们引入了 FlashVGGT,这是一种有效的替代方案,可以通过基于描述符的注意力机制解决这一瓶颈。 FlashVGGT 不是在所有标记上应用密集的全局注意力,而是将每个帧的空间信息压缩为一组紧凑的描述符标记。然后将全局注意力计算为完整图像标记集和较小的描述符集之间的交叉注意力,从而显着减少计算开销。此外,描述符的紧凑性使得能够通过块递归机制对长序列进行在线推理,该机制重用来自先前块的缓存描述符。实验结果表明,FlashVGGT 实现了与 VGGT 相媲美的重建精度,同时将 1,000 张图像的推理时间缩短至 VGGT 的 9.3%,并有效地扩展到超过 3,000 张图像的序列。我们的项目页面可通过此 https URL 获取 ...

0 0 0 0 2026/03/15 arXiv:2512.01540v1 13766783701

我们提出了推测采样,这是一种通过从每个 Transformer 调用生成多个标记来加速 Transformer 解码的算法。我们的算法依赖于这样的观察:由更快但功能较弱的草稿模型生成的短连续并行评分的延迟与从较大目标模型中采样单个标记的延迟相当。这与一种新颖的改进拒绝采样方案相结合,该方案保留了硬件数值内目标模型的分布。我们使用 Chinchilla(一个 700 亿参数的语言模型)对推测采样进行基准测试,在分布式设置中实现 2-2.5 倍的解码加速,而不会影响样本质量或对模型本身进行修改 ...

0 0 0 0 2026/03/15 arXiv:2302.01318v1 chunbs

近年来,大型数据集阻碍了有效的模型训练,同时还包含冗余概念。数据集蒸馏的目的是合成紧凑的数据集,保留大规模训练集的知识,同时大幅减少存储和计算。扩散模型的最新进展通过利用预先训练的生成先验实现了免训练蒸馏;然而,现有的指导战略仍然有限。当前基于分数的方法要么执行无引导的去噪,要么依赖于对实例原型质心(IPC 质心)的简单的基于模式的指导,这通常是初级的且次优的。我们提出了Manifold-Guided Distillation (ManifoldGD),这是一种基于扩散的免训练框架,在每个去噪时间步长中集成了多种一致的指导。我们的方法采用通过 VAE 潜在特征的分层、分裂聚类计算的 IPC,产生 IPC 的多尺度核心集,该 IPC 可以捕获粗略的语义模式和精细的类内变异性。使用提取的 IPC 质心的局部邻域,我们为每个扩散去噪时间步创建潜在流形。在每个去噪步骤中,我们将模式对齐向量投影到估计的潜在流形的局部切线空间上,从而限制生成轨迹保持流形忠实,同时保持语义一致性。该公式提高了代表性、多样性和图像保真度,无需任何模型重新训练。实证结果表明,在 FID、真实和合成数据集嵌入之间的 l2 距离以及分类精度方面,与现有的免训练和基于训练的基线相比,ManifoldGD 取得了一致的成果,将 ManifoldGD 确立为第一个几何感知的免训练数据蒸馏框架 ...

0 0 0 0 2026/03/15 arXiv:2602.23295v1 Ollama

数据集蒸馏的目的是从大型数据集中合成紧凑但信息丰富的数据集。该领域的一个重大挑战是在单个精炼数据集中实现多样性、泛化性和代表性的三重效果。尽管最近的生成数据集蒸馏方法采用强大的扩散模型作为其基础模型,但忽略了扩散模型先验的固有代表性。因此,这些方法通常需要整合外部约束以提高数据质量。为了解决这个问题,我们提出了扩散先验(DAP),它通过使用 Mercer 内核量化特征空间中合成数据和真实数据之间的相似性来形式化代表性。然后,我们引入此先验作为引导反向扩散过程的指导,从而在无需任何再训练的情况下增强蒸馏样品的代表性。对大规模数据集(例如 ImageNet-1K 及其子集)的大量实验表明,DAP 在生成高保真数据集方面优于最先进的方法,同时实现了卓越的跨架构泛化。我们的工作不仅在扩散先验和数据集蒸馏的目标之间建立了理论联系,而且还提供了一个实用的、免训练的框架来提高蒸馏数据集的质量 ...

0 0 0 0 2026/03/15 arXiv:2510.17421v1 Ollama

自然语言处理 (NLP) 通过分析社交媒体或新闻媒体的文本,展示了支持财务决策的巨大潜力。在这项工作中,我们构建了一个平台来系统地研究 NLP 辅助的股票自动交易算法。与之前的工作相比,我们的平台具有三个特点:(1)我们提供每只特定股票的财经新闻。 (2)我们为每只股票提供各种股票因子。 (3) 我们从更多与财务相关的指标来评估绩效。这样的设计使我们能够在更现实的环境中开发和评估 NLP 辅助的股票自动交易算法。除了设计评估平台和数据集集合之外,我们还提出了一种从各种输入信息中自动学习良好特征表示的系统,从而做出了技术贡献。我们算法的关键是一种称为语义角色标签池(SRLP)的方法,它利用语义角色标签(SRL)来创建每个新闻段落的紧凑表示。在SRLP的基础上,我们进一步结合其他股票因素来做出最终的预测。此外,我们提出了一种基于 SRLP 的自监督学习策略,以增强系统的分布外泛化性能。通过我们的实验研究,我们表明,所提出的方法取得了更好的性能,并且优于所有基线的年化收益率以及沪深300指数和XIN9指数在实际交易中的最大回撤。我们的 Astock 数据集和代码可从此 https URL 获取 ...

0 0 0 0 2026/03/15 arXiv:2206.06606v1 nnstake