我们引入了一种基于检测的通用文本行识别方法,无论是打印的 (OCR) 还是手写的 (HTR),包括拉丁字符、中文字符或加密字符。迄今为止,基于检测的方法在 HTR 中已被大量抛弃,因为单独读取字符通常具有挑战性,而且字符级注释既困难又昂贵。我们通过三个主要见解克服了这些挑战:(i)使用足够多样化的数据进行综合预训练可以学习任何脚本的合理字符定位; (ii) 现代基于 Transformer 的检测器可以联合检测大量实例,并且如果使用适当的掩蔽策略进行训练,可以利用不同检测之间的一致性; (iii)一旦获得具有近似字符定位的预训练检测模型,就可以通过实际数据上的行级注释对其进行微调,即使使用不同的字母表也是如此。我们的方法被称为 DTLR,它建立在与最先进的 HTR 方法完全不同的范式之上,后者依赖于自回归解码,逐个预测字符值,同时我们并行处理完整的行。值得注意的是,我们在大量脚本上展示了良好的性能,通常使用专门的方法来处理。特别是,我们提高了 CASIA v2 数据集上的中文文字识别以及 Borg 和 Copiale 数据集上的密码识别的最先进性能。我们的代码和模型可从此 https URL 获取 ...
大型语言模型 (LLM) 服务基础设施正在经历向异构性和分解的转变。现代部署越来越多地集成不同的加速器和近内存处理技术,引入显着的硬件异构性,而系统软件越来越多地跨分布式资源分离计算、内存和模型组件,以提高可扩展性和效率。因此,LLM 服务性能不再由孤立的硬件或软件选择决定,而是由它们通过调度、数据移动和互连行为进行的运行时交互决定。然而,理解这些交互仍然具有挑战性,因为现有模拟器缺乏在统一的运行时驱动框架内联合建模异构硬件和分解服务技术的能力。本文介绍了 LLMServingSim 2.0,这是一个统一的系统级模拟器,旨在使异构和分散的 LLM 服务基础架构中运行时驱动的硬件-软件交互变得明确且可分析。 LLMServingSim 2.0 将服务决策和硬件行为嵌入到单个运行时循环中,从而实现批处理、路由、卸载、内存和电源的交互感知建模。该模拟器通过基于配置文件的建模支持新兴加速器和内存系统的可扩展集成,同时捕获动态服务行为和系统级效果。我们根据实际部署验证了 LLMServingSim 2.0,结果表明它能够以 0.97% 的平均误差重现关键性能、内存和功耗指标,同时即使对于复杂的配置,也能保持大约 10 分钟的模拟时间。这些结果表明,LLMServingSim 2.0 在硬件创新和服务系统设计之间架起了一座实用的桥梁,支持下一代 LLM 服务基础设施的系统探索和协同设计 ...
在本文中,我们提出了 FSOD-VFM:具有视觉基础模型的少样本目标检测器,这是一个利用视觉基础模型来应对少样本目标检测挑战的框架。 FSOD-VFM 集成了三个关键组件:用于生成与类别无关的边界框的通用提议网络 (UPN)、用于精确掩模提取的 SAM2 以及用于高效适应新对象类别的 DINOv2 特征。尽管基础模型具有很强的泛化能力,但 UPN 生成的边界框经常受到过度碎片化的影响,仅覆盖部分对象区域,并导致大量小的误报建议,而不是准确、完整的对象检测。为了解决这个问题,我们引入了一种新颖的基于图的置信度重新加权方法。在我们的方法中,预测的边界框被建模为有向图中的节点,并应用图扩散操作在网络中传播置信度分数。这种重新加权过程细化了提案的分数,为整个对象分配了更高的置信度,为局部、碎片化的部分分配了较低的置信度。该策略提高了检测粒度,有效减少了误报边界框提案的发生。通过对 Pascal-5$^i$、COCO-20$^i$ 和 CD-FSOD 数据集的广泛实验,我们证明我们的方法大大优于现有方法,无需额外训练即可实现卓越的性能。值得注意的是,在跨越多个数据集和领域的具有挑战性的 CD-FSOD 数据集上,我们的 FSOD-VFM 在 10 次拍摄设置中实现了 31.6 AP,大大优于以前仅达到 21.4 AP 的免训练方法。代码可在以下位置获得:此 https URL ...
受其卓越的几何感知和一般物体识别能力的推动,自动驾驶社区对 3D 占用预测表现出了浓厚的兴趣。为了实现这一目标,当前的工作尝试构建从鸟瞰图感知延伸的三视角(TPV)或占用(OCC)表示。然而,像 TPV 表示这样的压缩视图会丢失 3D 几何信息,而原始和稀疏的 OCC 表示需要大量但冗余的计算成本。为了解决上述限制,我们提出了紧凑占用变换器(COTR),它具有几何感知占用编码器和语义感知组解码器来重建紧凑的 3D OCC 表示。占用编码器首先通过高效的显式-隐式视图变换生成紧凑的几何 OCC 特征。然后,占用解码器通过从粗到细的语义分组策略进一步增强紧凑OCC表示的语义可辨别性。实证实验表明,多个基线都有明显的性能提升,例如,COTR 优于基线,相对提高了 8%-15%,这证明了我们方法的优越性 ...
基于扩散的视觉生成的最新进展很大程度上依赖于具有变分自动编码器(VAE)的潜在扩散模型。虽然这种 VAE+扩散范式对于高保真合成有效,但其训练效率有限、推理速度慢以及向更广泛的视觉任务的可迁移性较差。这些问题源于 VAE 潜在空间的一个关键限制:缺乏清晰的语义分离和强判别结构 ...
图像融合旨在组合来自不同源图像的信息以创建具有全面代表性的图像。现有的融合方法通常无法应对低质量源图像的退化,并且无法满足多种主观和客观需求。为了解决这些问题,我们引入了一种新颖的方法,该方法利用语义文本引导图像融合模型来执行退化感知和交互式图像融合任务,称为 Text-IF。它创新地将经典图像融合扩展到文本引导图像融合,并能够协调解决融合过程中的退化和交互问题。通过文本语义编码器和语义交互融合解码器,Text-IF可以实现一体化的红外和可见光图像劣化感知处理和交互式灵活的融合结果。这样,Text-IF不仅实现了多模态图像融合,还实现了多模态信息融合。大量实验证明,我们提出的文本引导图像融合策略在图像融合性能和退化处理方面比SOTA方法具有明显的优势。该代码可从此 https URL 获取 ...
3D视觉的基础模型最近在3D感知中表现出了显着的功能。但是,由于推理时间效率低下,将这些模型扩展到长期图像输入仍然是一个重大挑战。在这项工作中,我们介绍了VGGT的详细分析,VGGT是一种最先进的馈送视觉几何模型,并识别其主要瓶颈 ...
医学图像通常以其结构化的解剖表示和空间不均匀对比度为特征。利用神经网络中的解剖学先验可以极大地增强其在资源有限的临床环境中的实用性。先前的研究已利用此类信息进行图像分割,但可变形图像配准方面的进展却很有限。我们的工作引入了 textSCF,这是一种集成了空间协变滤波器和由视觉语言模型编码的文本解剖提示的新颖方法,以填补这一空白。这种方法优化了一个隐式函数,该函数将解剖区域的文本嵌入与过滤器权重相关联,从而放松了卷积运算的典型平移不变性约束。 TextSCF 不仅可以提高计算效率,还可以保持或提高配准精度。通过捕捉解剖区域之间的上下文相互作用,它提供了令人印象深刻的区域间可转移性以及在配准过程中保留结构不连续性的能力。 TextSCF 的性能经过了受试者间脑部 MRI 和腹部 CT 配准任务的严格测试,在 MICCAI Learn2Reg 2021 挑战赛中超越了现有最先进的模型,并在排行榜上处于领先地位。在腹部配准中,textSCF 较大的模型变体比第二好的模型提高了 11.3% 的 Dice 分数,而其较小的变体保持了相似的精度,但网络参数减少了 89.13%,计算操作减少了 98.34% ...
许多基本的操作任务——例如食物准备、手术和工艺——对于自主机器人来说仍然是棘手的。这些任务的特点不仅是接触丰富、力敏感的动力学,而且还具有“隐含”的成功标准:与拾放不同,这些领域的任务质量是连续的和主观的(例如土豆去皮的程度),这使得定量评估和奖励工程变得困难。我们以用刀削皮为代表示例,提出了此类任务的学习框架。我们的方法遵循两个阶段的流程:首先,我们通过力感知数据收集和模仿学习来学习强大的初始策略,从而实现跨对象变化的泛化;其次,我们使用学习奖励模型通过基于偏好的微调来完善策略,该模型将定量任务指标与定性人类反馈相结合,使策略行为与人类对任务质量的概念保持一致。仅使用 50-200 条削皮轨迹,我们的系统就黄瓜、苹果和土豆等具有挑战性的农产品实现了超过 90% 的平均成功率,通过基于偏好的微调,性能提高了高达 40%。值得注意的是,针对单一农产品类别训练的策略对未见过的类别内实例和来自不同类别的分配外农产品表现出强大的零样本泛化能力,同时保持超过 90% 的成功率 ...
人重新识别(RE-ID)是一项具有挑战性的任务,涉及在监视系统中识别不同相机视图的同一个人。当前的方法通常依赖于单相机视图中的功能,在处理多个摄像机和挑战(例如改变观点和遮挡)等挑战时可能会受到限制。在本文中,引入了一种新方法,该方法通过不确定的特征融合方法(UFFM)和自动加权测量组合(AMC)增强了REID模型的能力 ...