时间动作定位(TAL)仍然是视频理解中的一个基本挑战,旨在识别未修剪视频中所有动作实例的开始时间、结束时间和类别。虽然最近像 ActionFormer 这样的单阶段无锚模型通过利用 Transformer 进行时间推理设定了高标准,但它们经常遇到两个长期存在的问题:具有不明确或“模糊”时间边界的动作的精确定位以及多尺度上下文信息的有效融合。在本文中,我们介绍了时间边界变换器(TBT-Former),这是一种直接解决这些限制的新架构。 TBT-Former 通过三个核心贡献增强了 ActionFormer 的强大基线:(1)容量更大的 Transformer 主干,具有更多的注意力头和扩展的多层感知器(MLP)维度,以实现更强大的时间特征提取; (2)跨尺度特征金字塔网络(FPN),将自上而下的路径与横向连接相结合,能够更丰富地融合高层语义和低层时间细节; (3)一种新颖的边界分布回归头。受广义焦点损失(GFL)原理的启发,这个新头将边界回归这一具有挑战性的任务重新定义为更灵活的概率分布学习问题,使模型能够明确地表示和推理边界不确定性。在基于 Transformer 的架构范式中,TBT-Former 推进了其前辈设定的强大基准,在竞争激烈的 THUMOS14 和 EPIC-Kitchens 100 数据集上建立了新的性能水平,同时在大规模 ActivityNet-1.3 上保持竞争力。我们的代码可在此 https URL 获取 ...

0 0 0 0 2025/12/12 arXiv:2512.01298v1 COO

卷积和自注意力是表示学习的两种强大技术,它们通常被认为是两种彼此不同的同行方法。在本文中,我们表明它们之间存在很强的潜在关系,从某种意义上说,这两种范式的大量计算实际上是通过相同的操作完成的。具体来说,我们首先证明内核大小为 k x k 的传统卷积可以分解为 k^2 个单独的 1x1 卷积,然后进行移位和求和操作。然后,我们将自注意力模块中的查询、键和值的投影解释为多个 1x1 卷积,然后计算注意力权重和值的聚合。因此,两个模块的第一阶段包括类似的操作。更重要的是,与第二级相比,第一级贡献了主要的计算复杂性(通道大小的平方)。这种观察自然会导致这两种看似不同的范式的优雅整合,即一个混合模型,它既享受自注意力和卷积(ACmix)的好处,同时与纯卷积或自注意力对应物相比,具有最小的计算开销。大量实验表明,我们的模型在图像识别和下游任务方面比竞争基线取得了持续改进的结果。代码和预训练模型将在此 https URL 和此 https URL 发布 ...

0 0 0 0 2025/12/12 arXiv:2111.14556v2 COO

单图像去雾是一个具有挑战性的不适定问题,它从观察到的有雾图像中估计潜在的无雾图像。一些现有的基于深度学习的方法致力于通过增加卷积的深度或宽度来提高模型性能。卷积神经网络(CNN)结构的学习能力仍有待探索。在本文中,提出了由细节增强卷积(DEConv)和内容引导注意(CGA)组成的细节增强注意块(DEAB)来促进特征学习,从而提高去雾性能。具体来说,DEConv将先验信息集成到普通卷积层中以增强表示和泛化能力。然后通过使用重新参数化技术,DEConv 等效地转换为普通卷积,没有额外的参数和计算成本。通过为每个通道分配唯一的空间重要性图(SIM),CGA 可以关注特征中编码的更多有用信息。此外,还提出了一种基于 CGA 的混合融合方案,以有效地融合特征并辅助梯度流。通过结合上述组件,我们提出了细节增强注意网络(DEA-Net)来恢复高质量的无雾图像。大量的实验结果证明了我们的 DEA-Net 的有效性,仅用 3.653 M 参数就将 PSNR 指数提高了 41 dB 以上,优于最先进的 (SOTA) 方法。我们的 DEA-Net 的源代码将在此 https URL 上提供 ...

0 0 0 0 2025/12/12 arXiv:2301.04805v1 COO

由于航拍图像中物体的任意方向,旋转等方差是航拍物体检测器的一个关键属性。然而,最近关于旋转等变空中物体检测的研究仍然很少。大多数检测器依靠数据增强来使模型能够学习近似旋转等变特征。一些检测器构建了旋转等变网络,但由于典型的下采样过程打破了严格的旋转等变性,这些网络只能实现近似旋转等变的主干网。航空图像目标检测是否需要严格的旋转等变仍然是一个悬而未决的问题。在本文中,我们实现了具有更先进网络结构的严格旋转等变主干和颈部网络,并将其与近似旋转等变网络进行比较,以定量测量旋转等变对航空图像检测器性能的影响。此外,利用旋转等变特征的固有分组性质,我们提出了一种多分支头网络,可以减少参数数量,同时提高检测精度。基于上述改进,本研究提出了多分支头部旋转等变单级检测器(MessDet),它以极低的参数数在具有挑战性的航空图像数据集 DOTA-v1.0、DOTA-v1.5 和 DIOR-R 上实现了最先进的性能 ...

0 0 0 0 2025/12/10 arXiv:2507.09896v1 COO

遥感对象检测(RSOD)在复杂的视觉环境中面临着巨大的挑战。天线和卫星图像固有地受到诸如低空间分辨率,传感器噪声,模糊的物体,低光降解和部分闭塞等局限性。这些降解因子共同损害了检测模型中的特征可区分性,从而导致了三个关键问题:(1)减少对比度,使前景 - 背景分离受阻,(2)边缘表示中的结构性不连续性,以及(3)由微置变化引起的模棱两可的特征响应 ...

0 0 0 0 2025/04/18 arXiv:2503.14012v1 COO

随着深度学习的快速发展,近年来,航空遥感图像中的对象检测变得越来越流行。基于关键点检测采样直接回归和分类特征的大多数当前无锚探测器,基于水平边界框的对象损耗函数的设计。对于复杂和多样化的航空遥感对象,它更具挑战性 ...

0 0 0 0 2025/02/11 arXiv:2303.11694v2 COO

准确地描绘了遥感(RS)图像中现实世界的景观需要精确的对象与其环境之间的对齐。但是,自然图像的大多数现有合成方法优先考虑前景控制,通常将背景减少到纯质地。这忽略了前景与背景之间的相互作用,这可能导致RS场景中的不一致 ...

0 0 0 0 2025/02/05 arXiv:2412.08464v2 COO

本文提出了在设计现代卷积神经网络(Convnets)时大型卷积内核的范式。我们确定使用一些大型内核,而不是堆叠多个较小的内核,这可能是一种卓越的设计策略。我们的作品介绍了一套针对大型内核弯曲的建筑设计指南,以优化其效率和性能 ...

0 0 0 0 2025/02/04 arXiv:2410.08049v1 COO

语义分割对于许多应用程序来说是一项重要任务,但以有限的计算成本实现先进的性能仍然相当具有挑战性。在本文中,我们提出了 CGRSeg,这是一种基于上下文引导的空间特征重建的高效但有竞争力的分割框架。矩形自校准模块经过精心设计,用于空间特征重建和金字塔上下文提取 ...

0 0 0 0 2025/01/09 arXiv:2405.06228v2 COO

与一般物体相比,空中目标通常与周围环境杂乱的任意方向非轴对齐。与回归边界框方向的主流方法不同,本文利用自适应点表示提出了一种有效的自适应点学习方法来进行空中目标检测,该方法能够捕获任意方向实例的几何信息。为此,提出了三种定向转换函数,以方便准确定向的分类和定位 ...

0 0 0 0 2025/01/08 arXiv:2105.11111v4 COO