视频内容制作的快速增长带来了巨大的数据量,给高效分析和资源管理带来了巨大挑战。为了解决这个问题,强大的视频分析工具至关重要。本文提出了一种创新的概念证明,使用视觉语言模型形式的生成人工智能(GenAI)来增强下游视频分析过程。我们的工具根据用户定义的查询生成定制的文本摘要,在广泛的视频数据集中提供有针对性的见解。与提供通用摘要或有限动作识别的传统方法不同,我们的方法利用视觉语言模型来提取相关信息,从而提高分析精度和效率。所提出的方法从大量闭路电视录像中生成文本摘要,然后可以在与视频相比非常小的存储空间中无限期存储,从而使用户能够快速导航和验证重要事件,而无需进行详尽的手动审查。定性评估的时间和空间质量以及管道一致性的准确度分别为 80% 和 70% ...
跨域少样本分割旨在根据少数样本对数据稀缺域中的类别进行分割。典型的方法首先在大规模源域中建立小样本能力,然后将其适应目标域。然而,由于目标样本的数量和多样性有限,现有方法仍然表现出有限的性能。此外,源训练模型最初在目标域中的小样本能力较弱,再加上巨大的域差距,严重阻碍了目标样本的有效利用,并进一步阻碍了适应。为此,我们提出了多视图渐进适应,它从数据和策略的角度逐步将少样本能力适应目标领域。 (i)从数据的角度来看,我们引入了混合渐进增强,它通过累积的强增强逐步生成更加多样化和复杂的视图,从而创建越来越具有挑战性的学习场景。 (ii)从策略的角度来看,我们设计了双链多视图预测,它通过在广泛监督下的顺序和并行学习路径充分利用这些逐渐复杂的视图。通过在不同和复杂的视图中联合执行预测一致性,MPA 实现了对目标领域的稳健和准确的适应。大量实验表明,MPA 可以有效地将小样本能力适应目标域,大大优于最先进的方法 (+7.0%) ...