多模式大型语言模型(MLLM)通过合并视觉感知接口来扩展大语言模型(LLM)的功能,取得了重大步骤。尽管出现了令人兴奋的应用程序以及各种说明调整数据的可用性,但现有方法通常依赖于剪辑或其变体作为视觉分支,而仅从深层中提取功能。但是,这些方法缺乏对MLLM中视觉编码器的全面分析 ...
很少有射击分类旨在识别每个班级中只有很少的标记图像的新型类别。现有的基于公制的几弹性分类算法通过将查询图像的特征嵌入方式与使用学习度量的标记图像(支持示例)的图像进行比较,预测类别。尽管已经证明了有希望的性能,但由于跨域跨域特征分布的较大差异,这些方法通常无法概括为看不见的域 ...
为了快速适应新数据,通常通过使用已获得的知识来从几个示例中学习的目的很少。新数据通常与由于域移位而引起的先前看到的数据有所不同,即输入目标分布的变化。虽然几种方法在小型域移动上表现良好,例如具有相似输入的新目标类,但较大的域移动仍然具有挑战性 ...
跨模式特征提取和集成导致由于产生富裕功能而导致了几次学习任务的稳定性能改进。但是,当面对明显的域移位时,现有的多模式对象检测(MM-OD)方法降低了样本不足。我们假设丰富的文本信息可以更有效地帮助模型建立视觉实例与其语言描述之间的知识关系,并可以帮助减轻域的转移 ...
在本文中,我们提出了一项研究跨域的几个射击对象检测(CD-FSOD)基准,该研究由来自不同数据域的图像数据组成。在拟议的基准上,我们评估了最先进的FSOD方法,包括元学习的FSOD方法和微调FSOD方法。结果表明,这些方法倾向于下降,甚至表现不佳 ...