我们提出了 DetToolChain,一种新颖的提示范例,以释放多模态大语言模型 (MLLM)(例如 GPT-4V 和 Gemini)的零样本目标检测能力。我们的方法包括受高精度检测先验启发的检测提示工具包和实现这些提示的新思想链。具体来说,工具包中的提示旨在引导 MLLM 关注区域信息(例如,区域信息) ...
从图像-文本对中导出可靠的区域-词对齐对于学习开放词汇对象检测的对象级视觉语言表示至关重要。现有方法通常依赖于预训练或自训练的视觉语言模型进行对齐,这很容易受到定位精度或泛化能力的限制。在本文中,我们提出了 CoDet,这是一种新颖的方法,通过将区域-单词对齐重新表述为同时出现的对象发现问题,克服了对预对齐视觉-语言空间的依赖 ...
当前针对动物(包括人类)身体和面部的基于图像的关键点检测方法通常分为全监督方法和少镜头类别不可知方法。前者通常依赖于费力且耗时的手动注释,这在将关键点检测扩展到更广泛的关键点类别和动物物种方面提出了相当大的挑战。后者虽然较少依赖于大量的手动输入,但仍然需要必要的支持图像和注释以供测试期间参考 ...
图像字幕已被证明是一种类似于对比预训练的有效预训练方法。然而,将位置感知信息纳入视觉预训练仍然是一个研究有限的领域。在本文中,我们提出了一种带有位置感知字幕器(LocCa)的简单视觉预训练方法 ...