在多个尺度上表示特征对于许多视觉任务非常重要。主干卷积神经网络(CNN)的最新进展不断展现出更强的多尺度表示能力,从而在广泛的应用中实现一致的性能提升。然而,大多数现有方法以分层方式表示多尺度特征... ...
在图像-文本对上调整大语言模型(LLM)的视觉指令已经实现了通用视觉-语言能力。然而,区域文本对的缺乏限制了它们在细粒度多模态理解方面的进步。在本文中,我们提出了空间指令调整,它在指令中引入了对感兴趣区域(RoI)的引用 ...
计算机使用代理通过直接与计算机和移动设备上的图形用户界面(GUI)进行交互来自动化数字任务,从而通过完成用户查询的开放式空间来提高人类生产力。但是,当前的代理商面临重大挑战:GUI元素的不精确基础,长期任务计划的困难以及依靠单个通才模型来执行各种认知任务的绩效瓶颈。为此,我们介绍了Agent S2,这是一个新颖的构图框架,该框架将各种通才和专业模型的认知责任委托 ...
在本文中,我们提出了Huatuogpt,这是一种大型语言模型(LLM),用于医学咨询。 Huatuogpt的核心食谱是在受监督的微型阶段中利用\ textit {devilled {来自Doctors的蒸馏数据和\ textit {真实世界数据}。 Chatgpt的回答通常是详细的,富有说明和信息丰富的,而在许多方面都不能像医生一样表现 ...
知识图完成〜(kgc)任务旨在从不完整的三倍中推断出缺失的实体。现有的基于嵌入的方法仅依赖于公园中的三元组,这很容易受到相当的关系模式和长尾实体的影响。另一方面,基于文本的方法在KG三元和自然语言之间的语义差距上挣扎 ...
深层聚类学习没有标签信息的表示表示和语义聚类,这对基于深度学习的方法构成了巨大的挑战。尽管近年来取得了重大进展,但大多数现有的方法都集中在统一分布的数据集上,从而大大限制了其方法的实际适用性。在本文中,我们首先引入了一个更实用的问题设置,名为“深度不平衡聚类”,基础类别的分布表现出不平衡的分布 ...
我们提出了一个简单而有效的无锚固实例分割,称为Centermask,它增加了一种新型的空间注意力引导蒙版(SAG掩码)分支,以使用掩模R-CNN的同一静脉中锚定无阶段的一个阶段对象检测器(FCO)。插入FCOS对象检测器中的SAG掩码分支可以使用空间注意力图预测每个框上的分割掩码,这有助于专注于内容丰富的像素并抑制噪声。我们还提出了一个有效的策略:(1)减轻较大Vovnet \ Cite {lee ...
从单个图像中,视觉提示可以帮助推断出固有和外在的摄像头参数,例如焦距和重力方向。这种单像校准可以使各种下游应用程序受益,例如图像编辑和3D映射。当前解决此问题的方法基于具有线条和消失点的经典几何形状,也可以基于经过训练的端到端的深度神经网络 ...