参考图片分割旨在通过自然语言将引用率划分为本http url到文本和图像之间的不同数据属性,对于网络而言,良好地对齐文本和像素级特征是一项挑战。现有的方法使用预验证的模型来促进学习,但分别从验证的模型中传递了语言/视觉知识,而忽略了多模式的相应信息。受到对比的语言图像预处理(剪辑)的最新进展的启发,我们在本文中提出了一个端到端夹子驱动的参考图像分割框架(CRIS) ...

0 0 0 0 2025/04/17 arXiv:2111.15174v2 chengwenxuan7

引用表达分割(RES)旨在分割与描述性语言表达式相匹配的实体掩模。尽管传统的RES方法主要解决对象级接地,但现实世界的场景需要一个更通用的框架,该框架可以处理多个级别的目标粒度,例如多对象,单个对象或部分级别的引用。由于用户描述目标的多样化和细微差别的方式,这引入了巨大的挑战 ...

0 0 0 0 2025/04/17 arXiv:2504.01954v1 chengwenxuan7

在这项工作中,我们探索了用于视觉接地的整洁而有效的基于 Transformer 的框架。先前的方法通常解决了视觉接地的核心问题,即 ...

0 0 0 0 2025/04/06 arXiv:2206.06619v1 chengwenxuan7

引用视频对象细分(RVO)的目的是基于文本描述整个视频中的目标对象。尽管近年来取得了显着的进展,但由于视频语言的理解有限,当前的RVOS模型仍在努力处理复杂的对象描述。为了解决此限制,我们提出\ textbf {refledino},这是一种端到端的RVOS模型,从预算的视觉接地基础模型中继承了强烈的视觉理解,并进一步赋予了有效的时间理解和对象细分功能 ...

0 0 0 0 2025/02/09 arXiv:2501.14607v1 chengwenxuan7

多任务视觉接地涉及基于文本表达式在图像中同时执行本地化和分割。大多数高级方法主要集中于基于 Transformer 的多模式融合,旨在提取强大的多模式表示。但是,参考表达理解(REC)与参考图像分割(RIS)之间的歧义是容易出错的,导致多任务预测之间的不一致 ...

0 0 0 0 2025/02/07 arXiv:2501.06710v1 chengwenxuan7

解决参考表达接地的流行框架是基于两个阶段的过程:1)检测具有对象检测器的建议,以及2)将指称固定到其中一个建议中。现有的两阶段解决方案主要集中在基础步骤上,该步骤旨在使表达式与提案保持一致。在本文中,我们认为这些方法忽略了在两个阶段的提案角色之间存在明显的不匹配:它们仅基于检测置信度就会生成建议(i ...

0 0 0 0 2025/01/27 arXiv:2009.01449v3 chengwenxuan7

统计力学的可集成晶格模型与满足多维一致性的离散集成方程之间存在对应关系,其中后者可以在前者的准经典扩展中找到。本文将此对应关系扩展到相互作用-A-FACE(IRF)模型,从而导致了一致性AROUND-A-CUBE(CAC)的集成性条件的新公式,适用于方形晶格中的五点方程。这些方程式的多维一致性被表述为一致性偏心的以中为中心的立方体(CAFCC),即涉及满足面部中心单位细胞上八个未知变量的14个五点晶格方程的过度确定系统 ...

0 0 0 0 2025/01/27 arXiv:2003.08883v6 chengwenxuan7

在本文中,我们解决了参考表达理解:将自然语言表达式描述的图像区域定位。尽管最近的工作将表达式视为一个单元,但我们建议将它们分解为与主题外观,位置和与其他物体的关系有关的三个模块化组件。这使我们可以灵活地适应端到端框架中包含不同类型信息的表达式 ...

0 0 0 0 2025/01/27 arXiv:1801.08186v3 chengwenxuan7

大型多模态模型(LMM)的最新进展已经认识到细粒度基础是视觉理解和对话的必要因素。然而,LMM 中这种表示的好处仅限于自然图像领域,并且这些模型在遥感 (RS) 方面表现不佳。高分辨率遥感图像中独特的俯视视角、尺度变化和小物体的存在给区域级理解带来了独特的挑战 ...

0 0 0 0 2025/01/25 arXiv:2501.13925v1 chengwenxuan7

以人为本的感知在现实世界的应用中发挥着至关重要的作用。虽然最近以人为中心的工作取得了令人印象深刻的进展,但这些努力往往局限于视觉领域,缺乏与人类指令的交互,限制了它们在聊天机器人和体育分析等更广泛场景中的适用性。本文介绍了引用人类感知,其中引用提示指定图像中感兴趣的人 ...

0 0 0 0 2024/12/24 arXiv:2412.14643v1 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)