伪装的对象检测(COD)主要依赖于语义或实例分割方法。尽管这些方法在识别伪装对象的轮廓方面取得了重大进步,但对于仅需要对象的特定位置的任务,它们可能效率低下或具有成本效益。在这种情况下,对象检测算法为现实的伪装对象检测(RCOD)提供了优化的解决方案 ...
0 0 0 2025/03/25 arXiv:2501.07297v1 Roa
素描具有表达潜力,使人类甚至可以通过粗糙的轮廓传达对象的本质。我们首次利用这种表达潜力来提高伪装对象检测(COD)等挑战性任务中的细分性能。我们的方法介绍了创新的草图引导的交互式分割框架,使用户可以通过徒手绘制草图(绘制对象的粗糙轮廓),而不是传统的边界框或经典交互式分段模型(如SAM)中使用的传统边界框或点 ...
0 0 0 2025/03/25 arXiv:2501.19329v1 Roa
人类具有通过解释抽象说明手册来理解和执行复杂操作任务的非凡能力。但是,对于机器人而言,这种功能仍然是一个重大的挑战,因为它们无法解释抽象说明并将其转化为可执行的动作。在本文中,我们提出了Manual2Skill,这是一个新颖的框架,使机器人能够执行以高级手动说明为指导的复杂的装配任务 ...
0 1 0 2025/03/25 arXiv:2502.10090v1 Curry123
准确的视网膜血管(RV)分割是视网膜脉管系统定量评估的关键步骤,这是对视网膜疾病和其他疾病的早期发现所需的。已经进行了许多研究,以解决使用像素分类方法自动分割容器的问题。创建地面真相标签的常见做法是将像素分类为前景和背景 ...
0 0 0 2025/03/25 arXiv:2405.16815v2 Theo
人工智能的一致性追求模型响应与人类偏好和价值观之间的一致性。在实践中,人类偏好的多方面性质无意中引入了所谓的“一致性税”——一种妥协,其中增强了一个目标内的一致性(例如, ...
0 0 0 2025/03/25 arXiv:2402.19085v3 微生心月
Dimage Dehazing旨在从朦胧的图像恢复清洁图像。卷积神经网络(CNN)和变形金刚在局部和全局特征提取中表现出了出色的性能,目前代表了图像去险的两个主流框架。在本文中,我们提出了一个新型的双分支图像除尘框架,该框架可以互动地指导CNN和 Transformer 组件 ...
0 0 0 2025/03/25 arXiv:2410.10121v1 jiajia233
空间推理是人类认知的一个基本方面,可以在三维空间中直观地理解和操纵对象。尽管基础模型在某些基准上表现出了出色的性能,但他们仍然在3D推理任务上挣扎,例如根据开放式语言说明在太空中安排对象,尤其是在密集且身体受到限制的环境中。我们介绍了LayoutVLM,这是一个框架和场景布局表示,利用了视觉模型(VLM)的语义知识,并支持可区分的优化以确保物理上的合理性 ...
0 0 0 2025/03/25 arXiv:2412.02193v3 漏视野
3D场景理解是计算机视觉的长期挑战,也是实现混合现实,可穿戴计算和体现AI的关键组成部分。为这些应用程序提供解决方案,需要采用多方面的方法,涵盖以场景为中心,以对象为中心以及以互动为中心的功能。尽管存在许多数据集来解决前一个问题,但理解可相互作用和铰接的对象的任务不足,只有当前作品的部分涵盖 ...
0 0 0 2025/03/25 arXiv:2412.01398v1 漏视野

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)