- 名称
- Visual Parser: Representing Part-whole Hierarchies with Transformers
- 描述
人类视觉能够捕捉整个场景的部分-整体层次信息。本文提出了视觉解析器(ViP),它使用转换器显式地构建了这样的层次结构。 ViP将视觉表征分为两个层次:局部层次和整体层次 ...
人类视觉能够捕捉整个场景的部分-整体层次信息。本文提出了视觉解析器(ViP),它使用转换器显式地构建了这样的层次结构。 ViP将视觉表征分为两个层次:局部层次和整体层次 ...