arxiv Visual Parser: Representing Part-whole Hierarchies with Transformers

名称
Visual Parser: Representing Part-whole Hierarchies with Transformers
首页
https://yiyibooks.cn/arxiv/2107.05790v2/index.html
原始地址
https://arxiv.org/pdf/2107.05790
描述
人类视觉能够捕捉整个场景的部分-整体层次信息。本文提出了视觉解析器(ViP),它使用转换器显式地构建了这样的层次结构。 ViP将视觉表征分为两个层次:局部层次和整体层次 ...