- 名称
- An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding
- 描述
大多数先进的视觉接地方法依靠 Transformer 进行视觉语言特征融合。但是,这些基于 Transformer 的方法遇到了一个重要的缺点:由于 Transformer 编码器中的自我发起机制,尤其是在处理高分辨率图像或长上下文句子时,计算成本正常升级。计算负担的这种二次增加限制了视觉接地对更复杂的场景的适用性,例如基于对话的推理细分,涉及冗长的语言表达式 ...