arxiv An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding

名称
An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding
首页
https://yiyibooks.cn/arxiv/2408.01120v1/index.html
原始地址
https://arxiv.org/pdf/2408.01120
描述
大多数先进的视觉接地方法依靠 Transformer 进行视觉语言特征融合。但是,这些基于 Transformer 的方法遇到了一个重要的缺点:由于 Transformer 编码器中的自我发起机制,尤其是在处理高分辨率图像或长上下文句子时,计算成本正常升级。计算负担的这种二次增加限制了视觉接地对更复杂的场景的适用性,例如基于对话的推理细分,涉及冗长的语言表达式 ...