arxiv Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

名称
Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering
首页
https://yiyibooks.cn/arxiv/2207.12647v8/index.html
原始地址
https://arxiv.org/pdf/2207.12647.pdf
描述
现有的视觉问答方法经常受到跨模式虚假相关性和过于简化的事件级推理过程的影响,无法捕获视频中的事件时间性、因果关系和动态。在这项工作中,为了解决事件级视觉问答的任务,我们提出了一个跨模式因果关系推理的框架。特别是,引入了一组因果干预操作来发现跨视觉和语言模式的潜在因果结构 ...