arxiv Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering

名称
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering
首页
https://yiyibooks.cn/arxiv/2306.00526v4/index.html
原始地址
https://arxiv.org/pdf/2306.00526.pdf
描述
布局感知预训练模型在文档图像问答方面取得了重大进展。他们将额外的可学习模块引入到现有语言模型中,以从 OCR 工具获得的文本边界框坐标中捕获文档图像中的布局信息。然而,额外的模块需要对大量文档图像进行预训练 ...